2022.11.11Source: 数据杂志
因果关系一般被认为是各种自然现象和社会现象之间的一种内在的必然联系,是一个问题与其最终答案之间环环相扣的逻辑链条。在现代企业经营场景中,涉及决策的环节越来越多,而如果要让每一项决策更加科学并得到广泛的支持理解,毫无疑问,将因果关系阐释清楚将是一项有力的手段。
沿着这一思路,近年来不断落地的人工智能应用也有了新的探索方向——智能决策。在九章云极 DataCanvas开源技术副总裁、D-Lab主任杨健看来,因果学习将成为决策智能未来的关键技术,而降低因果学习的应用门槛是当务之急。
潮流所向
商业决策向智能升级
决策在企业中无处不在,杨健认为,在近几年不断被提及的“数智化”升级浪潮中,占据核心地位的正是智能决策。杨健介绍,企业的商业智能大概分成三个阶段:第一个阶段解决描述性分析和诊断性分析问题,这个阶段主要依赖传统的 BI 工具,告诉企业过去发生了什么、为什么会发生;第二个阶段解决预测性分析问题,告诉企业未来有可能会发生什么,这个阶段的特征之一便是高度依赖人工智能算法,比如机器学习、深度学习之类的技;第三个阶段解决指导性分析问题,要告诉企业如果想要实现一个目标需要如何去做,这是典型的智能决策类任务,需要解决很多认知层面的问题。
从行业应用的现状来看,随着企业对机器学习算法的大量应用,现阶段解决预测性任务的能力已逐渐成熟,企业对人工智能的需求正在从第二个阶段预测性分析向第三个阶段指导性分析升级。
“举个简单的例子,如果企业计划做一个优惠券促销活动,那么传统的方式是业务专家经过各种数据分析和经验来设计一个方案,优惠券的额度、发放的目标客群等等,整个过程都是人来决策,这种方案很难考虑到个体的特性和需求,例如对优惠券的喜好度、对金额的敏感度以及优惠券的使用场景等。而因果学习工具可以通过对历史数据的学习,根据因果分析、因果效应估计,实现为每个用户制定专门的优惠券方案,这是人工所无法实现的。这种千人千面的方案能够为企业降低成本,提高转化率,有效提高整体ROI(投入产出比)。”杨健说道。
众望所归
因果学习成关键技术
在介绍商业智能的第三个阶段——指导性分析阶段时,杨健将因果学习描述为这一阶段
的关键技术。事实上,业内很多专家也对此进行了探索。
图灵奖得主Judea Pearl曾表示,现有的机器学习模型不过是对数据的精确曲线拟合,只是在上一代的基础上提升了性能,在基本的思想方面没有任何进步。
杨健进一步阐释道,“在机器学习的发展过程中的确暴露出一些短板,最突出的一点就是目前的机器学习主要解决‘是什么’(What Problem)的问题,但是没有办法解决‘为什么’的问题,因为Why 、How 、What if这方面的问题需要更高水平的认知能力。因此,机器学习主要用在预测性分析上,基本上没有能力解决指导性分析这样的决策问题。”
根据福布斯的统计数据,全球范围只有13% 左右的机器学习项目能够真正上线运行,失败的项目其中很重要的一个原因就是模型的泛化能力不足,在真实数据上的表现完全达不到训练数据上的效果。
而因果学习恰好可以有效地补充机器学习这方面的短板。据了解,因果学习的作用之一正是帮助人们发现事物最底层的因果关系,量化评估不同因素之间的因果影响,甚至能够帮助人们推断反事实结果,这些能力使其逐渐成为解决智能决策问题的基础工具。
“在此背景下,因果学习正在被学界和业界逐渐重视起来,一方面可以补充机器学习的一些短板,另一方面可以满足智能决策这类问题的需求。可以说因果学习正在引领人工智能领域的一次范式革命。”杨健介绍道。
山高路远
技术应用遇门槛难题
与学界和业界对因果学习的乐观预期相比,现阶段这一技术正面临一些更为现实的问题——行业应用存在较高的门槛。发掘更深层次的原因就会发现,因果学习人才的稀缺程度比机器学习领域还要严重,同时也缺乏成熟、易用的算法工具,因此目前这一技术还未能在
业界大范围地应用起来。
但降低技术的应用门槛谈何容易,要充分认识这一点,不妨先了解一下典型的完整因果推断流程。根据杨健介绍,这一流程主要由三个部分组成:
第一,数据中的因果结构应当首先被学习和发现,用作这一任务的手段通常被称为因果发现(causal discovery)。这 些被 发现 的因果关系会被表示为因果结构公式(structural
causal models, SCM)或因果图(directed acyclic graphs, DAG)。
第二,需要将我们感兴趣的因果问题中的量用因果变量(causal estimand)表示,这些因果变量接下来会通过因果效应识别转化为统计变量 statistical estimand),这是因为因果变量无法从数据中直接估计,只有识别后的因果变量才可以从数据中被估计出来。
最后,需要选择合适的因果估计模型从数据中去学习这些被识别后的因果变量。完成这些事情之后,诸如策略估计问题和反事实问题等因果问题也可以被解决了。
总的来看,因果学习主要包含因果发现、因果量识别、因果效应估计、反事实推断和策略学习这五类任务。杨健表示,这几个任务之间有着承上启下、相互依赖的关系,因此如果一个工具不能实现端到端全流程地解决这些问题,对算法人员来说就要付出很大的代价去整合不同的工具或者手工实现一些工具不能支持的算法。
孜孜以求
深入行业加快技术验证
瞄准降低应用门槛的目标,九章云极DataCanvas推出一站式处理因果学习完整流程的开源算法工具包——YLearn。通过把因果学习领域最新的研究成果工程化、工具化,让企业可以以最低的门槛、最小的代价把这些研究成果应用到解决实际问题当中,从而加速决策智能在企业中的发展。
据了解, YLearn本身是一个开源项目,对因果学习有兴趣的算法人员、研究人员、开发人员包括企业都是其潜在用户。广泛的潜在用户群体使九章云极DataCanvas拥有更多的机会来推动YLearn在各行各业中进行技术验证。
杨健介绍,在技术验证过程中一项重要的应用就是提升建模,而提升建模的核心是把目
标用户准确划分到4个象限里。以金融机构推广理财产品为例,现实中用户会有4类 :
1. 确定会购买的用户,不管我是否推荐这类用户都会购买(铁粉);
2. 不管我是否推荐他都不会购买(黑粉);
3. 我的推荐会提高用户购买转化的,如果不推荐他不会购买(路转粉);
4. 一些静默用户本来已经订阅了我们的服务,一旦收到我们的推荐提醒反而取消了订阅(粉转黑)。
对1、2类用户(铁粉、黑粉),企业并不需要加以干预,因为这项投入的成本收益为0,因此可以节省营销成本;第4类用户(粉转黑)则是坚决不能触达,避免掉粉;企业重点需要触达的是第3类用户(路转粉),从而有效促进购买行为。
“这项任务我们需要通过因果学习里面的异质化因果效应评估来完成,而且还可以更进一步,分析针对不同用户的个性化营销策略,找到收益更高的营销手段从而综合性地提高总体投入产出比。”这正是杨健所介绍的一个非常典型的因果学习技术验证场景。
学而不厌
持续加码技术探索
与持续深化的行业 应用相对应的,因果学习的技术探索也不曾驻足停留。就九章云极DataCanvas 而言,杨健表示,随着 YLearn的不断迭代,工具的成熟度、算法效率以及最新算法的支持方面将不断完善。企业在以下几个方面的工作将逐步展开。
首先是因果机器学习(Causal Machine Learning),通过因果学习的能力改善机器学习,来解决机器学习遇到的一些问题,比如更高效的特征发现、特征工程,同时还有希望通过因果关系提高机器学习的鲁棒性、泛化能力和解释性。
第二是自动化的因果学习(Automated Causal Learning),通过打造自动化的因果学习工具包,提供更高级别的 api 接口,解决自动化调参和优化的问题,让因果学习更简单高效。
第三是决策图谱(Decision Graph),通过把一个系统内的关键运营指标和可干预变量构建出一个基于因果关系的图谱,从而实现用可视化的交互式的方式来推演各种决策动作对运营指标带来的影响。
此外,出于提升社会对因果学习关注度的角度,九章云极DataCanvas主导举办了“因果学习和决策优化挑战赛”。为降低参赛门槛,比赛题目选择了因果领域的基本问题,同时为保证高水平选手拥有足够的发挥空间,赛程中也设置了相关的难点。
“从结果看确实达到了预期效果,比赛一共吸引了将近4000个的团队参加,最终获奖团队的背景也很多样,有很多跨学科和领域的选手也取得了不错的成绩。”杨健认为,“办赛的方式客观上也为发掘技术人才提供了新的渠道和思路。”
结语
九章云极DataCanvas的战略视角中,因果学习是一把钥匙,将为人工智能开启一条从预测到决策的进阶道路。 YLearn则是行驶在路上的一部高速载具,载着技术回归业务,有效支撑决策类业务场景。通过与公司的自动机器学习平台相结合,通过与AutoML技术的融合,实现因果学习的自动调参和优化,进一步降低使用门槛。
从技术开发到应用落地,企业探索与尝试未完待续。