News Center

AI建模不再难:九章云极DataCanvas发布两大开源成果

2021.10.29Source: 51CTO

“软件基础设施会经历一场重大升级,AI落地会是通过软件基础设施升级来实现,一千朵行业云里面的软件基础设施升级会是数据智能这个‘新IT’的历史性机遇,九章云极DataCanvas预测这个未来,也拥抱这个愿景。”日前在北京召开的“2021年数智化高峰论坛”上,九章云极DataCanvas董事长方磊如是说。

中国的AI生态正呈现蓬勃发展之势。如何全面加速AI在各行业场景的落地应用,如何利用AI基础软件加速企业数智化升级,是当前AI领域关注的焦点。

面向AI落地的诸多挑战,多年来在数据科学领域深耕的九章云极DataCanvas致力于在两个方面实现突破:一是通过机器学习和深度学习的自动化,将机器学习建模的能力下沉,实现AI能力的普及化;二是让数据分析的速度更快,服务更及时,从准实时变成毫秒级的实时响应。

就在本次高峰论坛上,九章云极DataCanvas联合创始人暨CTO尚明栋现场开源发布两大自主研发的技术成果——DAT自动机器学习工具包和DingoDB实时交互式分析数据库,恰好为以上两个方面做出了新解。

端到端AutoML:降低AI建模门槛,推动应用百花齐放

传统的AI模型训练往往要经历数据准备、特征工程、模型选择、调参评估等步骤,每一步都无法省略,而且耗时较长,动辄数月。于是自动机器学习(AutoML)技术应运而生,即以自动化的方式,让机器自己来解决这些问题。可以说,AutoML是推进行业AI应用落地的重要技术路径,对于降低AI应用门槛、繁荣AI生态有着深刻意义。

九章云极DataCanvas资深架构师杨健介绍,DataCanvas AutoML Toolkit(DAT)是一个自动机器学习工具套件包,包含了一系列功能强大的AutoML开源工具。该自动建模工具从底层的通用自动机器学习框架到用于结构化及非结构化领域实现了端到端的覆盖,并率先突破机器学习建模过程中“不均衡、概念漂移、泛化能力和大规模数据”4大难点。

DAT就像一个储备丰富的“武器库”,收罗了包括Hypernets、DeepTables、HyperGBM、Cooka在内的各式“奇兵神器”。

构建模型就像搭积木,第一步要确定哪些部件可以用。为此需要先将可用部件编码,定义一个搜索空间,在这个范围内进行筛选;然后确定搜索策略,也就是以一定的方法在众多积木里找到最适合的部件,并且适当地组合它们;最后还需要一个评价标准,用来测试搭建好的模型是否能用、是否好用。所以一款优秀的AutoML框架应当具有:富有表现力的搜索空间描述语言、高效搜索算法和高性能的评估策略。Hypernets就是这样一个自动机器学习的底层通用框架,可以和各种机器学习、深度学习框架结合开发出专用的自动机器学习工具;同时提供开放的训练服务框架,可以满足单节点及分布式高性能的模型训练需求,大大降低了AutoML工具的开发门槛;最新的神经网络架构搜索(NAS)算法的支持,也让深度学习的网络架构设计实现自动化。

此外,DeepTables作为用于结构化数据建模的深度学习工具,具有开箱即用、架构灵活、简单易用等特点,解决了深度学习在结构化数据上表现不佳的难题,在大量的公开数据集上甚至击败了XGBoost、LightGBM等传统算法;

HyperGBM则是基于Hypernets框架融合了多款先进的GBM模型的自动建模工具,不仅能实现全自动机器学习的一键训练,同时还能把整个Pipeline合成单一模型实现一键上线,彻底解决生产化困扰;

而对于没有编程基础的非专业人员,选择Cooka可以轻松完成机器学习建模工作。作为一款界面友好的开源交互式自动机器学习系统,Cooka操作简便,安装在便携式电脑中即可运行。借助Cooka,使用HyperGBM和DeepTables也会变得更加轻松。

综上可以看到,一个好用的 AutoML 平台可以覆盖机器学习的所有步骤。甚至是非IT人员,只要准备好数据,就能得到适合任务目标的模型,这必将对于AI融入千行百业,AI应用百花齐放影响深远。

实时数据分析:配合AI模型,更高效地洞察和预判世界

方磊在大会主题演讲中提到,实时的数据处理非常重要。假如模型训练完毕后,要很长时间才能输出结果,那无疑是令人失望的。比如,一个无人值守的油田发生某种紧急情况需要报警,那么只有当数据收集是实时的、数据处理是实时的、模型预测是实时的,最终结果才能实时通知到相关个人和团队,或者在别的机器上有所反映。这一过程所涉及的核心技术就是实时数据库。只有让数据实时流动起来,配合智能模型才能帮助人类更好地感知这个世界,更加自动化、智能化地做出预判。

九章云极DataCanvas产品总监胡宗星向与会者详细解读了实时分析数据库DingoDB。

DingoDB是新一代集分析与服务于一体的实时分析数据库HSAP(Hybrid Serving & Analytical Processing),支持高频修改和查询、实时交互式分析、实时多维分析。

具体来说,这款实时分析数据库的主要创新点在于:其一、智能优化器实现行列优化选择。DingoDB数据库内置智能SQL优化器,能够实现分析性SQL、记录级SQL的自动优化,基于不同的业务场景实现行存模式、列存模式的智能选择。DingoDB能够通过列存模式实现数据聚合计算,实现高效分析;针对记录级的查询、更新操作,DingoDB通过行存的模式实现数据的快速定位,实现数据的查询和更新操作;其二、高频点查、修改操作。为了满足数据的时效性需求,DingoDB数据存储采用Key-Value的模式实现存储,同时基于数据的副本策略实现数据的行列混合存储。针对高频记录级的场景,如数据关联、记录修改等场景,可以实现记录级的高并发、高频率的查询、修改操作;其三,多副本机制存算弹性扩展。DingoDB数据表采用多分区多副本机制,保证了数据的安全性和稳定性;同时存储、计算分离的模式保证了容器化部署的横向扩展,实现了计算和存储的数据弹性。

将AI嵌入每一朵云,开启真正的数智时代

无论是对于AutoML,还是AI基础软件,抑或数据智能,很多行业用户的认知在最开始都并不明晰。在会后的采访中,九章云极DataCanvas联合创始人兼CTO尚明栋提到,原来用户可能更倾向于拿到某个基于具体业务场景的AI解决方案,但这种单独定制的解决方案并非长久之计,不仅在后续运维管理中可能遗患无穷,就规模化落地而言也是障碍重重。因此,加强AI基础软件建设,提升AI自主开发能力对每个企业的数智化转型来说都是必要的。

当前在一些行业头部企业,AI基础软件的完善升级已经带来了切实可见的收益,比如实现了智能风控、实时审批的金融业,可以进行零部件智能检测、设备预测性维护的制造业等等。AI应用的落地让降本增效并非空谈。

这些行业的头部群体也正是九章云极DataCanvas的主要服务对象。因为这部分客户的需求最迫切,数据资产足够厚实,且有资金也有技术能力实现AI的自主开发。基于对中国未来AI行业生态发展的预判,九章云极DataCanvas建设性地提出了“云中云”战略,即将AI基础架构及相关AI能力,嵌入到形形色色的行业云、企业云等云中。将九章云极DataCanvas的AI能力随云输出,起到事半功倍、借力打力的效用。

在技术能力上,九章云极DataCanvas将继续深化在开源数据科学领域的造诣,为AI应用落地打造更普适的工具平台;在远景规划上,打造千朵云生态的AI基础软件则为其打开了更广阔的商业空间和更有想象力的创造空间。在数智化浪潮中,且让我们心怀期待,蓄力前行。