发布日期:2019.10.10
DataCanvas布道师团队成员之
首席解决方案架构师
周 晓 凌
携全新解决方案系列亮相
想知道DataCanvas数据科学平台 可以应用在哪些行业? AutoML可以解决哪些业务难题? DataCanvas的“四库”神奇在哪儿? DataCanvas布道师解决方案系列 将输出丰富的行业案例 严谨的流程逻辑 详解各类行业案例难题! 话不多说,先呈上首篇 《IOT时序数据分析解决方案》 童鞋们先睹为快吧!
一、时序数据
随着工业物联网的发展,会源源不断产生各种各样的时序数据,常见的业务场景有:设备监控(系统监控、任务监控、应用性能监控、链路监控等)、业务监控(电商的业务大盘监控统计与异常大盘监控统计、广告曝光点击消耗实时统计与流量地域分配等)、物联网(智能制造、电网、风能及石油等能源公司等)等。
时序数据通常由时间戳、维度列(或者特征列)及指标列构成,如表1所示。其中指标列通常为预测对象或者异常检测对象。
二、面临的问题与挑战
IOT时间序列数据分析最常见的两个任务是时序指标预测和时序指标的异常检测。面临挑战: 数据量大,特别是时间粒度细的数据 2 规律复杂多样或者异常种类多 3 如何快速训练稳健的模型 4 如何快速便捷的模型部署 5 如何实时推理及结果展现 6 如何融入业务知识(特征衍生和结果应用)
三、DataCanvas解决方案
DataCanvas九章云级通过自行研制的“四库”:模型仓库、特征仓库、模版仓库和AutoML Recipe仓库的技术组合,解决行业业务知识与技术融合共享。如图1所示。
特征仓库不但覆盖通用特征,而且融入了领域内特定业务场景的显著特征集,以提高模型预测准确性。模型仓库汇聚了机器学习、深度学习及强化学习相关模型。场景模版仓库从模型最终效果的角度,通过场景真实数据的探索性建模,获得特定领域业务场景的数据预处理方法、显著特征以及适配的模型集。
AutoML Recipe仓库是把场景模版仓库里特定业务场景固化成DataCanvas APS机器学习平台的自动建模模版,业务人员只需接入对应场景数据即可一键自动生成工作流,进行数据清洗、特征工程、模型训练与选择、模型文件保存及API发布。
时序数据是IOT的主要数据类型之一,由各类信息传感器、红外感应器、射频识别设备、激光扫描器等采集而得。这些数据表征了目标对象的实时状态,可以通过人工智能技术实现智能感知、识别和管理。
时序实时异常检测是IOT常见场景,比如根据实时采集的服务器性能数据判断服务器是否正常工作,根据系统响应耗时判断IT系统是否正常工作,根据无人机通过红外实时采集的输油管道的数据判断数据管道是否有漏油。
通常情况下,时序异常检测的解法分为两步,首先建模工程师编写脚本对历史数据进行探索,构建异常检测模型,探索合适的数据处理方法及选择合适的模型。然后把合适模型部署到生产系统里进行实时推理并把预测结果传递给前后端。这个探索稳健模型的周期较长,而且用于实时推理的模型部署比较繁琐。
鉴于此,DataCanvas九章云级提供了基于“四库”和DataCanvas RT实时决策中心的实时异常检测解决方案,如下图所示:
解决方案构建过程如下:
第一步:根据场景历史数据从特征仓库和模型仓库中获得IOT场景的时序分析模版,包含数据预处理、最佳特征与最优模型。
典型的时序数据预处理方法有:缺失值填补、极端值处理及数据缩放等。特征库里有典型的时序特征衍生方法,包括:序列特征、基于小波变换的时域和频域特征、基于多尺度滑动窗口的统计特征(最大值、最小值、均值、中位数、标准差、偏度、峰度、变异系数)、基于差分的特征(一阶、二阶甚至更高阶)、比值特征(各类特征与当前值的比值)。 其他典型特征包括:数值特征、类别特征、文本特征、图片特征。
模型库里可用于异常检测的无监督模型有:高斯模型、孤立森林、聚类、prophet、隐马尔可夫模型及自编码器等,稳健的有监督模型有:随机森林,xgboost,DNN,LSTM等。常见的时序预测模型有:Arima系列模型、prophet、xgboost、DNN、LSTM等。
第二步:把IOT场景的时序分析(时序预测与异常检测)模版固化成AutoML模版。
根据真实的场景数据,可以自动从特征库及模型库里筛选出显著的特征及稳健的模型,进而生成AutoML模版。
第三步:模型训练与发布。
根据目标场景的历史数据及AutoML模版快速训练异常检测/预测模型,并存成模型文件或者发布成API。
第四步:模型调用与实时推理。
DataCanvas RT实时决策中心加载第三步中的模型文件或者实时调用API,并根据实时接入的时序数据进行推理。
第五步:基于实时推理结果触发业务动作及可视化。
对于时序预测,可以对未来一段时间的预测值进行展示,同时也可以基于预测结果,提前进行业务干预。 对于异常检测,可以根据需要对异常检测结果进行前端展示,如图4所示,也可基于结果触发告警信息,以便及时通知业务专家检查并处理异常。
四、总结
DataCanvas立于行业前沿视角,洞察到知识融合难题将是未来5年的企业AI建设发展的最大瓶颈。DataCanvas独有的“四库”有效解决行业AI建设三大难题:经验及业务知识融合,模型资产共享、平台运维管理,场景化知识迁移。
四库的建立攻克复合知识人才匮乏、跨行业知识难以快速贯通的问题,将行业经验、业务知识和数据科学技术有效结合,直接降低客户对资源的依赖和AI建设成本,高效实现企业业务知识融合和AI建设。
其他场景也可以通过四库和DataCanvas RT实时决策中心进行快速的模型探索、模型训练、部署及推理,并通过实践不断丰富四库。
咨询