查看原文
其他

AI赋能版Excel: 庞大数据,一键分析

2017-12-15 软件分析组 微软研究院AI头条



编者按:在昨天的《微软Everyday AI发布会:四大工具把AI带到你身边》中,我们给大家留下了一个小悬念:Excel的具体更新情况是什么?铛铛铛铛!今天悬念揭晓!我们邀请到了Excel新功能Insights in Excel的幕后的核心技术研发团队——微软亚洲研究员软件分析组为我们详细解说这一AI赋能版Excel的新功能和相应的技术支持。又是一个涨姿势的好机会哦!


电子表格无论在专业领域还是在日常生活中都是一种广泛使用的重要数据形式,对于Excel这一“装机必备”的电子表格处理软件相信大家都不陌生。繁杂庞大的电子表格数据在Excel各种强大功能的帮助下都可以变得条理清晰,给我们的工作和生活带来了极大的便利。


就在前天,微软Office 365发布了Excel新的预览版, 该版本引入了Insights in Excel功能,只需要用Excel打开电子表格并点击Insights按钮,机器就能够在短时间内自动分析表格数据、捕捉数据之间的关联、挖掘数据中蕴含的洞见、并推荐简洁明了的图文分析结果。该功能背后的核心技术来自于微软亚洲研究院软件分析组。而这也是继PowerPoint Designer功能之后,微软再次将人工智能应用到Office软件中。


以后我们就能“一键变懒”啦!惊喜不惊喜?意外不意外?


Insights in Excel:自动发现数据中的洞见


现有的Excel已经具有强大的功能,可以帮助用户进行数据加工、计算和基本的统计分析,从而把原始数据制作成面向用户友好的、有利于高效信息展示的电子表格。然而制作成电子表格并不是数据处理和分析的全部,甚至只是一个开始。


试想在一个典型的Excel文档中,电子表格可以包含很多行或很多列(数据维度),不同维度之间可以包含不同类型、不同语义的数据,表面上看只是密密麻麻纵横交错的时间、文本和数字,而大量潜在的洞见恰恰隐藏在众多维度的数据及其子集所组合成的巨大的信息空间里。比如在一份包含了主要汽车品牌近几年销售详情的电子表格中,某个品牌的某种车型在某地区的销售趋势与其他品牌同车型在相同地区的销售趋势有很大差异,这就是一种深藏在数据当中的洞见。


在电子表格的制作、编辑或浏览的交互式过程当中,及时地发现这种有价值的洞见,并以简洁明了的图文形式插入到当前电子表格中并保存或分享出去,是对Excel工具以及数据智能化的一种革命性提升。这就是Insights in Excel的核心理念和功能。

 Insights in Excel功能演示动画


智能分析背后的挑战与技术突破


然而,洞见的隐藏性以及其分布在巨大信息空间中的稀疏性,决定了发现这些洞见是人类用户手动分析所不能及的;即便依靠机器强大的运算能力,想在交互式数据处理的短时间内挖掘出大量有用的洞见,也要依赖高度智能化的算法并结合数据分析的大量领域知识。


同时,电子表格具有其领域独有的数据特点。直观地讲,用户在设计和制作电子表格的时候,通常会以方便人类阅读和理解为准则,比如采用交叉或排比化的表格布局以方便数据定位和比较、插入空白行或列以方便视觉上的整齐和对照、将大的表格拆分成若干小表格以方便分别审阅、在表格周围添加标题或注脚以做进一步说明等等。但是,这些面向人类用户友好的特点对于机器来说反而是很不友好的,甚至每一个都能成为巨大的挑战。因为对于机器来讲,统一的数据格式和规范才最有利于自动化批量处理,而电子表格数据通常不满足这样的要求,于是就需要智能化的算法帮助机器从各式各样的电子表格中准确高效地提取和转化出数据,以进行后续的自动化洞见分析。


这项智能化功能背后的诸多挑战可以归结为如下两大技术模块去解决:Spreadsheet Intelligence(智能化表格认知)和Auto Insights(自动化洞见分析)。


Spreadsheet Intelligence包括表格检测(表格在哪里?除去标题和注脚,表格边界从哪里到哪里?)、结构识别(表格内部是什么布局?哪部分是表头?哪部分是数据?哪些数据属于同一维度?等等)、元数据识别(每个维度各是什么数据类型?有没有时间序列?聚集函数应该选求和还是取平均?等等)。在研发阶段,研究团队基于大规模训练样本,尝试了多种机器学习和深度学习模型,并有效地将机器学习模型与高效率的启发式规则结合起来,将最实用的技术转化到产品中去。经过了Spreadsheet Intelligence技术处理之后,电子表格的数据就可以被转化为类似于数据库中的规范化数据以能被机器正确地解读,再传送给后续的Auto Insights技术进行自动化洞见分析。


Auto Insights包括以下四个核心问题:


1、洞见(Insight)的泛化定义及形式化阐述;


2、跨类型可比较的、且可推广到尚未支持的新类型上的洞见打分模型;


3、高度优化的洞见搜索框架;


4、洞见结果的有机组织和去冗余。


通过数据中提供的量化指标刻画的一个或多个具备语义含义的数据子集,如果它们的指标在平凡的假设下具有显著的统计特性,那么这就构成了一个洞见。比如一个垄断的市场在市场份额服从幂律分布的假设下可以是显著的,再比如一个具有明显周期性的销售额曲线在无周期信号的假设下可以是显著的,等等,这些都是洞见的例子。那么人们自然会想,一个垄断市场洞见和一个周期性销售洞见,哪个应该打更高的分数来表示更有价值呢?


对背后打分模型的一种近似但直观的解读包含以下两个主要因素:影响力(Impact)和显著性(Significance)。一个洞见的影响力可以直观地近似理解为其数据主体在整个数据集中占有的分量,而显著性用来刻画其数据主体的量化指标偏离平凡情况的程度。由于这两个因素都是归一化的且具备单调性,因此融合了这两个因素的打分模型可以对不同类型的洞见进行公平的打分比较,而且可以推广到尚未支持的更多的洞见类型。Auto Insights的相关工作已经在今年5月份发表在数据库领域顶级会议SIGMOD 2017的论文集里,下图就摘选自该论文《Extracting Top-K Insights from Multi-dimensional Data 》中阐述显著性的部分。


论文链接:http://dl.acm.org/authorize?N37708


洞见打分模型中的显著性模型示意图


不忘初心,砥砺前行


Insights in Excel的诞生离不开微软亚洲研究院软件分析组和Excel产品部门的共同努力。在此之前,软件分析组就曾和微软Power BI产品团队合力将Auto Insights研究成果转化成了Power BI 的一系列“快速洞察”(Quick Insights)功能。从今年3月份起,软件分析组的研究团队针对电子表格数据的特点,对Spreadsheet Intelligence进行技术攻关,仅用了短短九个月的时间,就让Excel迈出了数据分析智能化的第一步。相信在未来,软件分析组与产品团队的携手并进,将为大家提供最高效的分析工具,让数据分析变得更直观、快速,互动性和洞察性更强。

Insights in Excel幕后研发团队——微软亚洲研究院软件分析组成员


我们也希望在不久的将来,加入人工智能技术的Office软件可以为大家提供更有效的帮助,减轻大家的工作负担,共享轻松、高效的生活。


本次Excel预览版将于本月向Office预览体验成员推送,一起来感受一下“进阶版”Excel的魅力吧!


点击“阅读原文”,查看论文


你也许还想


● 微软Power BI:帮用户发现数据洞察

● 成为数据专家,你只差一个Quick Insights的距离

● 微软Everyday AI发布会:四大工具把AI带到你身边


感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存