查看原文
其他

2016年,文本分析、情感分析和社交分析的10大趋势

2016-04-28 Seth Grimes 大数据


本文系InfoQ原创首发,由Infoq授权 大数据 发布,转载请联系Infoq【ID:infoqchina】。


文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。

目前分析技术发展得还是相当不错的,尽管在某些领域,例如数字分析和市场研究有些稍稍落后。但是甚至是在例如“客户体验、社群聆听、用户交互”方面,还是有很多发展空间。这个快速发展的市场空间无论对于新加入的玩家还是深耕已久的资深人士都意味着大量的机遇。

随着技术和应用不断融合,与其独立地检验每个分析领域,还不如好好地观察整体的效果。忽视情感的社交分析是不完整的,并且为了从网络上获取社交情感数据并调查情感数据,我们真的需要文本分析技术。

本文针对2016年文本分析、情感分析和社交分析的发展趋势进行一个前瞻性的观察。


1多语言才是王道

尽管单纯英文的文本分析一直保持常态,但仅将一种语言做好,也比囊括很多种语言,却哪种都做得潦草要强得多。机器学习和机器翻译已经向着多语种文本分析迈进了一大步,使其成为一个全新的标准。但是如果你的确需要做多语种的开发尝试,事先也要做一些调查:很多开发者在其核心语言上很强,但在别的语言上就很弱了。所以说选择的时候还是小心一点。


2文本分析获得认可

文本分析能力对于客户体验、市场研究、客户洞察、数字分析乃至媒体评测来说都是关键解决方案,各个文本分析服务提供商在分析能力的优势上不断竞争。总的趋势是“量化定性”,文本分析被纳入业务解决方案中是十分重要的事。


3机器学习、统计学和语言工程并存

明天是属于机器学习、递归神经网络以及相似技术的,但是今天,长期建立的语言工程方法仍占上风。这里我指的是分类系统、分析器、词法和句法网络以及句法规则系统。目前我们处在一个“百花齐放、百家争鸣”的时代,所以很多种方法都是可以并存的。举例来说,甚至众包数据处理的领军企业:CrowdFlower都全面拥抱机器学习了,初创企业Idibon都把传统和现代相结合作为一大卖点:“你可以组建自定义的分类系统,并使用机器学习、规则和你已有的字典/模式去调整它们。”


4图像分析进入主流

全球领先的图像分析提供商已将图像分析技术应用于社交媒体的品牌信号解读中---不信你看看Pulsar和Crimson Hexagon---并且通过机器学习,图像分析技术已成为IBM在2015年收购Alchemy API的一大卖点。的确,火热的初创企业MetaMind在2015年从NLP领域转型到图像分析,缘于其意识到图像分析背后的巨大机遇。


5语音分析取得突破,视频分析随之而来

整个市场喜欢谈论多渠道分析和用户旅程,这涉及到多重触点。并且社交网络和网络媒体中充斥着视频,说出来的话,还有非文本形式的语言要素,包括语调、语速、音量和重复,都传递着含义,而这些含义都可以通过语音分析和语音转文字来获取。不仅仅是客服中心,2016年,所有的市场研究人员、出版人员、研究和洞察专业人士都在不断寻找突破。可以期待,未来语音分析也将成为推动人机会话接口发展的重要力量。


6扩展式情感分析

广告人员早就认识到情感可以改变消费者的决定,但直到近日,广泛地、系统地对于情感与决策的研究已经超越了我们的能力范围。根据你的角度,进入情感分析,或者是情感分析的子类,或者是其姊妹类。带着量化我们的情绪反应的目的,使用面部表情分析从图像和视频中(或从语音或文本中)提取我们的情感状态。这方面的服务提供商有:视频服务的Affectiva、Emotient和Realeyes,语音服务的Beyond Verbal以及文本服务的Kanjoya;相关的受众包括广告商、媒体、市场研究人员和代理商。


7ISO 网络表情分析

我们已经有了文本、图像、语音、视频等,那为什么我们还要用网络表情呢?因为它们简洁、易用、生动、有趣,它们补充并且对长格式的内容形成冲击,这就是为什么互联网俚语灭亡了。Facebook正在尝试对网络表情进行挖掘,更好的是,我们还看到了像Line stickers这样的变种。现在我们需要的就是网络表情分析了。这个领域的技术正在通过像Emogi这样的初创企业不断兴起。尽管大多数人也不过就是用计数和分类来获取网络表情语义,像Instagram工程师Thomas Dimson和斯洛文尼亚研究组织CLARIN.SI都是这么干的。但他们当中的一些公司,比如SwiftKey,还是值得关注的。


8网络+内容的深度洞察

这一点既是我对于2016年的趋势预测,同时我在2015年对市场研究公司TNS的数据科学家Preriit Souda访谈时也提到过。Preriit指出:“网络为会话赋予结构,内容挖掘为其赋予含义。”洞察力源自于对于信息与连接的理解,也来自于连接是如何被激活的。因此为你的工具包加一个图形数据库和网络可视化工具吧,这就是为什么Neo4j.js和Gephi这么成功的原因。建立一个类似于QlikView的数据分析平台也是一个选择,一个可以协同文本和数字分析的选择,对于2016年来说这是一定要做的事。


92016年,你会读到(或与之交互)多得多的机器编写的内容

机器编写内容的技术叫自然语言合成(Natural Language Generation,NLG),它提供根据算法从文本、数据、规则和内容中撰写文章、信件、短信息、摘要和翻译的能力。NLG就是为大容量、高重复量的内容而生的:金融、体育和天气预报。相关的服务提供商有Arria、Narrative Science、Automated Insights、Data2Content和Yseop。你也可以看看你与你心爱的虚拟助手进行对话时的机器端:Siri、Google Now、Cortana或是Amazon Alexa,或是自动客服、其它程序化相应系统。后面的这些系统都归类于自然语言交互(Natural Language Interaction,NLI);其中Artificial Solutions还是值得一看的。


10机器翻译逐渐成熟

长久以来,人们一直希望拥有一个“星际迷航”那样的通用翻译器,但自从1950年科学家称机器翻译可以在3~5年内实现,精准的、可信赖的机器翻译就一直是个谜。(ACM Queue撰文《Natural Language Translation at the Intersection of AI and HCI》充分地讨论了人机结合条件下机器翻译的状态)我不能说胜利就在眼前,但是多亏了大数据和机器学习,2016年(或2017年)对于大多数任务来说,主流语言的机器翻译能做到足够好。这就是胜利!


11总结

如果你是一个文本分析、情感分析或是社交分析学家,解决方案提供商或是用户,每一个趋势都会影响到你,无论是直接地还是间接地。因为人类的数据现在已经被编织成为我们每天赖以生存的技术网。连接这张网的线就是更多的数据,更有效地使用,来创造改变生活的机器智能。

原文转载自Seth Grimes的博客《10 text, sentiment, and social analytics trends for 2016》,原文作者已授权转载。(本文系InfoQ原创首发,未经授权谢绝转载。)

END



大数据




为大家提供与大数据相关的最新技术和资讯。


近期精彩活动(回复数字获取):

160415 福利 · 阅读 | 免费申请读好书 第6期


近期精彩文章(回复数字获取):

160423 10年内,这三大领域将被人工智能和大数据重塑

160412 爬取QQ空间3000万用户,玩玩大数据分析 

160331 华为内部狂转好文,有关大数据,看这一篇就够了!

160303 大数据的误区:数据统计≠大数据

160228 揭秘微信用户行为习惯,用户究竟爱看什么?

160107 网购评论是真是假?文本挖掘告诉你

160102 自拍有风险!大数据在用什么姿势“出卖”你?

151221 大曝光 | Facebook内部高效工作指南

151109 大数据告诉你,电商会把假货发给谁?

151023 凯文·凯利:未来20年科技的必然走向

151007 十张图看懂未来的大数据世界

150925 大数据研究常用软件工具与应用场景

150916 写给新人数据挖掘基础知识介绍

150812 中国互联网公司最新最全阵亡名单,涉及16个领域千余企业!附死因和反思!

150802 (深度好文)留几手:互联网创业到底是咋回事

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存