查看原文
其他

独家点评 | 外媒眼中最酷的10大机器学习应用

2017-11-21 读芯君 读芯术

欢迎关注AI应用领域最专业的垂类自媒体——读芯术




想看到一些真正的机器学习的例子吗?今年8月,外媒一篇《10 Companies Using Machine Learning in Cool Ways》的文章发布消息:“10家公司正在以一些创新的、令人兴奋的方式,来应用机器学习技术。”既然是“令人兴奋的方式”,那么,读芯君认为它们值得详细解读,下面,读芯君将从专业和科普的角度对这些应用作出点评。

 

 1. Yelp-大规模图像管理  


没有什么比尝试一家新餐馆然后在网上抱怨它的事情更容易的了。这也是为什么Yelp如此受欢迎和有用的原因之一。虽然Yelp乍一看似乎并不是一家科技公司,但Yelp正在利用机器学习来改善用户的体验。 


区分图像里的画面是室内还是室外,对于人类来说很简单,但是对于机器来说却非常难

 

由于图像几乎和用户评论本身一样对Yelp至关重要,所以Yelp总是试图改进它图像的处理方式这件事也就不足为奇了。这就是为什么Yelp在几年前开始使用机器学习的原因,当时它第一次实现了它的图像分类技术。Yelp的机器学习算法帮助公司的员工在处理数千万张照片的时候更有效地编译、分类和标记图像,这是一个不小的壮举。

 

读芯君开扒

“众包体现了一种群体智能”


Yelp通过众包可以让大众自动参与照片的标注,并同时纠正一些错误的标注。读芯君在美国Yelp工作的朋友告诉我,他们认为, “通过众包Yelp通过合理的成本(在时间和金钱)获得了质量总体良好的标签。众包体现了一种群体智能。”


结合一些学习材料,读芯君尝试从标签数据的角度来解读这项应用:


一旦Yelp有了标签数据,Yelp就开始采用“AlexNet”形式的深度卷积神经网络(CNNs)来识别这些图片(因为这种方法是一种监督学习方法,非监督学习目前仍然是深度学习的难点方向)。CNNs是由多个卷积层组成,ReLU层、pooling层、局部响应正则化层和全连接层。Yelp的CNN被建立在基于Caffe架构的AWS EC2 GPU实例上。Yelp喜欢Caffe,因为它简单易用、高性能、模块化、开源、还一直在不断完善。为了应对Caffe的软件依赖,Yelp使用Docker封装了Yelp的CNN,以便它可以更容易地部署。



 

2.  Pinterest–改善内容发现


无论你是一个铁杆的pinner,还是以前从未使用过这个网站,Pinterest在社交媒体生态系统中占据了一个重要的位置。很肯定的一点是:由于Pinterest的主要功能是对现有内容进行限制筛选,因此凡有利于能使这个过程更有效的技术应该是最最重要的。

 


2015年,Pinterest收购了机器学习公司Kosei,专门从事机器学习技术(特别是它致力于内容发现和推荐算法)的商业应用。


今天,机器学习几乎触及了Pinterest商业运作的每一个方面,包括垃圾邮件管制、内容发现、广告商业化、邮件订阅机制等,这种做法非常酷。

 

读芯君开扒


延展:深度学习面试的三大知识点


早在2016年之前,Pinterest 的工程师们就与读芯君的母校(此处请大家原谅一下我这个虚荣狂和自恋狂)——伯克利加利福尼亚大学视觉与学习中心的研究人员一起开发了可自动检测图像内容的深度学习技术。读芯君向他们了解到,Pinterest 提供的四大重点功能均使用了深度学习技术,它们分别是:本地消息流、搜索、相关 Pin 图钉以及图片搜索。


但深度学习并非是Pinterest 推荐系统里的主要驱动因素。 " Pinterest 的首席视觉搜索工程师 Dmitry Kislyuk 曾在接受媒体访问的时候强调了用户洞察的重要性:“其实在最后,你还是会更倾向于知道‘用户都创建了什么内容?’以及‘用户都做了些什么’,并且将此当做是最终信号来决定推荐内容……这是因为这两件事是相关性最高的。"


所以延展来看,读芯君建议,对于关注机器学习的同学们来说,科技公司在面试深度学习人才的时候,除了考察“算法和理论基础“ 工程实现能力与编码水平”之外,“对业务理解和思考深度、对用户洞察的理解”,也是一个非常重要的考察部分。



 

3. Facebook——聊天机器人


尽管Facebook的Messenger服务仍然在被争议(人们对聊天类应用程序有非常强烈的感情),但是它是世界上最令人兴奋的一个最大的社交媒体平台——因为Messenger已经把“聊天机器人”成功研发应用了。

 

当使用文字进行聊天时,已经无法区分出是人还是聊天机器人了

 

在Facebook Messenger中任何开发人员都可以创建并提交一个聊天机器人。这意味着,哪怕是一个很有限工程师资源的小型创业公司,如果他的工作重点放在客户服务和维护上,他就可以很好地利用聊天机器人。


当然,这并不是Facebook唯一感兴趣的AI应用,Facebook还利用AI程序来过滤垃圾邮件和低质量的内容。同时,还在研究计算机视觉方面的算法,让视障人士也可以“阅读”图像。

 

读芯君开扒

 

聊天机器人用自创语言聊天


此处不多说,读芯君只想贴一条新闻:


今年6月,Facebook人工智能研究实验室(FAIR)的研究员们在尝试改进聊天机器人时有一个意外的发现。



有业界报道认为,聊天机器人用自创的语言聊天,看起来就是胡言乱语,但却意义重大。这些聊天机器人可以利用机器学习算法自由地交谈,以增强对话技巧。


随着时间的推移,这些聊天机器人开始偏离预先制定好的规范,开始用一种全新的语言交流。这种新的语言并不是人类输入的,而是它们自己创造出来的。从语言的意义上来说,这些东西主要是胡言乱语。但有趣的是,只要一有机会,人工智能就会偏离规范去创造新的东西。


真是太酷了。



 

4.  Twitter——规划时间轴


Twitter上很多内容近来备受争议,而其中最有争议的变化之一是向算法信息流的演变。



无论你是想让Twitter给你展示“最好的推文”,还是让它作为一个合理的时间轴,这些变化都是由Twitter的机器学习技术驱动的。Twitter的人工智能对每条推文进行实时评估,并根据不同的指标“打分”。


最终,Twitter的算法会显示出可能会产生最高参与度的推文。这是由个人决定的; Twitter的机器学习技术会根据你的个人偏好做出这些决定,这就产生了基于算法的信息流。

 

读芯君开扒


去Twitter工作需要做哪些准备?


昨天一位读者在后台提问:去Twitter工作需要做哪些准备?这个问题一时半会回答不全,因为机器学习是发展和变化非常快的领域,新的算法和技术框架层出不穷。


就读芯君目前的了解,技术公司在机器学习平台的组织结构上一般会有两个平行的团队,一个偏重算法研究,比如Google和Facebook都有专门做机器学习研究的团队,主要是解决灵活性的问题;另一个团队是偏重机器学习平台,和产品应用结合的比较紧密,主要解决规模化的问题。


现在新出来的一些框架尤其是深度学习的框架,比如谷歌的TensorFlow,百度的Paddle Paddle,在规模化和灵活性中寻求平衡;Twitter也在基于Torch做一些这方面的尝试。


再举一个例子。读芯君的一位读芯术同事Jack wang,在斯坦福选择机器学习领域深造,通过上Andrew Ng、Daphne Kolle、Jure Leskovec的课,系统地接触和了解了机器学习、数据挖掘的理论和应用,非常感兴趣,之后顺利去Twitter的广告组做了机器学习的工作。一句话总结就是,多听听国外大牛的课程,一定会有收获。



 

5.     谷歌-神经网络和“会做梦的机器”


相较于去试图总结谷歌在技术方面的野心,我们更容易列出一些谷歌或者谷歌母公司Alphabet正在进行的科学研发。


众所周知,谷歌近年来一直忙于抗衰老技术、医疗设备等领域,且都有了显著发展,最令人兴奋的也许是神经网络技术。


通过GOOGLE神经网络产生的一组图集


谷歌神经网络研究中新近的一个显著成果,是DeepMind网络,即“做梦的机器”。这个网络制作了这些迷幻的图像,导致几乎每个看到这些图像的人们,都对其进行了一段时间的讨论。


谷歌表示,公司正在研究“关于机器学习的几乎所有方面”,这将有助于谷歌所称的“经典算法”以及其他应用,包括自然语言处理、语音翻译、搜索排名和预测系统等得到令人兴奋的发展。

 

读芯君开扒


将2.5万名谷歌工程师全部变成机器学习专家


对于谷歌这种神级公司,机器学习对于谷歌有多重要?读芯君了解到的下面这条消息足以印证机器学习的前景:


由于看好机器学习技术的未来,谷歌为内部员工和外部人员提供各种各样的培训,希望加速这种技术的普及速度。谷歌的目标是将内部2.5万名工程师全部转变成为机器学习领域的专家。


谷歌CEO桑达尔·皮查伊(Sundar Pichai)在去年末的财报电话会议上说:“机器学习是一项有颠覆性的核心技术,我们可以借此重新思考我们做一切事情的方式。我们还会尽力将它应用于所有的产品中,包括搜索、广告、YouTube或Play。我们还处于发展初期,但你会看到我们以系统化的方式将机器学习应用到所有这些领域之中。”


嗯,看到这些读芯君还能说什么呢?机器学习,谷歌666吧。



 

6.     Edgecase-提高电子商务转化率


多年来,零售商一直在努力克服门店购物和网上购物之间巨大的脱节。尽管有很多关于网上零售有可能成为传统购物的丧钟的讨论,但很多电子商务网站本身的用户体验仍然很糟糕。


Edgecase(前用名Compare Metrics),希望去改变这一现状。


 

Edgecase希望其机器学习技术能帮助电子商务零售商提高用户体验。除了简化电子商务体验以提高转化率,Edgecase计划利用其技术, 通过分析某些带有商业目的行为和行动,为这些可能只有一个关于他们想买什么的模糊的想法的顾客提供更好的用户体验。它试图让日常网络浏览更有价值,并且更接近传统的零售体验。

 

读芯君开扒


机器学习最重要的是不断train and train


的确,互联网电商中的广告投放、业绩预测、会员体系、个性化方案,金融市场中的股价波动、市场利率调整、保险产品个性化等一系列问题,让人力上需要花很大的力气去解决,而且还不一定做的好。也正是因为这些原因,才需要机器来辅助决策。


但机器学习中最重要的是不断train and train,和养一个孩子,从识字发音开始train一样。很多学习者认为,机器学习的瓶颈在于,搞机器学习的都没孩子,或者有了孩子也没时间train,所以机器学习在工业界最大的瓶颈还是数据和人,而电商行业似乎在这方面有天然的优势。

 



7. 百度-语音搜索的未来


谷歌并不是唯一一家涉足机器学习的搜索巨头。中国搜索引擎百度也在大力投资人工智能。


一个NLP系统的关键的五个阶段

 

百度的研发实验室最有趣的进展之一,是该公司所称的Deep Voice的研究,这是一种深度神经网络,可以产生完全合成的人类声音,很难与真正的人类语言区分开来。这个网络可以“学习”节奏、口音、发音和音高之间独特的微妙之处,从而创造出十分准确的人的声音。


Deep Voice 2是深度语音技术的最新迭代,它远非一个普通的实验,预计会有对自然语言处理,语音搜索和语音模式识别系统背后的潜在技术都将产生持久的影响。这可能会对语音搜索应用程序以及其他几十种潜在用法产生重大影响,比如实时翻译和生物识别安全。

 

读芯君开扒


DeepVoice二代完全自主进行语音训练


百度用多种口音训练出一个综合语音模型,生成语音时再对综合模型进行微调以产生多种口音,其中不需要人类进行调参或干预。读芯君感觉这个很强啊!不过更令人吃惊的是,只需要通过一个30分钟的音频模板就可以模仿数百种不同地区的口音。此前读芯君通过百度工程师朋友了解到,与苹果公司所开发的Siri所不一样的是,siri需要工程师手工输入数千小时的演讲,而DeepVoice二代是完全自主进行的。


看来,人工智能机器学习方面,国外看谷歌,中国看百度。



 

8.  HubSpot-聪明的销售


熟悉HubSpot的人可能已经知道,该公司长期以来一直是新兴技术的早期采用者,公司早些时候宣布收购机器学习公司Kemvi时再次证明了这一点。


 


预测案源评分只是人工智能和机器学习的许多潜在应用之一。


HubSpot计划在一系列应用中使用Kemvi的技术——最明显的是,将Kemvi的DeepGraph机器学习和自然语言处理技术集成到其内部内容管理系统中。


根据HubSpot首席战略官布拉德福德•科菲(Bradford Coffey)的说法,这将允许HubSpot更好地识别“触发事件”——例如公司的结构的改变、管理或其他任何影响日常运营的东西——这可以让HubSpot更有效地为潜在客户以及现有客户提供服务。

 

读芯君开扒


Kemvi的手艺将集成到HubSpot CRM


话说Kemvi Inc.其实是一家规模很小的初创企业,公司只有2名雇员,此前曾进行过一轮100万美元的种子轮融资,Hubspot成立于2006年,于2014年上市,其发展历程已经成为波士顿地区最有名的创业故事之一。Hubspot收购Kemvi后, Kemvi的手艺将被集成到HubSpot CRM中,协助发卖人员将一些研讨主动化。


嗯,关于Hubspot收购Kemvi,读芯君就只了解这么多。



 

9.  IBM-更好的卫生保健


IBM的加入看起来有点奇怪,因为IBM是传统技术公司中规模最大、最古老的公司之一,但IBM成功地从旧的业务模式转变来更新它的收入渠道。IBM著名的人工智能“沃森”就是一个很好的例子。


IBM沃森测试和验证自学习行为模型的一个示例


沃森可能会是一个威胁, 但它实际比在电视游戏节目中击败人类选手的记录要令人印象深刻得多。近年来,沃森已经被部署在多家医院和医疗中心,在那里它展示了其诊断某些类型癌症的能力,比人类肿瘤学家更有效。


沃森在零售领域也显示出了巨大的潜力,它可以作为帮助购物者的助手,以及在酒店业也可以很好的应用。因此,IBM现在通过加盟许可的方式去提供了沃森机器学习技术——这是第一个以这种方式打包人工智能应用程序的例子。


读芯君开扒


X沃森


2011年2月17日,IBM的人工智能系统沃森作为选手参加了美国最受欢迎的智力竞猜电视节目《危险边缘》,连续击败了该节目历史上最为成功的两位选手肯•詹宁斯和布拉德•鲁特,成为了《危险边缘》节目新的冠军。沃森从此一举成名,并且开始涉足很多不同的领域,于是我们有了大厨沃森、医生沃森、超级客服沃森、超级驾驶沃森,以及上文中提到了卫生保健沃森。



 

10.  Salesforce——智能CRM系统


Salesforce是科技领域的巨头,在客户关系管理(CRM)领域拥有强大的市场份额,以及与之匹配的资源。即使是最精明的数字营销者,预测和评分也是最大的挑战之一,这也是Salesforce在其专有的Einstein机器学习技术上押下大赌注的原因。


Salesforce Einstein允许使用Salesforce的CRM软件的企业去分析客户关系的各个方面——从最初的接触到正在进行的接触点——去建立更详细的客户资料,并确定销售过程中的关键时刻。这意味着更全面的评分、更有效的客户服务(以及更满意的客户),以及更多的机会。

 

读芯君开扒


"'爱因斯坦'将告诉我这个季度的上升和下滑情况"


Salesforce此前发布了一项研究声称,AI通过CRM软件产生的影响力,将在全球范围内增加1万亿美元的GDP,并创造80万个新的就业岗位。自2016年发布“爱因斯坦”以来,Salesforce已经全面转向了AI。Salesforce创始人Benioff说:“AI是下一个平台,未来所有的应用和公司的能力都将建立在AI之上。”


Benioff甚至在一个季度财报电话会议上告诉分析师,他在每周的高管会议上用“爱因斯坦”预测结果和解决争论。他说:“我会在会议上向“爱因斯坦”求助,对它说,‘“爱因斯坦”你已经听到了所有的讨论,你对此有何看法?’“爱因斯坦”将告诉我这个季度的上升和下滑情况,并指出我们的优势和不足,有时它甚至还会给出过去三个季度中执行的某个策略,并指出某个执行官需要特别关注。”



 

                      读芯君的一枚  “剧终彩蛋”                       


读芯君的佬爷曾一度喜欢买彩票,并坚持认为彩票中奖是有规律的,所以读芯君曾经用在伯克利辅修的统计学概率论去说服他别买彩票。后来接触深度学习,尝试写了个基于neural network的程序,用往期数据预测下期的中奖号……当然,跑出来的结果误差可想而知。但train出来的模型在cross-validation set的预测结果和随机生成的数组并没有显著差异。


所以读芯君想说,多数专业学者认为有趣的事情,业外人士其实并不能感受到有趣。真正的有趣必然是你深深陷入了其中,天马行空又勇气可嘉,就能用最好的技术去实现最美好的事。


嗯哼,学习ML(请不要做不恰当的联想),你准备好了吗?




独家点评:读芯君

参考文献作者:Dan Shewan

参考文献链接:https://www.business2community.com/trends-news/10-companies-using-machine-learning-cool-ways-01889944#wLIpRbEGujtORiLx.97

 



来自美国、欧洲及国内长期从事AI研究和AI产品应用的专家学者、AI公司科学家、AI产品开发者,共同探讨AI落地的最后一公里。 


 Dan Shewan ,A content marketing specialist at WordStream Inc., a provider of search marketing tools and services


 胡平,读芯术特邀翻译志愿者专家。太格出国培训CEO。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存