人海战术训练翻译引擎,百度正在制造“另一个百度”?
撰文:David Ramli、Alex Webb
百度通过劳动密集型方式研发深度学习
“未来3到5年,所有这些业务都可能成为另一个百度”
2016年12月6日,数以千计的翻译人员涌入中国大陆各地的办公楼,认真研读宣传册、信件和技术手册等外文资料,并仔细地将这些资料翻成中文。这场翻译马拉松每天进行15个小时,持续了整整一个月。提供资料的客户以低价得到了原文资料的专业级中文译本,而组织这次大规模翻译活动的北京公司百度(Baidu Inc.)则可能获得了更有价值的东西:训练百度在线翻译引擎的数百万对英中词汇。
AI领域的领头羊
中国已经意识到,在人工智能领域,面对Alphabet、Facebook、国际商用机器公司(IBM)和微软(Microsoft)等竞争对手,低端模仿是行不通的。2017年2月,中国国家发展和改革委员会指定百度公司牵头筹建新的人工智能实验室,这表明政府相信百度有能力成为中国人工智能领域的顶尖企业。
在3月初的新实验室揭牌仪式上,百度公司联合创始人兼首席执行官李彦宏称,公司从2014年中至今的研发支出超过了人民币200亿元(约合29亿美元),其中大部分都投在了人工智能上。2016年百度公司营收增长率从此前3年平均的逾30%降至6%左右,而对公司营收贡献最大的搜索广告业务也遭到本地竞争对手的围剿。在截至2016年12月31日的财政年度,公司实现营收人民币705亿元。据市场研究机构EMarketer Inc.2016年9月发布的报告,阿里巴巴集团控股有限公司(Alibaba Group HoldingLtd.)已超越百度公司成为中国数字广告市场的领头羊。
百度希望人工智能可以帮助公司收复搜索领域的失地,确保公司新业务取得成功。这对百度而言很重要,因为这家已有17年历史的公司一直在努力推进业务多元化,但结果却是喜忧参半。
据中国国际金融有限公司(China International Capital Corp.)分析师纳塔莉·吴(Natalie Wu)称,在截至2017年2月的12个月,百度旗下团购网站糯米的日访客量下降了59%,旗下提供在线订餐服务的百度外卖(Waimai)排名行业第三。此外,据华兴资本证券(香港)有限公司[China RenaissanceSecurities(Hong Kong)Ltd.]的分析师埃拉·纪(Ella Ji)估计,尽管百度旗下类似Netflix的流媒体视频服务爱奇艺非常受欢迎,但2017年需要在内容方面支出人民币120亿元。
百度创始人、董事长兼CEO李彦宏在“百度世界大会”上发表演讲
而多元化努力受挫则意味着百度进军人工智能领域的意义更加重大。“移动互联网时代已经结束,”李彦宏3月10日接受采访时说:
“我们将对人工智能领域大举投资,我认为这将使很多人受益并将改变各个行业。”
”2017年1月,百度任命前微软公司高管陆奇(Qi Lu)为公司首席运营官,其使命是围绕深度学习、增强现实和图像识别等技术重塑公司。百度人工智能团队已扩大至1300人,预计2017年还将增加几百人。该团队的人员目前分散在北京、深圳、上海和加州森尼维尔的研究室。
近期频繁发生人事变动的百度人工智能部门
到2015年年中,由50人组成的百度人工智能团队推出了Deep Speech,一个可识别大部分英语会话的语音识别系统。该系统通过对大量语音数据进行解析后推断出模型,而不是对词语进行逐字拆分,这一过程就是深度学习过程。和依靠词汇表和音标字典的传统翻译引擎相比,Deep Speech系统的识别准确率更高,因为该系统在确定每个词的意思时考虑到了语境问题。
不过,在遇到外来词时,即英语中那些逐渐为人们所接受和使用的来自其他语言的词汇,Deep Speech经常会出错。“如果你想说‘放柴可夫斯基的音乐,’系统给出的答案可能是‘放音乐并尝试咳嗽滑雪,’”科茨说,“我们就直接把这类问题称为柴可夫斯基问题。”
百度的程序员没有将“柴可夫斯基”简单地加入系统词汇表,而是帮助Deep Speech教它自己理解这个词。这涉及到输入更多数据帮助系统学习语境问题。
百度公司驻北京的自然语言处理部副主管赵世奇(Shiqi Zhao)回忆说,当时作为哈尔滨工业大学(Harbin Institute ofTechnology)计算机专业的一名学生,他在研究计算机翻译时只有200万对英中词汇可供使用,现在百度有大约1亿对。但这仍远远少于Alphabet公司拥有的5亿对词汇。这一数据是《科学》(Science)杂志上一篇关于Alphabet公司科学家QuocV.Le的文章中提到的。
人海战术
为了缩小这一差距,百度采用了一种古老策略:人海战术。公司现在常年赞助各类人工翻译活动并定期组织像2016年12月那样的翻译马拉松。在这样的活动中,公司向客户提供智能手机和净水器等奖品。通过这些活动收集的数据有助于增强百度翻译引擎的性能,推动Deep Speech的进一步开发。
2016年7月,百度森尼韦尔团队开发的软件推出了首款商业应用,这就是百度主打语音输入的全功能智能手机输入法TalkType。这一技术现已被应用到公司的其他产品中,包括类似苹果公司智能语音控制功能Siri的个人智能语音助理“度秘”,这是该产品在中国的名称,在其他地方其被称为DuEr。(度秘是由百度的“度”加上秘书的“秘”组合而成。DuEr的发音听起来像“doer”。)
百度灌输给Deep Speech的机器学习有助于其他产品智商的提高。例如,它就是类似亚马逊Echo的声控机器人“小鱼在家”的秘密武器。百度公司2017年1月在拉斯韦加斯国际消费电子产品展(CES)上展示了这款机器人。
百度个人智能语音助理“度秘”
百度的多种网络产品使其能够获得关于中国消费者最多最详细的数据,至少在理论上这应让其拥有为中国开发人工智能产品和服务的优势。得益于糯米和百度外卖,百度公司知道中国家庭买什么和吃什么,而全球第二大在线旅行服务公司携程网(Ctrip.com)的信息则显示出他们希望到哪里度假。每个月,6.65亿智能手机使用者浏览百度的移动门户网站并使用其应用软件。
与此同时,3.41亿人使用百度地图。“有人认为人工智能是个产品,这是错误的,人工智能为产品提供支持并使其具有各种功能,”汇丰控股有限公司(HSBC HoldingsPlc)的分析师曾池(Chi Tsang,音译)说,“想一想所有产品的实际使用情况吧。”
新的人工智能产品尚未给百度带来多少利润。但它在人工智能领域初步形成的专业优势可能将有助于公司在已涉足领域占据主导地位并推动其开拓新的业务,例如云计算和自动驾驶汽车等。
“未来3到5年,所有这些业务都可能成为另一个百度。”
百度总裁张亚勤(Zhang Ya-Qin)说,他指的是百度602亿美元的市值,“现在是时候下些赌注了。”
编辑:穆赛、格根坦娜
翻译:一毫
◆ ◆ ◆ ◆ ◆
点击你感兴趣的关键词
立即获得关于TA的更多信息!
......
澳大利亚将面临能源短缺
“钢铁侠”出手解决澳洲能源问题|视频
尽在《商业周刊/中文版》App
长按识别二维码,速速下载吧!