AI前线一周热闻盘点：Uber提出深度学习训练新方式；谷歌发布Tacotron 2打造完美TTS

其他

AI前线一周热闻盘点：Uber提出深度学习训练新方式；谷歌发布Tacotron 2打造完美TTS

Original 2017-12-26 专注AI AI前线

作者｜Jack Clark

译者｜核子可乐

编辑｜Emily

内容导读：

Facebook 发布论文解读内部机器学习平台架构
百度实证深度学习规模化的可预测性
Uber 提出深度学习训练新方式：利用遗传算法优化神经网络
美国国家安全战略选定 AI 以测试对信息战场的潜在破坏能力
谷歌发布 Tacotron 2，打造从文本到人声的完美转换
地平线发布面向监控和自动驾驶的人工智能视觉芯片
Salesforce 开发人工智能架构生成器，通过计算机自主研发有效架构

以下新闻均来自 Import.AI，内容翻译已获得独家授权，未经许可，禁止转载！

所有人都在为 AI 的全新“数据中心规模”时代而欢呼：

…Facebook 研究论文解决了在整体数据中心范围之内运行 AI 时所面临的诸多问题…

Facebook 公司发布了一份关于如何运行全球性 AI 服务体系的分析报告，同时探讨了如此庞大的规模将对其 AI 投入生产的具体方式产生怎样的影响。该公司将 CPU 与 GPU 并行使用，其中 GPU 负责进行大规模人脸识别、语言翻译以及“Lumos”特征分析服务。而在 CPU 方面，其中的一大主要工作负载在于新闻来源排名功能。Facebook 公司写道，“计算机视觉只占整体工作当中的很小一部分。”

分久必合: Facebook 公司利用“Caffe2”作为其生产系统，而公司内部的研究人员则主要使用 PyTorch。该公司表示，尽管其主要机器学习服务（FBLearner Feature Store / FBLearner Flow / FBLearner Predictor 等）支持多种不同 AI 框架，但其皆能够与 Caffe 2 实现集成。

大者恒大: 与其它 AI 用户一样，Facebook 公司同样正在尝试立足更大规模运行更为庞大的 AI 模型：这不仅改变了其将 GPU 服务器进行安置与网络构建的方式，更指导其在各个领域加速对低精度训练等任务的研究工作。此外，他们亦在想方设法利用规模化特性获取优势。该公司在论文中写道，“利用某些超参数设置，我们能够将自身图像分类模型训练而数量众多的小型分体，并将其扩展至超过 256 个 GPU 之上。对于我们所掌握的其中一套大规模工作负载而言，数据并行处理已被证明可提供 4 倍的数据吞吐量、采用 5 倍机器数量（举例来说，对于原本训练周期超过 4 天的总计 100 套模型，此前负责训练这批任务的机器资源池现在能够每天训练 20 套模型，这意味着虽然单日训练吞吐量下降了 20%，但潜在工程进度所带来的等待时长却由四天缩短为一天）。”

单一 GPU 服务区实现全部训练工作: 当 Facebook 公司首次尝试使用 GPU 进行深度学习处理时，其即在单一数据中心服务区内引入 GPU，以确保服务器设计发生变化之后，相关团队能够习惯于对其加以维护。但这种作法在之后产生了一些相当不利的后果，亦引发 Facebook 公司对如何分配数据中心资源以及基础设施作出了重新思考。

百度公司发布一系列模型大小同成效表现间相关性的经验说明：

…又一深度学习理论的诞生…

深度学习是一门经验性科学——我们无法完成理解神经网络中的各种属性如何决定其最终表现能力。这意味着任何 AI 组织的日常工作都需要大量的实证性实验作为指导。如今，百度公司的研究人员们正试图将其对深度学习模型的规模与表现间关联性的一些想法进行规范化。

他们写道，“通过实证测试，只要我们拥有充足的数据与计算能力进行大型模型训练，则可发现可预测的精确度水平。这一论断适用于机器翻译、语言建模、图像分类以及语音识别这四个应用领域当中各类最先进的模型。”

结果表明，一旦研究人员们获得了一套准确的阈值模型，即可确信通过简单添加计算机与 / 或数据，即可在一个粗略的误差范围内达到 x 成效。他们解释称：“立足‘最佳猜测’作为起点，模型错误将得到改善，幂律曲线遵循‘不可约误差’。我们发现模型由最初由最佳猜测主导的小型训练集区域逐渐过渡至一个以幂律缩放为主的区域。在足够大的训练集当中，模型将在不可约误差（例如贝叶斯误差）主导的区域之内实现饱和。”

这一结论非常重要，但仍然需要更多实验加以证明，这是因为研究人员在各种测试领域当中发现了类似的学习曲线，即“不同的应用会产生不同的幂律指数与截距。”

这种迹象也进一步表明，计算资源将变得如 AI 中的数据一样具有战略意义。研究人员希望能够运行更多的经验性测试，从而进一步将其转化为由百度研究团队所发布的较为正式的预判。

了解更多: 深度学习规模化扩展的可预测性，实证（百度博客）
了解更多: 深度学习规模化扩展的可预测性，实证（Arxiv）

Uber AI 实验室中，进化无处不在：

…一系列最新论文显示，神经进化方法具备现代性，且可通过多种方式与神经网络方法相互补充…

Uber 公司的 AI 研究团队发布了一系列与神经进化方法的扩展与增强相关的论文——这无疑是 Uber 研究员 Ken Stanley（NEAT 以及 HyperNEAT 等项目创始人）对其长期技术关注方向的进一步延伸。神经进化之所以受到现代 AI 研究人员们的高度关注，是因为其提供了一种新的方法以利用计算能力将简单算法引入其它更为复杂的难题当中——而不必发明新的算法以解决其中某些局部下限。利用进化方法，实验结果的成功与失败往往仅取决于问题当中所应用的实际计算量。

探索: 研究人员们展示了如何利用新型搜索与质量多样性算法的交替进一步调整对进化策略（简称 ES）算法的探索过程。他们还引入了新的思路以改善大型神经网络的进化过程。
理论: 研究人员们将 ES 计算的近似梯度与随机梯度下降（简称 SGD）进行比较，同时设计工具以更好地预测 ES 成效如何随规模及并发性水平产生变化。
大型计算无处不在:他们写道，“对于有兴趣转向深度网络的神经进化研究人员而言，以下几个重要重要因素值得加以考量：首先，这类实验需要比以往更多的计算资源 ;对于这批新论文中提到的实验，我们经常需要使用数百甚至数千个同时运行的 CPU。然而，对更多 CPU 或 GPU 的需求不应被视为一种负担 ; 相反，从长远角度来看，向大规模并行计算中心进行规模化演变将非常简单，这意味着神经进化有可能在不久的未来发挥出更为可观的潜力。”
了解更多: 欢迎来到深度神经进化时代 (Arxiv).
了解更多: 遗传算法，训练深度神经网络强化学习能力的另一有力选项 (Arxiv).
了解更多: 通过输出梯度对深度神经网络与递归神经网络进行安全进化.
了解更多: 关于 OpenAI 进化策略与随机梯度下降间的关系 (Arxiv).
了解更多: ES，并不仅仅是一种传统的有限误差逼近器 (Arxiv).
了解更多: 通过寻求新型搜索代理改进对深度强化学习进化策略的探索.

美国国家安全战略选定 AI 以测试对信息战场的潜在破坏能力:

…AI 有能力从 NSS 报告当中挑选出虚假新闻并实现辅助监控…

在世界各国都在公布日益复杂且更为详细的国家 AI 发展战略的同时，美国政府则在采取“一切照旧”的处理方式。根据 NSS 发布的说明，目前美国政府仅在两个方面明确提到与 AI 相关的议题——其一为与创新相关的领域（涵盖一系列不同技术应用），其二则为国家安全。而后一点则存在诸多分歧：美国国家安全局在“信息公报”一节中明确指出，AI 属于美国国家安全所面临的一种潜在威胁。

“敌对方将个人与商业来源信息同基于人工智能（简称 AI）以及机器学习的情报收集及数据分析能力加以结合，这将给美国带来更为高企的国家安全风险。国家安全局表示，入侵美国商业及政府组织的行为将为敌对方提供更多与数据及目标受众相关的见解。举例来说，中国将数据与人工智能结合起来，对公民的国家忠诚度评级，并利用这些评级确定工 51 34093 51 17601 0 0 5758 0 0:00:05 0:00:03 0:00:02 5757内容等等。恐怖组织继续借此进行意识形态层面的宣传活动，建立仇恨情绪并使其行动合法化，同时利用先进的通讯工具招募新兵并鼓励更多美国人乃至我们的其他合作伙伴参与此类攻击。俄罗斯利用信息作为其网络攻势的重要组成部分，用以影响全球舆论。其舆论影响活动将机密情报活动同虚假帐号及国有媒体、第三方中间机构以及付费社交媒体用户或者说‘水军’杂糅在一起。美国在打击敌对方的信息利用行为方面一直表现得疲软无力。美国的研究工作缺乏持续性重点，且一直缺少具备适当培训经历的专业人员。好消息是，美国各私营部门有意对此提供支持，从而扩大我们代表着宽容、开放与自由的发声能力。”

了解更多: 美利坚合众国国家安全战略 (PDF).

再见，值得依赖的通话来电 ; 你好，Tacotron 2:

… Wavenet 的加持让人类语音合成成为可能…

谷歌公司已经发布了 Tacotron 2 文本到语音（简称 TTS）软件的研究成果，该款软件被用于生成与人类相近的音频合成样本。

结果: 一套模型的平均意见得分（简称 MOS）为 4.53，而专业记录型话语的得分则为 4.58。大家可以点击此处体验部分 Tacotron 2 音频样本。通过个人体验，我无法分辨人声与计算机生成音频间有何区别。研究人员还对其系统合成音频同实际音频进行了并行评估，并发现人们对于 Tacotron 2 样本反而略为认可，而对人类真实对话仅表示可以接受。不过目前还需要投入进一步工作以训练系统处理较为罕见的单词与发音，同时弄清如何在运行时对音频进行调节，从而使特定音频样本包含高兴、悲伤或者其它情绪。

展望未来，这类系统将能够重新训练合成语音，从而利用相对较少的数据匹配目标发言者，而后弄清如何利用口音或者其它语音标签以调节成果并更好地模拟目标语言习惯。

了解更多: 立足梅尔谱图预测调节 WaveNet 以实现自然 TTS 合成.

中国芯片初创企业地平线机器人科技发布监控芯片:

…此款芯片侧重于监控与自动驾驶等领域…

地平线机器人科技（Horizon Robotics）公司发布了“Journey 1.0 处理器”，并在公告中指出该芯片“能够同时准确检测并识别行人、机动车辆、非机动车辆以及交通标志。基于该芯片的智能驾驶平台支持 260 种交通标志的检测，且对交通信号灯、车道以及相邻车道红绿灯的识别精度可达 95% 以上。”

该公司指出，每块芯片“可以同时检测 200 个可视目标”。

中国芯片产业爆发式增长： 中国目前正迎来一大批国内初创企业的蓬勃发展，且这些公司专攻特定 AI 推理与训练芯片的开发。事实上，中国正在全国范围内力争创造更多具有半导体专业知识的厂商，并借此向传统芯片企业英特尔、AMD、IBM 以及英伟达等发起挑战。

Salesforce 公司研究人员开发人工智能架构生成器，其高性能、非标准“BC3”单元令人惊叹:

…神经架构通过特定领域的语言搜索实现监督增强…

Salesforce 公司的神经架构搜索方法依赖于人工智能特定领域语言（简称 DSL）的形式进行人工监控。其基本思路在于，人类可以指定 AI 组件以评估一段短小的购物清单，而系统会计算出能够解决任务的组件最佳数量及组合。

神经架构搜索的缺点在于，其可能相当昂贵——除了需要为尝试不同架构而投入计算资源外，我们还需要在测试架构时提供更为庞大的存储与计算储备。Salesforce 公司的研究人员们试图通过利用递归神经网络以迭代方式预测新架构的成效，从而减少对模型实际全面测试的需求。

结果: Salesforce 公司所使用的架构训练方法，在成效上与语言理解及机器翻译等最新技术成果相当，其几乎完全通过计算机自主研发出有效的架构，而不必再由机器学习研究人员负责设计。

神秘的“BC3”单元: 与所有优秀的研究论文一样，他们也在其中包含了一个小秘密：即 BC3 单元的发现，其在各类高性能模型中被广泛采用。他们写道，此单元具有对“两个 Gate3 运算符进行意外分层”的神奇特性。“虽然只使用核心 DSL，但 BC3 仍然与人类的常规 RNN 架构直觉有所不同。”

神经架构搜索技术目前似乎还处于初级阶段，但相信会在未来两年中扮演极为重要的角色。这是因为此类技术将能够从谷歌 TPU 等新型快速计算机硬件以及来自 AMD、英伟达乃至英特尔的新型处理器中获得巨大助益。

原文链接：

https://jack-clark.net/

作者 Jack Clark 有话对 AI 前线的读者说：我们对中国的无人机研究非常感兴趣，如果您想要在我们的周报里看到更多有趣的内容，请发送邮件至：jack@jack-clark.net。

反向激励，在加速这个社会的黑化

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

多人约P大瓜！旧爱怀孕上线开撕，曝聊天记录！小白龙报警，官宣恋情！