其他
惊!30行代码,让27吨发电机原地爆炸
喜欢就关注我们吧!
上周AI热点回顾:
但对于不写代码、不玩模型的普通人来说,这些 demo 展示的应用还是非常遥远,或者只能从某个 APP 中找到其中一种。因此,经常有人会问:「我也想用这个 demo 里的效果,但不懂代码,我还有机会吗?」
先说答案:有。
这个答案来自大名鼎鼎的 Adobe。这家极富创意的公司最近在 Photoshop 22.0 版更新中推出了一个新的工具包——Neural Filters,把自动上色、超分辨率、风格迁移等之前很多论文展示的功能都打包到了一起。
先来看自动上色:
可以看到,整个过程能够一键完成。当然,如果你对某一处的上色效果不满意,可以选择手动调整:
其实,局部上色效果不佳是目前很多算法存在的共性问题,Photoshop 这种「自动 + 手动」的方法似乎更加灵活。
日常生活中的照片也经常存在分辨率不够高或被压成 JPEG 格式后画质变差的情况,而在 Neural Filters 中,这个问题也通过添加细节被克服了:
其他特色功能还包括风格迁移、年龄转换、角度变换、深度感知等:
在表情调整方面,Neural Filters 也做出了改进。与之前 Liquify 使用原像素调整表情不同,Neural Filters 可以生成新的像素,使得调整后的表情更加明显,可调幅度更大。
Adobe 官方页面介绍称,Neural Filters 是一款基于 Adobe Sensei 的机器学习工具包,通过生成原始图像中不存在的上下文像素来调整图像。
Adobe Sensei 并非一款单独的软件产品,而是一个可以应用于 Adobe 旗下各款产品的底层人工智能工具,于 2016 年正式发布。Sensei 利用了 Adobe 长期积累下来的大量数据和内容,从图片到影像,能够帮助人们解决在媒体素材创意过程中面临的一系列问题,例如如何在互联网上的海量图库里找到想要的图片,让软件明白某张照片、某张照片的一部分、某段视频以及某段文本描述的真实含义,帮助人们把一些固定、重复性的操作变得自动化和简单化。
0230行代码,让27吨发电机原地爆炸
同步发电机,利用旋转的转子磁场在定子中感应发电。其中,转子用于旋转磁场,定子用于切割磁场,所以频率与转子一致,被称为同步发电。
信息来源:量子位
03全球对话技术顶赛DSTC9落幕,百度NLP开源PLATO-2斩获四项冠军
全球人工智能学术竞赛 DSTC 是对话系统技术领域的顶级赛事。2020 年度第九届国际对话技术竞赛 DSTC9 共设有 4 个赛道 (Track-1~Track-4),主办方包括 Facebook、亚马逊、微软、卡内基梅隆大学、清华大学等,参与者广泛覆盖了企业和高校的参赛团队。
近期 DSTC9 官方陆续公布各个赛道排名。百度参与了 DSTC9 前 3 个赛道中 4 项任务的角逐,并在最终的榜单中拔得头名,成绩令人瞩目。这些赛道全面涵盖了开放域闲聊、知识对话、任务型对话等关键问题。据悉,百度在这些任务中所使用的核心技术,均基于其最近开源的开放域对话模型 PLATO-2。
PLATO-2 是基于隐空间技术的大规模开放域对话模型,参数规模高达 16 亿,可就开放域话题深度畅聊,在中英文效果上,已全面超越 Google Meena、Facebook Blender、微软小冰等先进模型。PLATO-2 采用了课程学习进行训练,其过程包括两个阶段:第一阶段,基于简化的 “一对一” 映射,训练得到基础的回复生成模型;第二阶段包含生成 - 评估两个模型,针对开放域对话的 “一对多” 问题,通过引入离散隐变量进行建模,训练得到更高质量的回复生成模型,同时训练评估模型,从多个候选中选择出最合适的回复。这种框架具有很强的通用能力,在预训练各个阶段所获得的模型可广泛支持多种类型的对话系统。这次 DSTC9 的比赛结果就充分展示了 PLATO-2 在对话领域强大的通用能力。
经典的任务型对话系统在回复用户时,依赖于查询结构化的数据库信息,但是在实际应用场景下,用户询问的问题会很多样,数据库常常缺乏相关信息。相比之下,非结构化知识信息,像 FAQ 等涵盖的范围更广,可以辅助系统回复用户。针对这个问题,该赛道共设置了 3 个级联的子任务:
1. 判断当前对话上文是否需要使用外部非结构化的知识;2. 选取跟当前对话上文最匹配的 k 条非结构化知识;3. 根据选取的非结构化知识,进行系统回复生成。
参赛的系统需要完成 3 个级联的子任务,百度在最终的人工评估中,排名第一。在该赛道中,百度基于预训练模型进一步训练了前两个子任务的分类和排序模型,从而实现精准的知识选择,并得以辅助 PLATO-2 模型生成知识增强的回复。如下图示例,系统根据对话上文,从大规模知识库中选出合适的知识,并合理的利用知识生成了高质量的回复,从该实例中可以看出,PLATO-2 模型已经具备了一定的推理能力。
该赛道的人工评估综合考虑了回复中知识的准确度以及回复与上文的合适度,除了参赛系统,测试集人工标注的 ground-truth 也一起参与了评估。结果显示,百度取得了 4.39 的分数,排名第一,跟人工标注结果仅有 0.13 的细微差距。这一结果表明,在此类极具挑战性的任务型对话场景下,模型能够以相对低廉的成本、较快的响应速度,为用户提供高质量的回复。
信息来源:飞桨PaddlePaddle
04百度获INTERSPEECH2020竞赛第一,AI诊断早期阿尔茨海默症价值巨大
全球语音研究领域顶级会议 INTERSPEECH 2020 于近日召开,值得一提的是,其中利用口语自动识别阿尔茨海默症的竞赛吸引了包括 MIT、首尔大学、德国人工智能研究中心等全球34支队伍参赛;百度研究院89.6%的准确率超越 MIT 等世界顶级对手,以第一名的成绩摘得桂冠。
百度研究院在竞赛中基于百度知识增强语义理解技术与平台 ERNIE 做出创新,其模型效果比谷歌 BERT 更好。百度研究院此次夺冠,不仅为阿尔茨海默症这一广泛存在的顽疾提供了早期诊断的更多可能性,同时也证明了语言模型乃至人工智能在医疗领域的重要价值,为行业实现“AI+医疗”提供了全新的范例和思路。
INTERSPEECH 是由国际语音通信协会 ISCA 组织的语音研究领域的顶级会议之一,此次大会正聚焦于阿尔茨海默症举办识别竞赛,探索用 AI 在早期来识别和诊断阿尔茨海默病情的可能性。其中,百度研究院提出的方法是利用语言中的停顿信息,用包含停顿编码的语音转写对 Transformer 语言模型进行微调,并对多次微调结果做多数表决。
经研究,停顿是阿尔茨海默症的一个重要特征。停顿信息不仅包括停顿的时长和频率,同时还包括停顿出现的位置,比如哪两个词之间或者哪种句法结构中出现停顿。基于此,百度研究院的研究表明在转写中加入停顿编码,利用 Transformer 语言模型中的注意力机制学习数据中的停顿信息,可有效识别阿尔茨海默症。
此次对阿尔茨海默症停顿特征的研究工作中,百度 ERNIE 做出了巨大贡献;基于 ERNIE,百度研究院算法的识别准确率得到了有效提升。结果(下表)显示结合停顿编码和百度 ERNIE 语言模型得到的准确率最高,优于只使用转写(0p,不包含停顿),也优于 BERT 语言模型。
052块钱就能买上千张人脸照片?央视曝光AI黑产,产业链太惊人了
「一张人脸照片,只值0.002元,2元钱就能买到上千张」;
今年8月13日,杭州钱塘新区公安部门抓获两名犯罪嫌疑人,他们在多个网络平台盗取了数千条个人信息准备倒卖。而今年年初,浙江衢州也破获了一起盗用公民个人信息案,犯罪嫌疑人使用盗取的信息注册某金融平台账号,非法获利数万元。在这两个案例中,不法分子都是在得到了人脸照片以后,通过AI换脸技术进行预处理,生成一个虚拟的“面部”,再使用照片活化做一个动态视频,这样就能骗过不少核验机制。
一般的手机解锁,“刷脸”支付、“刷脸”门禁等等,采用的大多是这种简单的识别算法。使用精度尚可的3D打印面具或头套,能很轻松通过核验。
这些照片的主人有可能遭遇精准诈骗,蒙受财产损失,甚至还有可能因人脸信息被用于洗钱、涉黑等违法犯罪活动,而卷入刑事诉讼。至于这些照片从哪泄露,专家认为风险最高的环节,还是数据的存储。
从技术角度来说,科研人员正在开发新的技术手段弥补算法漏洞,比如活体检测。原理是通过摄像头捕捉到的面部颜色、毛细血管、温度等等细微参数随心跳的的周期变化,来判断镜头前的是不是真实的人类。
从立法监管角度看,已在施行的法律中,《网络安全法》明确将个人生物识别信息纳入个人信息范围。《民法典》规定,收集、处理自然人个人信息的,应当遵循合法、正当、必要原则,征得该自然人或其监护人同意。且被采用者同意后还有权撤回。
信息来源:量子位
▼ 往期精彩回顾 ▼