Google 程序员都是怎么研究 AI 的?
作者 | 赵敏
责编 | 郭芮
9 月 20 日-10 月 7 日,谷歌AI体验展在上海龙美术馆(西岸馆)展出。谷歌总共展出了 17 个互动项目,和九月底人工智能大会上谷歌介绍的项目有一些重叠,也有一些区别。这次体验展没有背后的技术原理介绍,是纯粹的成果体验,所以不需要有专业知识即可参观。
事实上,场馆里随处可见组团而来的中小学生。展出的项目中,有些比较前沿,让人可以深刻体会到谷歌领跑于世界的创新能力和强大的平台实力,但也有一些小项目,仅仅是工程师们利用业余时间开发完成的。这个现象也非常符合谷歌公司文化(插句题外话,关于谷歌文化介绍,推荐一本书《重新定义公司-谷歌是如何运营的》)。
这些项目都有一个共同点,就是使用了AI技术。
谷歌在2010年初退出中国搜索领域市场后,2016年在北京首次召开中国开发者大会,17、18年则在上海召开,大会的主题也从安卓慢慢向人工智能转变。本次体验展也是与2018开发者大会同期进行。可以看出,虽然已经过去了8年,但是随着AI浪潮的到来,谷歌对中国的热情不减反增。
近年来,作为一家 AI First 的公司,Google 在人工智能领域已经开发出了非常多的应用,比如 Google Photos、Google Lens、猜画小歌小程序等。在本次展览体验上,许多新奇的 AI 应用场景都得以展现,包括以色搜图、3D作画、AI手影识别、智能化生成皮影戏、AI二重唱等等。
本文就用一些图片和视频对这次展览做下记录。
入口欢迎PPT
以色搜图项目
用户可以在旁边的面板上任意选择五个不同颜色,AI程序会自动搜索主色调符合这五个颜色的艺术品。
这个算法实现起来比较简单,事先提取每件画作的色调,然后与体验者选取的颜色值进行比较匹配即可。实现难点在于谷歌搜集了600多家博物馆馆藏画作。谷歌工程师可以很方便地基于这个数据库实现自己的任何idea,这就是强大平台实力所提供的便利之处。
另外提一点,展览内的志愿者都是上海各大高校的学生通过面试选拔出来的。
AI识别手影生肖
将投影在墙上的手影识别为生肖动物,这个和下一个的皮影戏项目比较类似。用到了图像处理与模式识别知识。
AI生成传统皮影戏
识别手影为一个皮影戏的角色,并且将这个角色添加到皮影戏中,自动生成故事情节、动作、声音。依然是图像处理算法的应用。
VR 3D做画
体验者可以通过VR眼镜和一个手柄,在虚拟世界里绘制一副3D画作。这个项目是排队最长的一个,因为体验感极强。
随手涂鸦匹配世界名作
体验者随意画一个简单的线条图,AI程序可以搜索到与之最相似的艺术画作。这里的画作数据库和第一个以色搜图是同一个,包括之后还有几个项目,都会用到这个数据库。
按视觉相似性排列的艺术画作
AI程序将看上去比较像的艺术品放在相邻的位置,这个图海的效果实在太酷了!
AI二重唱
屏幕上蓝色为人弹奏的声音,黄色为AI智能程序弹奏的声音。不得不说现在小学生会弹钢琴的太多了,本人排队期间,平均不到十个人就有一个可以弹出曲子。一首致爱丽丝送给大家。
对这个项目背后的技术不太了解。现场体验来看,AI程序并不是在体验者一开始弹奏时就插入音符,而是自动学习几秒之后才会开始伴奏。另外背后是基于什么模型标准去添加音符也不太清楚。
如果各位看官有了解的可以在评论区留言。
VR
VR的发展从12年Oculus Rift开始众筹算起,13年推出开发者版本,至今已经商用了五六年,现在也不能算什么新鲜事物了。如果对VR的技术感兴趣可以去维基百科搜索Palmer Luckey与Steve M. Lavalle。他俩是OculusVR的创始人和早期核心员工,一位主攻3D视觉方向,另外一位主要解决传感器数据融合、头部姿态预测跟踪等问题。
这些都是VR产品需要解决最基本核心的问题。
AR
这个项目展出的AR就是一个静止的2D效果,简单地在体验者背景里添加一张画作。从技术角度看这个AR的项目的难度远低于下边的谷歌AR翻译。
AI识别人体动作
程序实时地识别体验者的四肢姿势,并且从图片库里找到和你摆出同样造型的照片。事实上,识别人体骨架这个功能很早就实现了,包括微软kinect的体感游戏,也已经商用了很多年。
谷歌AR翻译
识别并且翻译语言,并且将翻译的结果以AR的效果实时地贴在相机预览界面中。这个使用了OCR技术,并且依赖谷歌翻译。
其强大之处有四点:一,可以在一个界面中跟踪多个需要翻译的对象,互不干扰。二,所有工作可以在手机端侧完成,脱离谷歌云服务完全不受影响。只要用户事先下载好对应的语言包,断网之后依然可以完成翻译及渲染工作。三. 支持翻译的语言超过百种。国内百度翻译只支持三十种左右,且不支持AR翻译。有道翻译支持AR翻译,但仅限部分手机机型,即使是支持AR翻译的机型,语言也只支持三十几种。这样一对比大家就能体会到谷歌实力的恐怖之处。四,除了AR翻译,谷歌翻译还支持语音翻译,以及在其他安卓应用界面直接选中文字翻译。
大家可以去应用市场下载谷歌翻译进行体验。这个项目的完成也依靠了谷歌长期技术积累的两大平台能力,翻译能力与安卓操作系统。
艺术品之间的关联性
体验者可以随机任选两幅完全没有关联的画作,AI程序可以搜索艺术品数据库,通过几幅作品将两幅完全没有关系的画作联系起来。
如下图,体验者随机选择了最左边的人像A和最右边的艺术品B,AI程序可以搜索出一些其他画作,实现从A过渡到B的效果。从效果看这个与神经网络各层之间实现的过渡比较相似。
AI创作歌词与曲调
通过拍一张照片,AI自动识别里边的元素,比如“眼镜”、“棒球帽”,然后将这些关键字串联为歌词,通过RAP配上音乐说唱出来。
EMOJI表情
根据提示的表情包,在现实生活中找到对应的物体。如手表,手机AI程序会自动判别你找到的物品是否与表情包对应,如果对应那么就会提示你成功。
猜画小歌
根据提示的词语,绘制简笔画,手机AI程序会自动判断你绘制的简笔画是否符合要求,比如狗、手表、红绿灯、鲨鱼等。
这是个微信小程序,大家用手机就可以体验,直接在微信搜索小程序“猜画小歌”即可。
放大细观世界珍宝
这个就是用三面巨屏展示艺术画作,和AI没什么关系,给人感觉是为了契合“科技与艺术”主题而拿来凑数的项目。
总之,所展出的项目大多是使用了2D图像处理技术。包括AR翻译,其实也是对每一帧图像进行物体识别跟踪。相比而言,语言声音类与3D图像类比较少。
后记
09年李开复先生的离开使谷歌缺少了中国本土化的润滑剂,直接或者间接导致了当年的退出内地事件。而今年9月份AI女神李飞飞宣布离职,重复的故事又在上演,这距她17年加入谷歌都未满两年。虽然从这次展览的项目可以看出谷歌已经在小心翼翼地收敛着自己的锋芒,但是入华进程依然道阻且长。
最后附几张场馆外的风景照。
作者:赵敏,安卓软件开发工程师,现就职于上海华为消费者BG。个人知乎号:米开朗基罗赵。
声明:本文为作者投稿,版权归作者个人所有。
推荐阅读: