使用 Pixel 3 的 Photobooth 自动拍摄最美自拍照
文 / Navid Shiee,Google AI 高级软件工程师;Aseem Agarwala,在职研究员
要拍出一张好看的多人自拍照可能很不容易,您需要把手指悬在快门上、让每个人的脸都在画面里、看着镜头、摆好表情、努力不让镜头摇晃,还要祈祷在您最后按下快门时没有人眨眼!在开发出支撑 Google Clips 自动摄影的技术 后,我们不禁自问:可否为 Pixel 手机提供这种自动拍照体验的些许魔力?
于是就有了 Photobooth,这是 Pixel 3 相机应用中的全新无快门模式,现在可助您更轻松地自拍。无论是单人、双人还是多人自拍,它都能捕捉到您最美的一面。进入 Photobooth 模式并点击快门按钮后,它会在镜头保持稳定,并看到拍摄对象都摆好表情及睁开眼睛时自动拍照。此外,在 Pixel 相机的 最新版本 中,我们还为 Photobooth 添加了亲吻检测功能!当您亲吻爱人时,相机会自动捕捉画面。
注:最新版本 链接
https://play.google.com/store/apps/details?id=com.google.android.GoogleCamera&hl=en_US
当照片中的每个人都展现出最美的一面时,Photobooth 会自动捕捉多人画面
Photobooth 将 最佳照片 和 人像模式 加入到一系列激动人心的 Pixel 相机功能中,能够助您拍出最美照片。人像模式利用后置镜头中的专用硬件提供最准确的结果,而 Photobooth 则是针对前置镜头进行优化。如要构建 Photobooth,我们必须解决三项挑战:如何为广泛的用户群识别优质内容;如何确定按快门的时间以捕捉最美时刻;以及如何将视觉元素制成动画,帮助用户理解 Photobooth 看到和捕捉到的内容。
用于理解优质内容的模型
在开发 Photobooth 的过程中,我们面临的一个主要挑战是确定出现优质内容的时机,这包括在典型自拍中当所有拍摄对象都看向镜头的情形,以及在抓拍时人们亲吻及不一定面向镜头的场景。为解决这一挑战,Photobooth 依靠两个截然不同的模型来捕捉好看的自拍,它们分别为面部表情检测模型和检测人们何时亲吻的模型。
我们与摄影师合作,并确定了五个应能触发拍摄的关键表情:微笑、伸舌头、亲吻/嘟嘴、鼓起腮帮和惊喜。然后,我们训练神经网络对这些表情进行分类。Photobooth 使用的亲吻检测模型是为 Google Clips 训练的图像内容模型 (ICM) 的变体,并专门针对亲吻动作做了微调。这两种模型都使用 MobileNet,以便在以高帧率连续处理图像的同时,能够确保在设备上高效运行。模型输出用于评估快门控制算法得出的每帧画质。
快门控制
在 Photobooth 模式中点击快门按钮后,系统会根据上述模型给出的内容评分作出基本质量评估。此第一阶段用作过滤器,可避免捕捉包含闭眼、说话或运动模糊的时刻,或者未能检测到模型所学面部表情或亲吻动作的时刻。Photobooth 可以立刻分析表情的置信度值,以检测照片中是否包含该表情,因而能够稳定处理机器学习 (ML) 模型的输出差异。成功通过第一阶段后,每一帧都会接受更精细的分析,从而输出整体的帧评分结果。
帧评分同时涉及面部表情质量和亲吻评分两方面。由于亲吻检测模型的处理对象是整个帧,所以其输出可以直接用作亲吻动作完整帧的评分值。面部表情模型会为每个所识别的表情输出评分。由于每帧中可能存在的面孔数量不同,因此 Photobooth 利用注意力模型,并通过检测到的表情来迭代计算表情质量表征和每张脸的权重。加权计算相当重要,例如,它可以突显前景中的表情而非背景。之后,模型会计算帧画面中表情质量的单个全局评分。
最终画质评分用于触发快门,该评分是在对基于注意力的面部表情评分和亲吻评分进行加权组合后计算得出。为检测最优质量,快门控制算法会对观察到的帧画面保留短小的缓冲区;如果抓拍画面的帧评分高于之后存于缓冲区的帧评分,则系统只保存该抓拍画面。缓冲区的长度足够短,可以让用户体验到实时反馈。
智能指示器
Photobooth 使用前置摄像头,可让用户在拍照时看到显示屏,并与其交互。Photobooth 模式包含一个视觉指示器,这是一个位于屏幕顶部的伸缩条;当照片质量评分增加时,它会变长,从而帮助用户了解 ML 算法看到和捕捉的内容。伸缩条的长度分为四个不同范围:(1) 未看清面孔,(2) 看到面孔,但其未对准镜头,(3) 面孔对准镜头,但未做出关键表情,以及 (4) 面孔对准镜头并做出关键表情。
为使此指示器更易于解读,我们为伸缩条强制设置这些范围,以防止其伸缩速度过快。这使伸缩条的长度可以随质量评分的变化平滑变动,并能改善可用性。当指示条达到表示高质量评分的长度时,屏幕会闪烁,这表示照片已拍摄完成并已保存。
直接将 ML 输出用作智能反馈会导致伸缩条变化过快(左图),而指定明确范围则会产生平滑信号(右图)
结论
我们对在拍照手机上实现自动拍摄的潜力感到振奋。随着计算机视觉技术的不断改进,我们日后可能会普遍相信,智能相机能够选择值得捕捉的绝佳时刻。我们以 Photobooth 为例,讲述了如何在这一领域开辟实用一角(即通过自拍和多人自拍记录微笑、有趣的面孔和亲吻),并提供趣味无穷的有用体验。
致谢
Photobooth 是 Google 多个团队共同协作的成果。此项目的主要贡献者包括:Kojo Acquah、Chris Breithaupt、Chun-Te Chu、Geoff Clark、Laura Culp、Aaron Donsbach、Relja Ivanovic、Pooja Jhunjhunwala、Xuhui Jia、Ting Liu、Arjun Narayanan、Eric Penner、Arushan Raj、Divya Tyam、Raviteja Vemulapalli、Julian Walker、Jun Xie、Li Zhang、Andrey Zhmoginov、Yukun Zhu。
更多 AI 相关阅读: