【他山之石】深度学习和机器视觉top组都在研究什么

人工智能前沿讲习 2022-05-21

The following article is from Agent的潜意识 Author 胡国圣

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注。

作者：知乎—Guosheng Hu

地址：https://www.zhihu.com/people/guosheng-hu

圣诞新年长假接近尾声，假期中我广泛阅读了top组最近做的研究，受益匪浅。在这里分享一些浅见。

1. top组都在研究什么？

各个组研究不尽相同，但top组重合度高的研究方向主要包含: self-supervised learning, multi-modality (audio-vision, text-vision, vision-touch, etc), Reinforcement learning (in Robotics), 3D, video analysis。

2. 如何做有影响力的工作？每个组都有不同的创新思路以及偏好。

(1) 将CV的技术应用到其他领域。例如 Li Fei-Fei做了很多将CV用在medical领域的应用，她刚发了篇Nature, `Illuminating the dark spaces of healthcare with ambient　intelligence'. 这篇文章极为广泛地介绍了CV和ML可以在医疗领域的落地场景。文中介绍的很多场景，每一个都可以支撑起一家估值可观的初创公司（看我安利论文后的投资人和创业者未来发达了别忘记请我吃饭）。

除了医疗领域，还有将CV/DL/ML用在药物设计，洪灾预测，通过谷歌街景地图来识别车的牌子，来判断当地的生活水平和预测美国大选等等。

(2) 引入新的模态(modality)来解决经典问题以实现降维打击。比如把音乐的声音信号自动转化成谱子(transcription), 这是一个经典的语音识别问题。Andrew Zisserman 发表了一篇 ICASSP 2020 (Sight to Sound: An End-to-End Approach for Visual Piano Transcription), 他引入了图像信息，在钢琴上面放置摄像头来识别演奏者手的位置，用这个信息来转谱。这样的好处是可以排除噪音对转谱的影响。还有好多好多，比如用声音信号辅助detection and segmentation；手语识别时不仅用手的姿态变换信息，引入了嘴型变化信息；学习如何给无声电影/视频片段配音配乐等。

(3) 仍然在CV的领域，但创造新的应用。MIT的William Freeman喜欢发这类论文，好多论文都是用现有的CV和语音技术发明一个崭新的应用，比如Speech2Face (根据一段声音重构人脸，因为声音会传递出性别，年龄，地域等很多信息)。他有好多新的应用，很多应用在提出的当时并没有合适的落地场景，但多年后各种条件成熟后取得了成功的应用。

(4) 解决深度学习领域的一些fundamental的问题。比如，Hinton认为现在的CNN读取的是像素，这跟人脑来识别物体天然不同，人脑处理整个物体 (object centric)，而不是一个像素一个像素来处理像素。所以CNN天然对view, translation, small pixel perturbation (对抗样本)不鲁棒。他给的解决方案是胶囊网络。他设计了很多版本的胶囊网络，自己也在不停地推翻自己，不停迭代前进。让人尊敬。

虽然大家偏好不同，但是有一点是相同的，大家都不去做tricks类的研究，不去发明一些可以提高性能的tricks。大家通常是着眼于一个大的picture，各种刷库技巧只是为一个大的picture服务。　

3. 一个在西方国家逐渐兴起，但我国还没有太重视的研究方向: trustworthy AI

包含了 Explainable AI, fairness, accountability, privacy, transparency and ethics. 对这个方向感兴趣，给大家推荐一篇大佬们合写的论文 Toward trustworthy AI development: mechanisms for supporting verifiable claims。

4. 深度学习时代

computer vision和graphics的桥梁(或者说是game changer)包含 (1) neural rendering, 如今年大火的NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, 渲染速度快，效果逼真，必然对游戏，电影特效, AR产业带来革命性的影响。(2) GAN, 主要用于对图像和视频的编辑。

5. 大家从基于2D静态图像的研究已经过渡到了3D和视频相关任务的研究。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“他山之石”历史文章

请点击文章底部“阅读原文”查看

分享、点赞、在看，给个三连击呗！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

【他山之石】深度学习和机器视觉top组都在研究什么

pytorch常见的坑汇总

pytorch 中张量基本操作

pytorch计算模型FLOPs和Params

保姆级教程：个人深度学习工作站配置指南

整理 Deep Learning 调参 tricks

Tensorflow模型保存方式大汇总

利用Tensorflow构建CNN图像多分类模型及图像参数、数据维度变化情况实例分析

pytorch中optimizer对loss的影响

使用PyTorch 1.6 for Android

神经网络解微分方程实例：三体问题

pytorch 实现双边滤波

编译PyTorch静态库

工业界视频理解解决方案大汇总

动手造轮子-rnn

凭什么相信你，我的CNN模型？关于CNN模型可解释性的思考

更多他山之石专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

【他山之石】深度学习和机器视觉top组都在研究什么

更多他山之石专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡