分享 | 科研展示Tutorial:神经网络篇
关键词:科研展示 Tutorial 神经网络
编者按
2019年11月23日,第二届北京大学前沿计算研究中心及图灵班科研展示交流活动在静园五院举行,来自中心和图灵班的多位同学在会上展示了自己的科研成果。“学术教程”作为本届展示新增环节,旨在促进同学间更加深入的信息交流和经验分享。
以下分享部分教程内容,以飨读者。
神经网络篇
Meta Learning
陈 洋
摘要
Meta Learning,即所谓元学习。相对于让人工智能学习一个特定的任务,元学习的目标是让人工智能学会学习本身。在目前阶段,元学习一般被刻画为人工智能在非目标任务上进行训练,之后能利用少量数据、快速地泛化到新的任务上的过程。当我们缺乏在目标任务域上的足够大的数据集、 数据不是一次性给出的,而是在长期不断提供的,且数据的分布可能动态地发生变化、希望能快速地学习一个新的任务时,或者更目标远大,希望构建 general-purpose AI system,即强人工智能时,Meta Learning 应运而生了。
选题背景
希望构建 general-purpose AI system
缺乏在目标任务域上的足够大的数据集
数据不是一次性给出的,而是在长期不断提供的,且数据的分布可能动态地发生变化
希望能快速地学习一个新的任务
报告人分享
非常荣幸能有机会分享自己当前研究相关领域知识的机会。Meta Learning 的研究是近年才兴起的,个人认为是一个很有前景的领域。如果这个简单的介绍能使大家对这个领域稍稍产生兴趣,那么这就是最令我高兴的事情了。
Meta Learning 算法的最重要的三个方面是 expressive power, consistency 和 uncertainty awareness。未来可以从这三个方面着手,构造更好的 Meta Learning 算法,从而使人工智能具有更高的智能。它可以与 reinforcement learning, active learning 等机器学习等子领域结合,得到适应性、鲁棒性以及数据利用效率更好的算法;其本身也对建立强人工智能有重要意义,具有良好的发展前景。
3D/Geometric Deep Learning
吴润迪
摘要
三维几何建模(3D geometry modeling)是计算机图形学的重要组成部分。近年来,随着深度学习在处理 2D 图像上的成功,研究者们开始尝试通过学习的方法表征三维几何。不同于 RGB 图片,三维数据表示并不唯一,常见包括体素、点云、mesh 等等,且多数表达方式的数据结构是不规则的。这就对深度神经网络在三维几何上的应用提出了挑战,近几年不少具有代表性和启发性的工作均针对这一挑战提出了自己的解决方案。
Image-Based Camera Relocalization
吴松隐
摘要
如果利用照片去记录生活中的场景,我们得到只是 2维的一张图片, 对于场景的认识还很局限。所以当我们想要获取更多关于我们想得到的场景的信息时,就需要用到三维建模。我们通过照片得到的局部信息,计算出当前所看到的场景的三维形状。
报告人分享
RGB-D 相机有一个 RGB 摄像头, 和手机上的摄像头一样, 可以获得色彩信息。另外还有发射器和接收器, 它们发射一些不可见光然后接收的方式去估计每个像素到当前相机的距离,从而就可以计算出当前所看到的场景的三维形状。
但是此时我们只能得到一个局部的三维模型,要想拼接起来我们就需要知道每个模型对应相机的位置,这样才能得到一个完整的模型。所以说在三维重建的领域相机重定位是一个很重要的部分。
当一个人要知道自己在哪时需要三步:第一是了解自己所处的整个大环境,第二是知道自己当前能看到什么,第三是结合前两步推理。相机定位也是一样, 首先需要有场景的先验知识,然后根据当前所看见的照片得出自己所在的位置。
传统方法主要是和已知的帧进行匹配 (Random Ferns),而现在的方法主要是利用可学习的模型 (深度神经网络, 随机森林等) 的方式先计算出二维像素到三维世界的绝对坐标的关系. 然后再利用 RANSAC 的算法结合 PnP, Kabsch 的匹配算法计算出对应的位置。
现有的方法对数据的数量,格式以及预处理的时间要求比较高。我们未来的工作致力于完成用很少的数据、简单的数据格式 (RGB)、 快速的预处理来进行相机重定位。这样在很多便携设备,实时系统上,也能迅速的进行重建等的相关工作。
Introduction to GAN
詹冠其
摘要
GAN是 Generative Adversarial Network 的首字母缩写,中文是“生成对抗网络”或者“生成对抗模型”,核心思想是通过 generator 与 discriminator 的对抗去训练出能够生成 highly realistic images 的 generator。通过这个对抗的过程,D 和 G 一起进步,共同成长。D 训练的目标是区分真图和假图,把来自于训练数据的真图都判为真图,把 G 生成的假图都判为假图;而 G 训练的目标则是能够尽可能生成 highly realistic 的图片,达到以假乱真的效果,欺骗 D 把自己生成的假图也判为真图。
报告人分享
GAN 的训练过程是一个博弈的过程,训练目标形式化表示是一个 minmax problem,如下:
在这样一个训练目标下,通过对 G 和 D 分别求导就可以得到训练 GAN 的算法,如下:
以下是一个 GAN 训练过程的实例,其中蓝线表示 D 的判断的分布,绿线表示 G 生成的图像的分布,黑点线表示真实图像的分布。可以看到,在训练的过程中,G 生成的图像的分布在慢慢向真实图像的分布靠拢,D 的判断的分布也逐渐接近全 1/2 的均匀分布。
作为最近比较热门的一个领域,GAN在计算机视觉领域的图像和视频的生成、变换、操作、插值、特征分离提取等诸多方面都有重要的应用,因此对于想做 CV 的同学还是值得有所了解的。现实世界中,很多时候数据都是 unpaired 的,这个时候用 GAN 便可以很好解决这个问题。
推荐阅读
有兴趣的同学可以了解下面两个关于 GAN 的重要工作:
DeLiGAN (Generative Adversarial Networks for Diverse and Limited Data)
Cycle GAN (Cycle-Consistent Adversarial Networks)
第二届北京大学前沿计算研究中心及图灵班科研展示活动全纪录
近 期 热 点
— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。