Generative Al 目前有哪些应用
What is Generative Al
大过年的,不看那么多技术文章了,正好前段时间ChatGPT爆火出圈,笔者去了解了下生成式AI的发展过程以及其具体的落地场景,更加偏应用/落地/商业化向。
人类是一个具有Intelligent的生物,我们所创造的Intelligent自然是朝着人类的标准去迈进。人类的智能不仅体现在分析事物的能力,更体现在其创造能力。有什么区别呢,一个浅显的理解:
分析事物能力,是基于经验对当前情况的一个判断,本质上不创造新东西,我们可以称其为分析型AI; 创造能力则是基于经验在创造新的东西,是一个无到有的过程,所以也被称为生成式AI。
Why now
AI发展了这么多年,生成式AI为什么最近才火了呢?密码就是:大规模预训练网络+fine-tune
模型 bigger then bigger
从上图我们可以看到,模型的规模(这里统计的是flops)一直都是在呈指数型增加的,尤其是在2015年前后,其增长速度更加快,具体有多快呢,这篇论文[1]给出了答案。
作者将DL模型大小的发展分为了3个阶段,分别为:前深度学习时代(1952-2010),深度学习时代(2010-2022)和大规模时代(2015-2022)。可以看到进入深度学习时代后,基本上每6个月计算量就翻一番,而在此之前是20个月,几乎等同于摩尔定律。
训练 faster then faster
Google他来了,带着Transformer来了。传统模型的并行能力有限,极大限制了模型的训练速度,间接地限制了模型的大小,而Transformer更好的可并行性,完美地解决了这个问题,进而有了后来的BERT在NLP领域大杀四方。OpenAI团队也在2019年发布了基于Transformer的GPT-2、2020年发布了GPT-3(1750亿参数),
模型的效果越来越好,上图[2]也可看到参数量的军备竞赛已经进入到了白热化阶段。但是问题也随之而来: 啊对对对,你确实把这么大的模型训练出来了,但是这么贵的成本,谁承受得起呢?
推理 cheaper then cheaper
在互联网寒冬的大背景下,花这么多钱搞这么大的活,要是没法落地,可能会优先成为被优化的部门。因此,如何降本(降低推理成本)增效(提高推理速度)成为了头号问题。
对于NLP领域来说,有预训练模型在手,可以hold住大多数语言任务,对于图像生成的任务,之前一直是一个棘手的问题,直到Defution,让大家看到了落地的曙光,也是2022年一大批图像AIGC产品落地的原因。
目前有哪些赛道
目前生成式AI主要有以下落地场景:文字、代码、图像、语音、视频、3D等。下图[3]列举了在各个大方向的具体应用以及其对应的行业内最Top模型。
文本
目前来说,走得最快的还是文本这个领域,目前其实有不少的落地场景了,比如DoNotPay[4]这个APP就是通过AI来为用户提供法律咨询,估值已经超过2亿美元;Japser Ai[5]可以帮助用户写长篇的文案、回复email,给大段文字写摘要等等;大家熟悉的Grammarly[6]也能通过AI基于用户设定的语气和文本风格给文章提供修改的意见。
代码生成
目前来说,代码生成领域里面最强的应该就是Copilot[7]了,并且目前已经开始了商业化,用户通过自然语言描述代码逻辑,AI即可创建出相应的代码,并且还能根据正在编辑的代码上下文提供代码建议。
图片
图片领域应用主要有两种:text2image或图片的二次创作/增强,比如上图的图片补全。目前text2image做的比较好的当然就是Midjourney[8]了,上图的补全能力则是Stable Diffusion[9]的能力。
3D模型
目前这个场景下的落地方向有text to 3D Models 或者说2d->3d models,主要是为了3D游戏、影视提供更加低成本的建模,加速其开发,比较著名的是kaedim3d[10]。但是从一些公开反馈看来,与其在其生成的模型进行精修,还不如自己重新建一个模型,因此目前也还只是图一乐的的阶段。
视频/语音生成
图像到视频这个应用场景目前比较少,但是前景还是十分广阔的(利好营销号)。比如synthesia[11]公司提供的产品,用户可以输入文字,选择喜欢的背景+个人形象,即可生成一段视频,不过现阶段估计比较合适的场景还只是用于做一些产品的介绍or一些简单的口播类视频。
训练数据生成
随着深度学习蓬勃发展,数据的版权、隐私相关的问题也逐渐变成了监管部门关注的点。为了规避违规的风险,许多公司开始转为使用生成的数据作为训练数据,比如人脸识别的数据or交易转账数据。目前比较知名的公司有datagen tech[12],提供人脸、姿态、车内驾驶员视频监控等多种数据的生成服务。
展望
上面的图表说明了我们可能期望看到的基础模型的进展和相关的应用成为可能的时间表。总的来说,平台建设已经逐渐趋于完善,但是在具体应用场景上,生成式AI仍然处于比较早期的阶段。
尽管我们现阶段没办法生成式AI完全替代创造性的工作,比如写一篇长篇小说,但是在一些基础的工作比如写下摘要,输出一张原形图这类辅助性的工作,已经做得较好了。
可以预见的是,未来将会有越来越多的资本涌入这个行业,而生成式AI也会深深的嵌入到我们的工作、生活和娱乐当中。
References
COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING
[2]Towards Controllable Protein design with Conditional Transformers
[3]Generative AI: A Creative New World,Sequoia
[4]https://donotpay.com/
[5]https://www.jasper.ai/
[6]https://www.grammarly.com/
[7]https://github.com/features/copilot
[8]https://midjourney.com/home/
[9]https://stablediffusionweb.com/
[10]https://www.kaedim3d.com/
[11]https://www.synthesia.io/
[12]https://datagen.tech/solutions/ar-vr-metaverse/
往期回顾
【入门系列】万字长文带你入门计算机视觉
【入门系列】万字长文带你入门Transformer
【总结系列】目标检测20年
【总结系列】CVHub带你回顾GANs发展的8年
【工具系列】OOM?详解PyTorch显存高效利用
【工具系列】为什么你的显卡利用率总是0%? 【工具系列】2120年深度学习入门必备手册 【总结系列】一文看尽深度学习中的20种卷积
【总结系列】一文看尽深度学习中的生成对抗网络
【总结系列】一文看尽深度学习中的各种注意力机制
【总结系列】一文看尽深度学习中的各种池化方法
【总结系列】一文看尽深度学习中的各种损失函数
长按识别二维码
微信号:
『cv_huber』
小程序:
『CVHub』