下一个“ChatGPT” 已经来了?
当前,人工智能日益成为引领新一轮科技革命和产业变革的核心技术。特别是最近几个月爆火的ChatGPT,展现了通用人工智能为众多行业赋能的巨大潜力。
微软作为投资方,率先将ChatGPT接入到了其搜索引擎Bing(必应)中,知名社交软件Snapchat(色拉布)推出基于ChatGPT的自有聊天机器人,美国生鲜电商Instacart将把ChatGPT技术加入杂货配送应用中......
图源:theverge
从AI绘画到ChatGPT,下一个大模型的爆发点会出现在何处?实际上,谷歌、Meta等大厂已经开始在视频自动生成领域进行更深层的探索。错过了ChatGPT的“谷歌们”,能赢在下一场嘛?
ChatGPT 大火 ,
加速 AIGC 走向成熟
在中国,刚刚闭幕的2023年全国两会多次提及ChatGPT话题。
科技部部长王志刚在接受媒体采访时表示,ChatGPT有效结合了大数据、大算力、强算法,它的影响绝不仅在科技领域本身,可能还涉及其他领域的赋能应用。他呼吁科研院所、企业、广大科研人员都能有进一步发展和进步,为国际社会作出中国贡献。
全国政协委员、360集团创始人周鸿祎的一份提案聚焦ChatGPT,认为以ChatGPT为代表的人工智能大模型技术的巨大跃升将掀起一场新的工业革命。
全国政协委员、知乎董事长周源则表示密切关注ChatGPT发展,提出建立相应的过滤措施,研发方、应用方应切实履行企业主体责任,同时呼吁民众提升知识和认知水平,使他们更好地保护自身权益......
尽管ChatGPT的火爆,让大模型时代的AIGC(AI Generated Content,是指利用人工智能技术来生成内容)获得了空前关注,但AIGC产业,还只能说是一个“新生儿”。
根据Gartner发布的2022年新兴技术成熟度曲线,生成式AI目前还处于“技术萌芽期”,预计距离生产成熟期还有5-10年的时间。
图源:Gartner
尽管如此,经过文生图、ChatGPT的验证,AIGC在其他垂直领域中的可拓展空间已经可以预见。
想做怎样的视频,
AI帮你实现
下一个“接替”ChatGPT成为现象级事件的工具会是什么?开始之前,请大家先看几个由AI生成的视频效果。
这些视频片段均来自Imagen Video——一款文本生成视频的工具。
去年底,谷歌CEO桑达尔·皮查伊亲自在推特上“安利”了他们在这一领域的最新成果:两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质,后者主要挑战视频长度,可以说各有千秋。
图源:Twitter
谷歌声称,Imagen Video是朝着“高度可控性”和世界知识系统迈出的一步。这里所说的突破不仅包括生成镜头的能力,还有视频的艺术风格等。
事实上,通过文本生成短视频并不是什么新鲜事情。此前中国的清华大学和北京人工智能研究院的一组研究人员发布了 CogVideo,它可以将文本翻译成相当高保真的短片。但 Imagen Video 似乎是对先前最先进技术的重大飞跃,展示了现有系统难以理解的动画字幕能力。
比如,你只需要输入:泰迪熊洗碗。Imagen Video就会生成一个下图的场景。
图源:Imagen Video
据了解,Imagen Video能根据书面提示以每秒 24 帧速生成分辨率为 1280×768 的视频。虽然如今画质稍显不足,但未来可期。
现在,让我们将目光转向长视频生成工具Phenaki。
理论上,视频是一系列连续的图像。然而在实际操作中,生成一个连贯的长视频并没有那么容易。因为在生成过程中,可用的高质量数据非常少,而任务本身的计算需求又很大。我们所说的Phenaki便能根据200个词左右的提示语,生成2分钟以上的长镜头,讲述一个完整的故事。
在公开的信息中,Phenaki展示了它交互生成视频的能力。例如,你可以选择视频的整体风格(是高清视频还是卡通风格),还可以切换任意场景。
比如给它这样一段场景描述:一只逼真的泰迪熊正在潜水;随后它慢慢浮出水面;走上沙滩;这时镜头拉远,泰迪熊行走在海滩边篝火旁。就能得到一个这样的视频片段:
图源:Phenaki
从Imagen Video到Phenaki,谷歌接连放出大招。值得一提的是,Imagen Video表示,两个团队将合作进行下一步研究。
图源:Phenaki
除了谷歌,Meta也在AI生成视频方面有所布局。此前该公司就推出了文生视频模型Make-A-Video,可以从给定的文字提示生成短视频。
不仅如此,这个AI模型还具备将静态图像转成视频、根据前后两张图片生成一段视频,以及基于一段原视频生成新视频的能力。
图源:Meta AI
AI降低创作门槛,
但也带来了安全隐患
2019年时,一款名为“ZAO”的AI换脸软件曾经火爆全网,用户只需要在APP中上传一张照片,就能将自己的脸替换成任何想要替换的人。尽管该软件很有趣并且门槛低,但很快也遭到了用户的抵制,因为该软件获取的个人信息并无法保障其安全性,这很有可能让不法分子钻了空子。
同样,ChatGPT也暴露出一些问题,如可能会给抄袭、作弊提供便利。上文提到的AI视频生成软件Imagen Video 和 Phenaki ,也有被滥用的风险,如生成有虚假、极端等问题的不良内容。
目前,谷歌方面采取了输入文本提示过滤和输出视频内容过滤等措施来最大程度地减少这些问题。但对于一些社会偏见和刻板印象仍难进行检测和过滤,因此谷歌还未正式发布相关模型及源代码。
Meta也承认,按需制作真实感视频的能力存在一定的社会危害,因此将所有由AI生成的视频内容都加上了水印,以“确保观众知道这段视频是由人工智能生成的,而不是捕捉到的视频”。
图源:Meta AI
AI技术一方面大大降低了从文本到视频内容创作的门槛,另一方面AIGC也推动着内容行业革新,但发展初期还未建立起新的规则和秩序,最终如何改变行业还需要时间。
点击文末“阅读原文”进入世界互联网大会官网
✦
相关阅读
✦
习近平向2022年世界互联网大会乌镇峰会致贺信
世界互联网大会秘书处
公开招聘工作人员公告
世界互联网大会
新年贺词
参考 | 中国青年报、光明网、澎湃新闻、
量子位、TheVerge
✦
关注我们
✦
戳我~ 一键进入官网