查看原文
其他

东西精品沙龙|「AIGC与生产力」系列第一期纪要:绘画、音频、游戏、数字人、社区、营销、web3……AIGC的多应用场景与商业化

东西游戏 东西文娱 2023-10-23



 VinlexWorkshop 主理人 


 与AIGC的初接触 

我对AIGC接触的开始是始于StyleGan模型。

2019、2020年的时候我看到其他的一些视觉艺术家做过针对StyleGan模型的艺术创作,觉得这个东西很酷,很有时代性的东西在里面。不过当时我觉得这个东西的技术门槛比较高,可能需要非常多的算力,而且与我的个人风格有一定距离,所以没有做深入的了解。

今年年初的时候因为有这个契机,发现它好像已经发展到我们个人创作者也可以去进行一些创作的阶段了。

在家里这段时间,我做了一个StyleGan模型的训练。我用的是宝可梦和数码宝贝的数据集,做了一个叫做“抗原妖怪”的项目。在那时候,StyleGan并不能生成特别优质的图像,因为要生成优质的图像的话需要经过非常大程度的训练,我作为个人创作者不可能做到,因此用比较讨巧的方式做了一个pixel art。

同时我也了解到了Diffusion,也就是扩散模型。最初感受到Diffusion的时候,我真的非常震惊——AI已经发展到能够通过一句话就生成图片的状态了。

 对个人创作者意义重大的
Midjourney模型 

这个模型(Midjourney)的出现真正开启了Diffusion的百花齐放的状态。用手机就直接可以输入文本、生成图片,我认为这是一个质的飞跃。

我们原本用的colab需要在电脑上生成,现在我完全可以在手机上做这些。今天我在外面有了什么灵感,在手机上输入文字,它立刻就能生成。

这可能不是我最想要的图片,但它会给我很多灵感。我们就可以根据这样的思路去做一些系列化的生成,而且不需要花费原本那么大的时间成本。

 Ai产品之间的差异、
未来的AIGC需要提升的的地方 

目前来说,各个AI模型之间的区别是越来越明显的,不过要说这个差异大到它们之间完全是两个产品,那倒也没有。

不过现在这个特别模糊的状态反而给了创作者很多空间,使他们可以在作品创作的时候,展示更多的自我价值。

(目前的AI产品)每一个都处于比较起步的阶段。图像生成方面可能相较其他类型的模型有所领先,不过我觉得它还仍具有巨大的进步空间,特别是在这当中亚洲人的审美以及亚洲历史中的艺术作品数据,目前是处于一个极大缺失的状态。

AI音乐的话,各种参数可以调整的空间比较小,对于风格的掌控没有图片那么多。我觉得让风格的多样性提升,以及支持一些参数的微调,类似目前AI生成图像序列帧的方式,将会给予创作领域更大的可能性。



 喜马拉雅珠峰智能实验室负责人 


 AIGC对于喜马拉雅平台的意义 

大的趋势是用AIGC进行降本增效。我们原本的真人接单模式成本比较高,AIGC生成有声书内容能在比较大的程度上降低公司成本。

对于一些时效性内容,AIGC也是一个很好的方案——对于新闻而言,借助AIGC,在有文字稿的情况下几分钟内可能就可以产出有声内容,而如果使用原本的真人接单,可能需要等待几个小时。

还希望将AIGC落地到创作者工具上,降低他们的生产门槛、提升他们的生产效率,从而繁荣创作者生态。

 在研的多情感多播text-to-speech 

我们目前重点在于多情感和多播的语音合成,在这个基础上也将AIGC技术应用到了很多场景,比如内容定制生产、IP运营和地方非遗传承等,或者一些智能硬件的语音交互、语音识别,包括智能降噪的一些处理,都是我们在研究的。

比如说有声书,我们会做很多语义方面的操作:我们会先对文本做一个理解,在做主要角色分析的同时分析整篇文本,识别每句话是旁白还是对白。如果是对白的话,会进一步分析他的情感表现是什么样子,预测是那个角色说出来的,从而达到多情感多播的有声书合成效果。

 AI语音合成应用举例 

我们复刻了单田芳老先生评书的一些风格,来呈现《明朝那些事》等近期新出的热门内容。生成出来的专辑在整个站上的用户量和播放量都是非常大的。目前我们已经复刻了超过200本新书,播放量过亿。

我们也在把情感识别和角色识别的功能落实到工具上,这些工具都是开源的。这也是为了解决目前专业音频录制门槛高的问题,因为普通人发音不一定像专业主播那样标准,而且他们配音配乐也会比较困难。



 火岩控股苏泽兰特 CEO 

 AIGC的大爆发
来自于Diffusion模型的发展 

OpenAI 2022年4月发表的论文及其Dalle2应用,将AI绘画推到了非常高的高度,但OpenAI被微软收购后不再开源。

2022年9月,Stable Diffusion开源了Latent Diffusion(LDM)模型,引爆了全球AI绘画。完全开源使得全球的技术和创意被引爆,大量普通民众可以参与使用的高度易用性的小程序app爆发,如意间云。大量AIGC艺术家可以自己训练AI,展开创作。

 AIGC让每个人创建元宇宙 

如果用一句话区分Web3和元宇宙:元宇宙是物质,Web3是秩序。元宇宙构建数字世界里的“物理法则”,社会关系、经济关系则整合在Web3体系中。

AIGC和元宇宙的关系:AIGC是可以被普通人利用来建设元宇宙的。除了AI绘画,目前还出现了一些AI动画、AI建模的工具,可以让普通人也能够更轻松地在元宇宙中创建自己的数字资产。

 NFT项目:Zero

探索用AI来生成NFT图像。团队花费30天,经过十万张的测试跟学习,NFT最终形象定稿,能够做到风格、形象、特征、表情等全部统一。



 ObEN 合伙人 

 公司简介 

ObEN立足于自研代码,希望为行业合作伙伴提供一个深度定制的元宇宙工具型平台,把内容生态集合在一起,形成围绕AIGC、3D数字人和内容创意的人货场生态。

ObEN基于扩散的生成式AI模型在生成效率上更高,使用v100 GPU生成相同分辨率的图像,ObEN的模型花费的算力消耗仅是Dalle2的10%和Stable Diffusion的50%。而且客户训练的小模型可以直接联网。

我们觉得AIGC最终会在基于大量的针对垂直向内容的训练后,针对不同的行业形成不同的模型资产和生产能力,所以我们觉得它是一个开放、协作、共识的平台,所有有资源、有思考的人,都可以利用AIGC的平台来做一些事情。

 公司案例介绍 

(1)从2D照片生成3D虚拟人形象。接下来要做的是:从AIGC产生的2D图片/卡通头像,可生成多个不同的艺术风格的3D avatar,进而再生成带骨骼的模型,成为web3中的DID虚拟人物资产。

(2)声音驱动数字人生成视频,达到真正的“数字孪生”。

(3)做电影和小说的概念美术、可视化剧本、绘本等。还可以用在时尚设计相关图像的生成、辅助原画工作、美甲设计、盲盒设计、动漫GIF生成……

(4)未来AIGC还可以应用到的领域:游戏设计、漫画和叙事、嗅觉、工业设计……



 Openverse 联合创始人 

 Openverse的探索与尝试 

创业之初,Openverse打造了一个比较偏Web3、比较风格化的可爱形象作为可能的元宇宙入口,再基于这套东西来做生成、扩散和NFT之类。这样一来,我们觉得可能会有一个比较开放的商业模式。

因为涉及到大量的动作绑定表情绑定和面数算力,技术上这也是一个非常tough的问题。因此我们主打的也是科技潮牌感,基于这些设定再去做AI的creation。

我们是一个3D化的载体,因此比较关注生成的东西能否在3D世界中表达出来,并且让这个表达符合消费者的目标。

比如说生成这个小岛的地图,然后可以把一些关键部件拆出来。不过要直接AI生成一整个3D地图,这个还太早。小人也是一样,如果要生成一件版型、材质这些全部能包含到的衣服,我觉得是不可能的。只能说先生成一张抽象的图,然后使用AI的自动化方式,把它贴在3D模型上面去让它更好看,而且能够动起来不穿模,这个是我们正在做的工作。

 对于AIGC行业的态度 

我是觉得里面有很多的潜力和机会,但是也希望大家能够保持冷静。

一个很大的问题就是严重的同质化。同质化会很快地将艺术品的价值拉低。

艺术品的本质并不只是生成得有多好看,而是它在二级市场当中的价值有没有得到认定。所以说,如果我们想要把它当作一个长期的事业来做,可能就要用严格的眼光来看,这个东西的本质到底是什么。

不是AI技术不能够用,也不是这个技术不是一个好东西,而是说我们现在要更加小心谨慎地找到它的价值所在,小心地去探索一条道路,而且需要一段比较长的时间去持续耕耘这个事情。



 西湖心辰(盗梦师)创始人  

 AIGC的技术背景 

主要有赖于2018年至今自监督学习的发展。这种学习方式不需要特别多的数据就可以学习得比较好。相比于监督学习,它需要的标注数据会少很多,有更强的涵化能力。

在这之后,大模型在急速地膨胀,到现在模型从变大的角度来讲,已经到了一个瓶颈期。开源模型的发展也助推动整个大模型的发展。开源之后,很多训练不了大模型的人都可以参与到其中。

 AIGC研究和应用的三个层级 


1)基础型研究。这也是Google在做的一些事情。他们能够凭借丰厚的资金和人才优势作出一些比较具有颠覆性的创新,而这些创新是需要很大资金量支持的。


2)中间这一层是模型的改进。不只是微调模型,也有根据行业去改动模型,使得模型能够应用到更多行业当中去。这方面也需要人才,但是对人才的要求相对没有那么高,产业化也更快些。


3)再就是直接去做商业化应用,根据用户的反馈不断地去产品。


 在训练AI模型时,优质数据集的判断 

把数据抓下来之后,我们会按照一定的标准过滤数据。我们对图像、文字的质量进行打分,把高分的留下来,从而筛选出来一些优质的数据;如果是与to B端合作的话,他们本身会有大量优质的数据,我们就直接从他们那里获得优质数据来训练。



 蓝色光标集团销博特总经理 

 使用康定斯基模型的新产品
——《创意画廊》

关于这款产品,我们最初的想法是基于卡通绘本生成视频脚本,同时也考虑过去生成一些NFT图像。不过由于各种各样的原因,我们最终还是选择了这种产品形式。

我们有几点考虑:

首先我们希望它有蓝色光标和AI的一些特色,其次我们希望他是相对原创的——目前我们谈原创的话,基础模型的原创需要大量的资源,这个我们是不具备的。但是在这个方面去做一些开发或者整体上加入一些原创特色还是可以的。

另一方面上,我们希望它能够比较容易获得。之前我们也做过一些产品,就像生成策划案,它相对来说比较专业,需要专业人士输入一个Brief,然后等待十几分钟。虽然这个对于策划案来说已经很快了,但我们还是希望,在这个方面大家的体验能够更加简单一些。

 关于康定斯基模型:

康定斯基是俄国的抽象派大师,更多是通过线条色彩来反映内部的心理状态。

我们将康定斯基的作品本身定义了三个方向,尝试通过不同的技术方式进行表达:第一个是情绪的表达,与写实作品不同,传达的是一种内在的声音,是非叙事的;第二个是构图,用点线面来展现世界观;第三种就是结构和节奏,将色彩空间等融合在一起形成不同风格。

AIGC之于图片,的确会拘泥于图库、拘泥于标签,但好在我们之前做策划案和海报的时候,已经有了八万多张图片和相应的“微标签”,在此基础上也进行了继续训练,让AI能够进行联想。



 植德律师事务所 合伙人 

在知识产权领域,文学艺术领域的创作未来还会包括人工智能、算法对内容的生成和调整。所以人工智能生成物能不能得到知识产权或者是权利上个保护和救济,这个问题无论是实业的一线还是我们律师都非常关注的。

 AIGC面临的法律问题 

法律行业对AIGC的理解:通过人工智能的算法对数据或者媒体进行生产、操控或修改的统称。

去年新的著作法调整后,对作品的定义摒弃了原来最后一个兜底“法律、行政法规规定的其他作品”,现在调整为了“符合作品特征的其他的智力成果”。

 生成内容的可版权化问题 

两个案例:腾讯诉盈讯人工智能生成文章作品纠纷案、菲林诉百度数据库生成分析报告纠纷案。

法院和律师会考虑的三个问题:


(1)人工智能的内容生成物是否具有内容独创性?


在腾讯和菲林的两个案例上,法院有不同的认定。菲林案例中,法院认为涉案的图形内容没有独创性;腾讯案例中,法院认定涉案文章具有一定的独创性。这个认定的差异可能是由于新著作权法的调整,菲林案是在新著作权法调整前的案例。


(2)人工智能本身是否能作为著作权人?


两个案子中法院的认定是一样的:人工智能本身并不能成为一个作者,也不能成为一个著作权人。


(3)技术/软件的创作者和使用者是否可以作为生成内容的著作权人?


律师建议:软件的创作者在授权软件的使用者时,最好在使用授权协议或合作协议中,对于使用这个技术/软件所生成的内容物作一个条款上的限定或约定,做好生成物的著作权归属。


内容审查合规与风险治理的挑战 


可能面临的问题:抓取素材的方式、抓取的素材是否属于公有领域,使用的软件、技术是否经过授权,数据和个人信息保护……

律师建议:刑事犯罪行为绝对要避免,比如抓取类的破坏计算机信息系统罪;注意生成内容的合规,防止下架风险;注意著作权权属的厘清。



东方财富证券
传媒互联网行业首席分析师 


 AIGC的发展历程 

最早是1950-1990年,这是萌芽期。1957年的时候已经有了第一支由计算机自主创作的弦乐主题奏,但这还是一个早期实验的阶段。

1990-2010年是积累期,AIGC从实验向到实用向逐步转变。到2007年的时候,就已经有了完全由人工智能创作的小说了。

2010年至今处于提速阶段。尤其2014年以来,随着深度学习的算法不断迭代创新,AIGC的效果也不断发展。

 AIGC与生产方式的转化 

UGC相比于PGC,有一个非常好的优胜劣汰的机制。同时PGC也是UGC的基础,像是很多影视圈up主都是在剪辑PGC的内容。PGC内容一方面可能是素材的来源,另一方面很多UGC也在学习最头部的PGC内容。而AIGC可以将这些优质的内容进一步地进行提炼和浓缩。

内容生产的提升有赖于工具的迭代,而工具的迭代也有赖于内容的总结。大量的UGC内容是未来AIGC的温床,AIGC的迭代也会不断提升内容的质量。

尽管UGC极大提高了内容的供给量,抖音的内容创作者基本都是两天上传一个视频,不过B站这样内容质量非常高的平台,创作者可能一个月只能上传两三个视频,这个内容的供给量目前来讲还是不足的。而AIGC可以将内容的供给量再上升一个量级,让大家的需求得到充分的满足。

 关于AIGC的未来展望 

从文字到图片,从图片到视频,再从视频到游戏,AI生产的内容是越来越富媒体化的。

短期我们认为比较有前景的一个方向还是关于图片和视频的AIGC化。

今年3月份的时候,腾讯就上线了智能剪辑平台;从今年八月开始,图片领域也有很多初创公司在尝试AI绘画,也取得了不错的效果。因此我认为,在未来一到两年中,图片领域可能会有一个突破,再往后推演,视频领域也会有所突破。



 东西文娱 & 东西游戏 


 目前市场对于AIGC的态度 

整体偏积极,主要持“看好”或“谨慎乐观”两种态度。

看好的理由一方面是基于整体的市场趋势,另一方面是对于“技术解放生产力”的相信,再加上通过自己平时接触到的项目,发现市场上对此是存在一些真实需求的。

顾虑则主要主要来自以下几个方面:

AI技术工具化发展,其工具价值的发挥还是取决于使用者;有人认为AIGC目前商业化价值可能还不够高,商业化方向上仍需探索;不同的AIGC之间存在同质化,尤其是在各个工具产品之间,细分领域的壁垒还不够高;此外也会涉及到算力成本,这些都会影响到大家对于AIGC未来应用的判断。

 两个视角看AIGC 

投资人视角:AIGC能够带来的一方面是产能的提升,AI能够协助实现更好的创意获取,可能引发整个生产方式的改革;同时也能够与市场关注的元宇宙概念下的各个风口结合;由此去探求它的工具化和规模化机会。

产业视角:AIGC作为一项新兴事物,它的影响力渗透到很多行业;另外,其他一些行业本身也有降本增效的需求,很多平台也在关注AIGC要如何与自身的平台生态进行结合;同时AIGC与元宇宙、Web3也有着比较深的逻辑联系。

 现在市场比较看好的AIGC应用方向 

因为目前海外数个大模型已经开源,AI绘画在c端已经引起了比较大的反响,是目前比较受到瞩目的一个方向。

AI创作音频、视频、数字人、数字藏品,也是与时代的风口结合,因此受到市场普遍关注。

在文字创作、游戏开发等方面,目前也已有比较多的AIGC相关应用,只是之前的关注点比较集中于行业内部。

再就是新兴方向,AIGC与AR、VR、XR,还有工业生产上的一些结合,对产业来说也是一个机会。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存