* 今日头图使用无界AI创作,关键词:春江花月夜,国宝熊猫花花贵妃扮相,精细的画面,丰富的色彩(“新榜和ta的朋友”直播间观众提供)
上周四,无界AI商务市场总监李本涨在“新榜和ta的朋友”视频号系列直播中进行了题为《从格物致知到人工智能,用哲学思想来理解AIGC》的分享。
聊了聊如何从“格物致知”这一中国传统思想出发,增进对于AIGC的理解和认知,并对目前主流的AIGC模型及其应用场景进行了梳理介绍。
无界AI作为国内最早基于Stable Diffusion模型推出AI绘画工具的平台之一,截至目前,已历经4次版本迭代,累积了200万+的注册用户、生成了1.2亿+的AI作品。本文整理自李本涨在直播中的分享自述,内容经嘉宾本人确认。PS:也欢迎大家去视频号“新榜和ta的朋友们”观看直播回放。每周四晚7点半,我们在直播间等你!
如何用“格物致知”的思想来理解AIGC?
格物致知是中国传统哲学中的一种学习方法和观点,最早出自于《礼记•大学》:“致知在格物,物格而后知至”,后被宋代二程、朱熹等理学家们发扬光大。“格物”指观察和研究实际事物丰富经验,“致知“指通过实践和研究来验证和理解。它的核心逻辑是通过经验和实践,来增进自己的理解和认知。这个观念深刻影响了中国古代哲学和文化,也成为了现代科学发展的重要理念之一。那么距今这么多年的一种思想,能够去理解现在如日中天的人工智能吗?它们之间有什么共通之处?
格物致知是通过经验和实践,去完善自己的思维模型。而人工智能则是通过处理大量的数据,发现数据之间的规律和模式,再通过编码形成算法模型。所以我们很惊奇地发现,在理论层面,格物致知和人工智能,都是通过将经验或数据进行编码抽象实现的。从格物致知的角度来讲,通过思维模式的抽象化和触类旁通,可以把自己的理解迁移到不同的场景里面。比如用格物致知的思维去理解如何做产品设计,因为产品设计本身需要大量的行业经验,做产品要画原型图,在此之前要做产品调研,然后再落实到具体的产品执行,也就是产品开发上。而从人工智能的算法模型角度来讲,结合具体的行业场景,则能够落地不同的功能,最后再生成相应的内容。比如语言场景的ChatGPT、绘画场景的Midjourney等等。两者也都需要通过不断的反馈去迭代优化自己的思维模型和算法模型。所以说,格物致知和人工智能不管是从理论层面,还是应用层面,相互之间的关联性和契合度都非常高。一些学文科的朋友可能之前没有接触过人工智能,觉得人工智能是特别晦涩难懂或者特别理工科的东西,其实它跟哲学思考或者日常的学习应用是有异曲同工之妙的。通过这样一个类比,我希望此前没有接触过AIGC的小伙伴能消除对AIGC的恐惧、疑虑和隔阂,坦然接受人工智能对现在主流社会或者我们的生活带来的冲击和影响。AIGC图灵测试
我们知道,图灵测试是一种判断计算机是否会思考的实验:一个人向计算机发问,另一个不知情的人试图从回答中区分是人还是计算机。如果计算机没有被辨认出,便视为通过了图灵实验。如果我们用这一判断标准做一次AIGC图灵测试,结果会如何呢?大家可以猜一下这些图哪些是由人创作?哪些是由AI创作的?答案:案例一和案例三为AI创作,案例二为人创作
可以说,目前的AIGC产物已经将真实虚拟的边界极大模糊了。在AIGC时代我们应该不断调整自己的思维之“格”,不能再以固有的经验去判断现在的AIGC产物了,因为在很多维度上它已经大大超出了我们的原有认知。 主流AI模型及其应用
接下来我们聊聊现在最流行的两种模型——文生图扩散模型和大语言模型的场景化应用。
目前主流的文生图扩散模型有4个:
1. Disco Diffusion
它是这一次文生图模型大爆发的先导。
Disco Diffusion基于⼈⼯智能深度学习技术,运⽤开源⽂⽣图扩散模型(MIT许可协议),并发布于Google Colab平台。这个⼯具可以直接在Google Drive上运⾏,同时也可以进行本地化部署和运行。
基于Disco Diffusion⽣成的图像⻛格⼤胆、构图抽象,发布不久就获得了⼤量早期接触AI绘画用户的喜爱和使⽤。
Disco Diffusion早期的一些作品欣赏:
这也是如雷贯耳的一个文生图模型,主要搭载在Discord服务器上。Midjourney于2022年7⽉12⽇进⼊公开测试阶段,使⽤者可通过使⽤Discord的机器⼈指令进⾏操作。⽬前Midjourney已经更新到了V5.1版本,整个模型的⻛格发展变化极具AI⽂⽣图⾏业发展的代表性。从某种意义上来说,Midjourney代表了AI⽂⽣图领域的审美标杆。
这个是OpenAI团队于2022年发布的一个文生图模型。它是DALL-E模型的升级版,使⽤了⼀种称为GPT-3.5的模型结构,并具有更⼤的模型参数和更多的训练数据。与DALL-E相比,DALL-E2可以⽣成更⾼质量、更复杂的图像,并且可以基于更抽象的输⼊进⾏图像⽣成,例如语⾔描述、草图等。
Stable Diffusion的扩散模型是“潜在扩散模型”(LDM,Latent Diffusion Model)的变体。它是由初创公司StabilityAI、CompVis和Runway合作开发的开源AI⽂⽣图模型。该模型在⽣成细节丰富的不同背景的⾼分辨率图像⽅⾯⾮常稳健,同时还保留了图像的语义结构,速度也更快。作为⼀个开源模型,基于Stable Diffusion的插件与社群⾮常活跃,⽽⽆界AI作为国内最早基于SD模型推出AI绘画⼯具的平台之⼀,也深度参与到了 AIGC领域的技术发展、社区建设和产业化赋能中。而文字场景下的大语言模型最有名的就是ChatGPT了,它发布于2022年年底,一个月就突破了1亿注册用户。众所周知,其所带来的行业颠覆性是完全超出大家之前的认知的。第二个叫AutoGPT,这是一个开源的自训练模型,它的特点是通过自我学习实现目标。ChatGPT要不断地去跟它对话训练,而AutoGPT的特点是只要给它设定一个目标,它会自我训练,而且它是开源的,你可以部署到本地。ChatGPT现在是不开源,你只能通过API去调用它的能力。第三个叫Anthropic,这个是谷歌投资、前OpenAI员工创办,目前还在发展当中的模型。大家认为它是ChatGPT最大的竞争对手。⽆界AI是一个AIGC内容创作平台,从2022年中旬⼊局AI绘画赛道,在国内应该算是比较早。虽然底层基于SD的大模型,但我们也做了很多二次开发,还有中小模型的研发,我们的定位是提升国产自主技术、美学与核心竞争力。以下为无界AI的版本历程图,自2022年5月至今,一共上线迭代了四个版本。这里向大家展示一些由无界AI生成的作品和插件功能。包括漫画创作、家装设计、虚拟模特换衣、以及打造虚拟人主播等等。
我们认为AIGC时代的到来,预示着内容创作的一场爆炸式革命。但与此同时,版权侵权问题也受到了高度关注。就技术原理而言,AIGC模型在训练及使用过程中,利用版权作品的方式、利用行为的版权定性仍有待分析明确。而区块链技术则可以保障AIGC数字版权的确权流转和保护,它的特点是可溯源、创作快、唯一性和成本低,我们可以把它定义为AIGC界的视觉中国。下个十年将是AIGC的十年,关于AI会不会取代部分人类劳动者的讨论,有句话我觉得说得很对:取代你的不是AI,而是使用AI的人。正所谓“君子生(性)非异也,善假于物也”。AIGC就是一个赋能工具,没必要去抵触它,而是应该思考如何利用它去提升自己的生产力,实现降本增效。最后送给大家一句话:用你的格物之格,迎接属于自己的AIGC时代!
本文由「头号AI玩家」(ID:AIGCplayer)原创发布,而非AI生成。欢迎留言与我们交流,如需转载请留言。
后台发送关键词“头号AI玩家”进AIGC交流群,与我们一起玩耍,共同学习、探索、见证AI的进化。