查看原文
其他

不玩“期货”的快手接棒Stability AI,国产之光可图大模型Kolors领跑开源生态

周一笑 硅星人Pro
2024-09-06

作者周一笑
邮箱zhouyixiao@pingwest.com
这应该是国内用户能直接体验到的最强的文生图大模型。
最近,快手打造的文生图大模型——可图(Kolors),正式宣布开源,迅速掀起一股旋风。这位才华横溢的“艺术家”,不但善于绘制万物,而且深谙中国文化精髓,不仅善“画” 而且能“书” ,写起汉字来也毫无压力。评测视频、教学指南、创意分享……社交媒体上,围绕可图的话题如火燎原。

据了解,可图(Kolors)的生成效果已经超越了现有的开源模型如SD3,并达到了与闭源商业模型Midjourney-v6相当的水平。可图(Kolors)具有强大的复杂语义理解能力,画质达到了摄影级别的质感,并且支持英文和中文汉字的生成。这样强大的模型还是开源的,能不令人心动吗?

在AI大热的当下,快手选择了一条低调务实的道路。在近期举行的世界人工智能大会(WAIC)上,快手的大模型家族首次集体亮相,并宣布可图(Kolors)正式开源,引发了轰动。

可图(Kolors)的这次开源包括了模型权重、完整代码和技术报告,内容非常全面,目前已在Huggingface平台和GitHub上线。供个人开发者免费使用,获得登记许可即可商用。

官网地址:https://kwai-kolors.github.io/

Github 项目地址:https://github.com/Kwai-Kolors/Kolors

Huggingface模型地址:

https://huggingface.co/Kwai-Kolors/Kolors

开源短短几天之后,可图(Kolors)已经在Github收获2k stars。

同时,可图(Kolors)在Huggingface也登上了模型Trending榜首,截至发稿前已下载上万次。

这也展示了开源社区对可图(Kolors)的热烈反响。许多开发者在实际测试和体验了可图(Kolors)的生成效果后,给予了极高的评价。

在X平台,来自Stability AI和Huggingface等企业的开发者第一时间测试、宣传、点赞可图(Kolors)

同时也吸引了许多自发宣传和改进可图(Kolors)的专业用户。

可图(Kolors)的开源之所以能获得如此多的关注,离不开其顶级的性能表现。在智源FlagEval文生图模型第三方评测榜单中,可图(Kolors)以主观综合评分75.23分的成绩,排名全球第二,仅次于闭源的DALL-E 3。特别值得一提的是,在主观图像质量方面,可图(Kolors)表现尤为突出,评分排名第一,显著优于其他开源和闭源模型。

在50位人类图像专家评估中,可图(Kolors)也表现出色,超越了一众开源模型,与Midjourney-v6性能相当,并且在视觉吸引力方面显著领先。

架构方面,根据官方技术报告,可图(Kolors)使用了隐空间扩散模型,并创新地使用了大语言模型进行文本表征。这使得可图(Kolors)具备了复杂长文本理解能力。更长的文本提示词允许包含更多的细节和上下文信息,从而使模型能够更准确地理解和生成图像内容,并且可图(Kolors)支持中英文文字生成。此外,可图(Kolors)通过采用两阶段渐进训练策略(概念学习和美感提升),在图像美感和质量上达到了国际领先水平。

1

强大的复杂文本理解能力

可图(Kolors)使用大语言模型进行文本表征,同时构建了精细化图像文本描述数据集,在复杂文本理解能力上取得了显著突破。从下图中我们可以看到,可图(Kolors)能够正确绘制中国女性形象的所有元素和细节,从黑色皮夹克、时尚太阳镜到鲜艳的红裙和醒目的口红,无一遗漏。在文生图模型常见的颜色混淆难题上,可图(Kolors)也表现优异。即便面对多个主体和繁复的色彩描述,模型依然能够准确无误地进行绘制,将文字描述转化为视觉呈现。

一个时髦的中国女人在上海的街道上,阳光照在她身上,她穿着黑色皮夹克,红色长裙,背着一个黑色背包,戴着太阳镜,涂着红色的口红,她走起路来自信而随意
橘色帽子红色围巾绿色衣服的女生和深绿色帽子蓝色毛衣黑色外套的男生

作为一款国产的文生图大模型,可图(Kolors)在理解和呈现中国特色元素方面表现得尤为出色。如下图所展示的,无论是北京奥运会的标志性建筑“鸟巢”、上海现代化都市风貌的代表“外滩”、彰显古代建筑智慧的“天坛”,还是中华文明的象征“长城”,可图(Kolors)都能以很高准确度和细腻度进行再现。

1

支持生成中文文字

可图(Kolors)的一大技术亮点是支持中文汉字生成。虽然,DALL-E 3和SD3支持英文文字生成,但可图(Kolors)是第一个原生支持中文文字生成的文生图模型。

根据硅星人的实测,可图(Kolors)生成中文文字的效果已经相当惊艳。不仅能够准确绘制不太常见汉字(如:硅),也支持中英文同时绘制,且文字与背景之间的贴合感弱。

面对SD3宣传中的高难度复杂提示,可图(Kolors)依然不在话下。模型能够精准捕捉并呈现提示中的各种复杂属性,包括具体数量、精确位置、丰富色彩、英文字母、中文汉字,以及数字概念。

在大语言模型的加持下,可图(Kolors)仿佛拥有一个能够深入解析人类语言的“大脑”,能够迅速理解并准确执行各种复杂的视觉创作指令。这再次印证了可图(Kolors)强大的复杂语义理解能力。

1

摄影级的画质质感

可图(Kolors)能够生成具有摄影级画面质感的图像,这一效果得益于海量训练数据的支持,以及训练策略的优化。

具体来看,可图(Kolors)训练分为两个阶段:概念学习和质量微调。首先,可图(Kolors)从大规模图像-文本对中学习各种知识。接下来,团队使用高质量、高美感的数据对模型进行微调,以提升图像的精细度和美感。同时,可图(Kolors)引入了一种新的加噪策略,使其在高分辨率图像的处理上表现更好。这一系列优化显著提升了模型生成图像的质量和视觉效果,让可图(Kolors)生成的图片具备摄影级的画质质感。

1

深入业务场景

凭借其卓越的模型能力,可图(Kolors)的开源引发了全球社区广泛关注。而实际上,可图的文生图能力已经应用到快手的多个下游业务中。

例如在非真人IP形象定制中,用户可以根据具体需求生成独特的非真人IP形象,这些形象不仅具有高度的视觉吸引力,还能根据用户的指令进行个性化调整和优化。这一应用不仅提升了内容创作的效率和质量,还为品牌和个人IP的打造提供了新的可能性。

可图(Kolors)通过人像ID保持功能,能够在生成图像时保持用户的独特面部特征,同时支持多种风格化人像的生成。用户可以在不同风格的虚拟形象中自由切换,例如卡通风、油画风、赛博朋克风等,不仅满足了用户多样化和个性化的表达需求,还可以衍生出诸如多风格合成、夸张表情定制、写真定制等趣味玩法。

借助可图(Kolors)的能力,用户可以在虚拟环境中试穿不同的服装和配饰,实时查看效果。这一功能不仅提升了用户的购物体验,还大大增加了商品的展示效果和吸引力。商家能够根据用户的个性化需求,自动生成多样化的商品图片和展示素材,从而更精准地进行市场营销,真正实现千人千面的商品素材生成。

1

SD之后,可图(Kolors)扛起开源大旗

近段时间,开源社区的明星公司Stability AI经历了剧烈动荡。Stability创始人兼CEO Emad Mostaque于3月辞职,高层及核心技术人员相继离职,甚至公司传出寻求“卖身”的消息,使得业内人士担忧这可能是Stability AI的最后一舞。然而,在开源社区遭遇如此重创的时期,快手选择将可图(Kolors)开源,也因此成为了业界关注的新焦点。

快手此次开源的可图(Kolors),不仅在效果上超越了开源的Stable Diffusion 3,还同时支持中英双语生成,并且支持中英文文字绘制,出图质量达到国际领先水平,比肩闭源商用模型。与此同时,快手也展示了对开源技术的坚定承诺,计划陆续开源可图(Kolors)的相关应用组件,如ControlNet、LORA、IP-Adapter等,以丰富其开源生态。

同时,我们也欣喜的观察到,已经有不少开发者开始实现基于可图(Kolors)的相关应用。相信在开源社区的共同努力下,可图(Kolors)的开源生态会越来越完善。

总体来看,可图(Kolors)开源展示了快手在AI技术领域的开放态度和技术能力。快手希望通过开源来推动文生图大模型社区的发展,为企业与开发者提供强大的工具来开发自己的应用和产品。未来,随着越来越多的企业和开发者开始使用可图(Kolors),我们也可以期待整个文生图大模型社区将迎来新的发展契机。

在当今AI大潮汹涌的时代,前沿技术的光环耀眼又令人迷惑,吸引着无数企业投身其中,一方面热情高涨,另一方面又显露出急于求成。无论是大语言模型还是生成式AI,技术的最终价值都在于它如何改善人类的生活和工作方式。只有那些能够在喧嚣中保持清醒,始终聚焦于解决实际问题的公司,才有可能在下一个时代站住脚跟。

快手在AI大模型领域展现出低调、高标准和开放的态度。他们不搞期货,也不玩花活。可图(Kolors)这样的模型正在真实地满足用户需求和商业转化,并通过开源的方式回馈社区。

纵观整个互联网行业的发展历程,每一次技术革新都与内容形态的演进紧密相连,当生成式AI和推荐算法更加紧密的结合,短视频平台与AI大模型的结合将成为下一个重大的技术融合方向。可图(Kolors)的开源和落地,已经让我们看到了这种预兆,接下来就看快手能否抓住这个创造革命的机会了。

1

One more thing

目前可图大模型的各项功能已经集成至可灵AI中,普通用户可以直接通过可灵AI官方网站和可图大模型微信小程序免费使用各项功能。

可灵AI官网链接:

https://klingai.kuaishou.com/

微信小程序:

点个“在看”,再走吧
继续滑动看下一个
硅星人Pro
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存