查看原文
其他

文心一言的AI作图为啥这么魔性?看了百度的专利,我可能明白了

韩百科君 百科君的IP杂谈 2023-04-28
带图评论:好像暂时还失业不了——出自《唐伯虎点秋香》

今天把我逗乐的,是文心一言的AI作图。

能把“驴肉火烧”和“唐伯虎点秋香”画成这样的,绝对是一个直击灵魂的魔性画手!


显然AI并不能理解中文的真正含义,画出来的图距离用户的需求,应该还差了十万八千里。

所以不禁要问:
为什么会画成这样呢?文心一言AI作图背后的逻辑是什么呢?
来来来,我们继续来扒专利,看看能不能解决对于文心一言作图的疑惑。

专利申请CN113536006A:生成图片的方法、装置、设备、存储介质和计算机产品,申请于2021年。

从技术领域和背景描述看,属于人工智能领域,也符合目前AI作图产品的定位。
从技术方案来看,是可以通过接收用户输入的短语,然后调取预先训练的算子模型,生成与输入短语所关联的图片。

这跟ChatGPT、文心一言的AI作图功能,也基本一致。


他的给的实施例呢,很简单,写有飞机字样的两架飞机,然后就可以AI生成对应的图片。

与这个技术方案,这个实施例对应的呢,还申请了一件模型训练方法的专利。

这两件专利可能是百度的重要专利,因为均曾向国知局请求了向国外申请的保密审查。

目前看,也不敢说是文心一言的核心专利,因为生成图片的那件CN113536006A,今年1月刚被驳回,正在等待复审中。

你想呀,核心技术,肯定是要有稳固的专利权才拿的出手的呀!

不过先不用管那么多,我惊奇的发现这个CN113536006A的实施例——“写有飞机字样的两架飞机”,其实足以很好地解释为何文心一言现在的作图,如此魔性的原因!

核心就在短语里的这个:“有....的...”!

只要你把输入的短语换成“有....的...”的格式,你瞬间就明白了了AI的逻辑。

不信我们就来验证一下!


1. 街道上车水马龙


AI的逻辑:车、水、马龙街道;


2. 鱼香肉丝

AI的逻辑:肉丝鱼;


3. 胸有成竹的男人

AI的逻辑:胸部竹子男人;
(个人觉得这个例子最明显)

4. 夫妻肺片

AI的逻辑:夫 和妻


5. 一盘红烧狮子头

AI的逻辑:狮子头盘子


6. 老婆饼

AI的逻辑:老婆婆


7. 虎头虎脑的大胖小子

AI的逻辑:虎头胖小子


同样的,“驴肉火烧”可以是,火烧着驴;

“唐伯虎点秋香”可以是,在点着香老虎;

一旦把你输入的短语,换成“有....的...”的格式,是不是AI作图的内容就都对上了?

文心一言作图的逻辑,是不是也都说得通了?

大家有测试账号的,可以接着验证一下。

当然,样品量还很少,CN113536006A的实施例,只是给了我们一个理解文心一言AI作图逻辑、作图模型的启示。

至于文心一言AI作图的核心专利,可能还没公开,也可能我还没找到,我们继续等等看吧~~


专利数据来自incopat数据库

AI作图的图片来自网络

我是百科君,号称专利挖掘机的男子!
关注我!知识产权八卦、热点早知道!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存