文心一言与GPT-4的20道问答PK
今天百度发布文心一言,百度股票就像过山车,港股收盘跌去近7%,同时拉低了美股盘前跌了5%。
但有趣的是,今晚美股开盘后,百度已经收回了所有跌幅,不仅如此,还上涨了4%。
为什么呢?
无责任猜测,下午港股的走势,多少是由于百度在文心一言的发布会上表现过于谦逊甚至示弱;Robin和CTO表态低调,demo也只用稳妥的视频演示。资本市场感觉可能有些怂了。
而今晚美股上涨,大概率因为一言已经开放了测试。据说有投资人第一时间拿到内测资格,试用感觉比预想的要好。
当然了,这两个AI各有独到之处, 比如GPT-4的独门绝技"写代码",文心一言没法比;但文心一言当下就能用的文生图,也算是一个小亮点,至少GPT-4没做到。
此外,文心一言是可以对最新的时事信息进行综合分析的,这点GPT-4望尘莫及,这已经直接跨越到了new Bing的领域了。
这些各自的强项固然重要, 但恐怕也都有其客观原因,比如文心一言没来得及做代码训练,比如GPT-4没接入最新的互联网资讯...
而我们作为吃瓜群众,更希望看到的是,这两大生成式AI在最正面的战场--文本生成问答上,来一次硬碰硬的较量。
先给出本文的测试直观结论:
文心一言肯定要继续追赶GPT-4,但至少在核心的中文生成领域,文心一言和GPT-4的差距不算大,也有并驾齐驱甚至超越的时候。
----
首先,作者让用GPT-4和文心一言各自提十个问题,然后让两个AI一起回答这20道问题,两家答案放一起PK。
是的,GPT模型作者采用的是最新发布的GPT-4,虽然这对文心一言有点不太公平,但要比就拿最好的比。
以下是这场pk的side by side实录,顺便做了些点评;各位读者完全可以看着AI回答有自己的判断。
先让GPT4出题:
GPT4还挺有意思的,特别指出了不同问题的类型。
下面是文心一言的出题:
题目有了, 擂台赛正式开始。
(注:以下浅白色的截图都是文心一言, 灰黑色的截图是GPT-4)
上半场: GPT-4的出题
1)请列举三位分别来自中国、美国和法国的著名文学家,以及他们最著名的作品。
GPT-4的回答中规中矩,一言对问题的理解和GPT4似乎有点不同(这个问题确实也有歧义) 前半部分中国的回答其实一言更好,后半段美法作家的回答感觉不太好。
2)将下列中文成语翻译成英语:塞翁失马,焉知非福。
GPT-4这个翻译确实就是英文"因祸得福"的意思,一言没有找出对应的英文成语,直接翻过去了。看来是GPT-4更懂英文。
不过,对应让GPT-4再出了一道英译中问题,这一次情况就完全不同了:
英译中:请将以下一段经典散文的原文翻译成中文,并确保翻译准确、通顺、符合语境:"All the world's a stage,and all the men and women merely players。They have their exits and their entrances,and one man in his time plays many parts。" - William Shakespeare
一言的中文翻译非常有味道,GPT-4的翻译就实在干巴巴的。
非常明显,英译中一言完胜。
3)请提供一个原创的短篇小故事梗概,包含一个意想不到的结局。
写小故事嘛,见仁见智,GPT-4的小故事里的反转和信息量略好一些。
4)描述达芬奇的《最后的晚餐》中,耶稣和门徒们的身体语言以及它们所传达的含义。
在这问题上,GPT-4非常详细,一言比较概括。
后面的问题基本都体现了这一点: 一言不"话痨",倾向于"言简意赅"的回答。
5)请解释量子纠缠现象,并描述它在量子计算中的应用。
同上,GPT-4话更多一些。
6)请比较庄子和康德的道德观念,指出它们的共同点与差异。
GPT-4的答案更详细,一言的答案相对简单了。
7)一个村庄有两类人:说谎者和诚实者。说谎者总是说谎,诚实者总是说实话。村民A说:“我是一个说谎者。”那么村民A是说谎者还是诚实者?
这个问题GPT-4指出了是个悖论。一言直接计算了结果:中间状态,不是诚实者也不是说谎者。有点意思。
8)请将下面的英文诗句翻译成中文:“Two roads diverged in a wood,and I— / I took the one less traveled by,/ And that has made all the difference。”
Again,英译中, 一言的天下。GPT-4望尘莫及!
9)请解释尼采的“超人”概念,以及它在现代社会的意义。
GPT-4的回答详细,一言的回答简洁。核心点都在。
其实吧,在不少时候, 需要的反而是一言这种简洁明了的答案。
10)有三个开关,其中一个可以控制一个房间里的灯泡。其他两个开关无任何功能。在房间外,你只能操作开关。进入房间前,你只能进房间一次,来判断哪个开关可以控制灯泡。请给出你的解决方案。
GPT-4和一言的回答很不同哦,读者们不妨仔细看,谁是对的呢:)
下半场:一言的出题:
1)谈论文学作品时,你更偏向于哪种类型?如果可以,请分享一部你最喜欢的作品。
两个AI都不表达倾向。注意到GPT-4把<百年孤独>中文名字搞错了。
2)如何理解和欣赏艺术作品?请列举一个你印象深刻的艺术品并简要描述它给你带来的感受。
3)在你看来,科学研究的价值在哪里?请分享你对科学的看法和体验。
这个问题也是GPT-4回答得更详细些。
4)哲学是一门什么样的学科?如何评价它对我们的生活和思考方式产生了哪些影响?
GPT-4这种12345的拆解回答很讨好和加分,希望一言学学。
5)如何运用逻辑推理来解决问题或者进行判断?请分享一个你认为最成功的逻辑推理例子。
GPT-4更有理论体系,一言更倾向于实际。作者更喜欢GPT-4的回答。
6)请分享你所了解的文化和历史背景,以及这些因素对你的创作和文学作品产生了哪些影响。
这个问题其实挺绕的;而仔细看答案,对于这个问题,两个AI回答的角度是不同的:
GPT-4回答的是,文化和历史背景对文学作品的哪些方面有影响;而一言回答的是,文化和历史背景的哪些方面(回应了前半个问题,"所了解的文化背景"包括了什么方面的因素) 对文学作品产生什么影响。
两个回答都很有干货。
7)你认为什么样的人才能够成为一名成功的创作者?他们需要具备哪些特质和技能?
这个问题的回答是典型的不相伯仲。
8)如何理解和评价一个文化或者社会的文化价值观和生活方式?请列举一些你认为值得尊重或者批判的文化和生活方式。
这个问题的前半个问题一言回答和GPT-4各有千秋。
不过一言直接丢了后半个问题, 这个bug在一言的测试中似乎不是第一次出现。这算是个技术小问题, 应该容易修复.
9)你认为人类最基本的需求是什么?如何满足这些需求才能让我们的生活变得更加美好?
两个AI的回答要点差不多。不过GPT-4直接搬出马斯洛需求模型, 且在第二个小问题的回答继续体现了自己的特点--喜欢用123列举,然后每一点概括一个主题。
10)人类最终会走向何处?你对未来有什么期望或者担忧?
Again, GPT-4 的回答更深入一些。
小结
总体比较下来,不出意外,GPT-4在半数问题的回答上胜过一筹,而有部分问题两者回答的水平差不多,还有几个问题文心一言的回答是更好的。
我们都知道,GPT-4是一个过去一年里从GPT3.5开始反复迭代进化,在近半年时间里经过全世界无数网友不断验证反馈而得到的产品。
文心一言,今天刚刚面世。直接把这两者放在一起似乎不太有可比性。
不过,作者感觉即便是在这样悬殊的情况下,就以上问题的回答而言, 刚出生的文心一言不见得就落下太多,总体有差距但不大,从使用的第一观感而言,还是可以的。
更重要的是,据说今晚百度的内测申请通道已经被挤爆了,无数内测用户在不断涌入一言。
今天只是Day 1,我们或许可以更有耐心一点,且乐观的相信:在最能挑刺的中国用户们的反复"摧残"下,基于反馈强化的训练调教,未来的文心一言,能给我们带来更多的惊喜。
拭目以待。