查看原文
其他

文心一言与GPT-4的20道问答PK

城主 Web3天空之城 2023-03-17

今天百度发布文心一言,百度股票就像过山车,港股收盘跌去近7%,同时拉低了美股盘前跌了5%。

但有趣的是,今晚美股开盘后,百度已经收回了所有跌幅,不仅如此,还上涨了4%。

 

为什么呢? 


无责任猜测,下午港股的走势,多少是由于百度在文心一言的发布会上表现过于谦逊甚至示弱;Robin和CTO表态低调,demo也只用稳妥的视频演示。资本市场感觉可能有些怂了。


而今晚美股上涨,大概率因为一言已经开放了测试。据说有投资人第一时间拿到内测资格,试用感觉比预想的要好。


当然了,这两个AI各有独到之处, 比如GPT-4的独门绝技"写代码",文心一言没法比;但文心一言当下就能用的文生图,也算是一个小亮点,至少GPT-4没做到。

此外,文心一言是可以对最新的时事信息进行综合分析的,这点GPT-4望尘莫及,这已经直接跨越到了new Bing的领域了。

这些各自的强项固然重要, 但恐怕也都有其客观原因,比如文心一言没来得及做代码训练,比如GPT-4没接入最新的互联网资讯...

而我们作为吃瓜群众,更希望看到的是,这两大生成式AI在最正面的战场--文本生成问答上,来一次硬碰硬的较量。


先给出本文的测试直观结论:

文心一言肯定要继续追赶GPT-4,但至少在核心的中文生成领域,文心一言和GPT-4的差距不算大,也有并驾齐驱甚至超越的时候。

----


首先,作者让用GPT-4和文心一言各自提十个问题,然后让两个AI一起回答这20道问题,两家答案放一起PK。

是的,GPT模型作者采用的是最新发布的GPT-4,虽然这对文心一言有点不太公平,但要比就拿最好的比。

 

以下是这场pk的side by side实录,顺便做了些点评;各位读者完全可以看着AI回答有自己的判断。


先让GPT4出题:

GPT4还挺有意思的,特别指出了不同问题的类型。


下面是文心一言的出题:

题目有了, 擂台赛正式开始。

(注:以下浅白色的截图都是文心一言, 灰黑色的截图是GPT-4)


上半场: GPT-4的出题


1)请列举三位分别来自中国、美国和法国的著名文学家,以及他们最著名的作品。

GPT-4的回答中规中矩,一言对问题的理解和GPT4似乎有点不同(这个问题确实也有歧义) 前半部分中国的回答其实一言更好,后半段美法作家的回答感觉不太好。


2)将下列中文成语翻译成英语:塞翁失马,焉知非福。

GPT-4这个翻译确实就是英文"因祸得福"的意思,一言没有找出对应的英文成语,直接翻过去了。看来是GPT-4更懂英文。


不过,对应让GPT-4再出了一道英译中问题,这一次情况就完全不同了:

英译中:请将以下一段经典散文的原文翻译成中文,并确保翻译准确、通顺、符合语境:"All the world's a stage,and all the men and women merely players。They have their exits and their entrances,and one man in his time plays many parts。" - William Shakespeare

 一言的中文翻译非常有味道,GPT-4的翻译就实在干巴巴的。

非常明显,英译中一言完胜。


3)请提供一个原创的短篇小故事梗概,包含一个意想不到的结局。 

写小故事嘛,见仁见智,GPT-4的小故事里的反转和信息量略好一些。 


4)描述达芬奇的《最后的晚餐》中,耶稣和门徒们的身体语言以及它们所传达的含义。

在这问题上,GPT-4非常详细,一言比较概括。 

后面的问题基本都体现了这一点: 一言不"话痨",倾向于"言简意赅"的回答。 


5)请解释量子纠缠现象,并描述它在量子计算中的应用。 

同上,GPT-4话更多一些。


6)请比较庄子和康德的道德观念,指出它们的共同点与差异。

GPT-4的答案更详细,一言的答案相对简单了。


7)一个村庄有两类人:说谎者和诚实者。说谎者总是说谎,诚实者总是说实话。村民A说:“我是一个说谎者。”那么村民A是说谎者还是诚实者? 

这个问题GPT-4指出了是个悖论。一言直接计算了结果:中间状态,不是诚实者也不是说谎者。有点意思。


8)请将下面的英文诗句翻译成中文:“Two roads diverged in a wood,and I— / I took the one less traveled by,/ And that has made all the difference。” 

Again,英译中, 一言的天下。GPT-4望尘莫及!


9)请解释尼采的“超人”概念,以及它在现代社会的意义。

GPT-4的回答详细,一言的回答简洁。核心点都在。

其实吧,在不少时候, 需要的反而是一言这种简洁明了的答案。


10)有三个开关,其中一个可以控制一个房间里的灯泡。其他两个开关无任何功能。在房间外,你只能操作开关。进入房间前,你只能进房间一次,来判断哪个开关可以控制灯泡。请给出你的解决方案。 

GPT-4和一言的回答很不同哦,读者们不妨仔细看,谁是对的呢:)


下半场:一言的出题:

1)谈论文学作品时,你更偏向于哪种类型?如果可以,请分享一部你最喜欢的作品。 

两个AI都不表达倾向。注意到GPT-4把<百年孤独>中文名字搞错了。


2)如何理解和欣赏艺术作品?请列举一个你印象深刻的艺术品并简要描述它给你带来的感受。

 这个问题还是GPT-4回答得好些,一言没有正面回答前半个问题。


3)在你看来,科学研究的价值在哪里?请分享你对科学的看法和体验。 

这个问题也是GPT-4回答得更详细些。


4)哲学是一门什么样的学科?如何评价它对我们的生活和思考方式产生了哪些影响?

 GPT-4这种12345的拆解回答很讨好和加分,希望一言学学。


5)如何运用逻辑推理来解决问题或者进行判断?请分享一个你认为最成功的逻辑推理例子。

GPT-4更有理论体系,一言更倾向于实际。作者更喜欢GPT-4的回答。


6)请分享你所了解的文化和历史背景,以及这些因素对你的创作和文学作品产生了哪些影响。

 这个问题其实挺绕的;而仔细看答案,对于这个问题,两个AI回答的角度是不同的:

GPT-4回答的是,文化和历史背景对文学作品的哪些方面有影响;而一言回答的是,文化和历史背景的哪些方面(回应了前半个问题,"所了解的文化背景"包括了什么方面的因素) 对文学作品产生什么影响。

两个回答都很有干货。


7)你认为什么样的人才能够成为一名成功的创作者?他们需要具备哪些特质和技能? 

这个问题的回答是典型的不相伯仲。


8)如何理解和评价一个文化或者社会的文化价值观和生活方式?请列举一些你认为值得尊重或者批判的文化和生活方式。

这个问题的前半个问题一言回答和GPT-4各有千秋。

不过一言直接丢了后半个问题,  这个bug在一言的测试中似乎不是第一次出现。这算是个技术小问题, 应该容易修复.


9)你认为人类最基本的需求是什么?如何满足这些需求才能让我们的生活变得更加美好?

 两个AI的回答要点差不多。不过GPT-4直接搬出马斯洛需求模型, 且在第二个小问题的回答继续体现了自己的特点--喜欢用123列举,然后每一点概括一个主题。


10)人类最终会走向何处?你对未来有什么期望或者担忧?

 Again, GPT-4 的回答更深入一些。


小结

总体比较下来,不出意外,GPT-4在半数问题的回答上胜过一筹,而有部分问题两者回答的水平差不多,还有几个问题文心一言的回答是更好的。


我们都知道,GPT-4是一个过去一年里从GPT3.5开始反复迭代进化,在近半年时间里经过全世界无数网友不断验证反馈而得到的产品。

文心一言,今天刚刚面世。直接把这两者放在一起似乎不太有可比性。


不过,作者感觉即便是在这样悬殊的情况下,就以上问题的回答而言, 刚出生的文心一言不见得就落下太多,总体有差距但不大,从使用的第一观感而言,还是可以的。


更重要的是,据说今晚百度的内测申请通道已经被挤爆了,无数内测用户在不断涌入一言。

今天只是Day 1,我们或许可以更有耐心一点,且乐观的相信:在最能挑刺的中国用户们的反复"摧残"下,基于反馈强化的训练调教,未来的文心一言,能给我们带来更多的惊喜。

拭目以待。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存