文心一言与GPT-4的20道问答PK

Original 城主 Web3天空之城 2023-03-17

收录于合集 #ai 7个

今天百度发布文心一言，百度股票就像过山车，港股收盘跌去近7%，同时拉低了美股盘前跌了5%。

但有趣的是，今晚美股开盘后，百度已经收回了所有跌幅，不仅如此，还上涨了4%。

为什么呢?

无责任猜测，下午港股的走势，多少是由于百度在文心一言的发布会上表现过于谦逊甚至示弱；Robin和CTO表态低调，demo也只用稳妥的视频演示。资本市场感觉可能有些怂了。

而今晚美股上涨，大概率因为一言已经开放了测试。据说有投资人第一时间拿到内测资格，试用感觉比预想的要好。

当然了，这两个AI各有独到之处，比如GPT-4的独门绝技"写代码"，文心一言没法比；但文心一言当下就能用的文生图，也算是一个小亮点，至少GPT-4没做到。

此外，文心一言是可以对最新的时事信息进行综合分析的，这点GPT-4望尘莫及，这已经直接跨越到了new Bing的领域了。

这些各自的强项固然重要, 但恐怕也都有其客观原因，比如文心一言没来得及做代码训练，比如GPT-4没接入最新的互联网资讯...

而我们作为吃瓜群众，更希望看到的是，这两大生成式AI在最正面的战场--文本生成问答上，来一次硬碰硬的较量。

先给出本文的测试直观结论：

文心一言肯定要继续追赶GPT-4，但至少在核心的中文生成领域，文心一言和GPT-4的差距不算大，也有并驾齐驱甚至超越的时候。

----

首先，作者让用GPT-4和文心一言各自提十个问题，然后让两个AI一起回答这20道问题，两家答案放一起PK。

是的，GPT模型作者采用的是最新发布的GPT-4，虽然这对文心一言有点不太公平，但要比就拿最好的比。

以下是这场pk的side by side实录，顺便做了些点评；各位读者完全可以看着AI回答有自己的判断。

先让GPT4出题：

GPT4还挺有意思的，特别指出了不同问题的类型。

下面是文心一言的出题：

题目有了, 擂台赛正式开始。

（注：以下浅白色的截图都是文心一言，灰黑色的截图是GPT-4）

上半场: GPT-4的出题

1）请列举三位分别来自中国、美国和法国的著名文学家，以及他们最著名的作品。

GPT-4的回答中规中矩，一言对问题的理解和GPT4似乎有点不同(这个问题确实也有歧义) 前半部分中国的回答其实一言更好，后半段美法作家的回答感觉不太好。

2）将下列中文成语翻译成英语：塞翁失马，焉知非福。

GPT-4这个翻译确实就是英文"因祸得福"的意思，一言没有找出对应的英文成语，直接翻过去了。看来是GPT-4更懂英文。

不过，对应让GPT-4再出了一道英译中问题，这一次情况就完全不同了:

英译中：请将以下一段经典散文的原文翻译成中文，并确保翻译准确、通顺、符合语境："All the world's a stage，and all the men and women merely players。They have their exits and their entrances，and one man in his time plays many parts。" - William Shakespeare

一言的中文翻译非常有味道，GPT-4的翻译就实在干巴巴的。

非常明显，英译中一言完胜。

3）请提供一个原创的短篇小故事梗概，包含一个意想不到的结局。

写小故事嘛，见仁见智，GPT-4的小故事里的反转和信息量略好一些。

4）描述达芬奇的《最后的晚餐》中，耶稣和门徒们的身体语言以及它们所传达的含义。

在这问题上，GPT-4非常详细，一言比较概括。

后面的问题基本都体现了这一点: 一言不"话痨"，倾向于"言简意赅"的回答。

5）请解释量子纠缠现象，并描述它在量子计算中的应用。

同上，GPT-4话更多一些。

6）请比较庄子和康德的道德观念，指出它们的共同点与差异。

GPT-4的答案更详细，一言的答案相对简单了。

7）一个村庄有两类人：说谎者和诚实者。说谎者总是说谎，诚实者总是说实话。村民A说：“我是一个说谎者。”那么村民A是说谎者还是诚实者？

这个问题GPT-4指出了是个悖论。一言直接计算了结果：中间状态，不是诚实者也不是说谎者。有点意思。

8）请将下面的英文诗句翻译成中文：“Two roads diverged in a wood，and I— / I took the one less traveled by，/ And that has made all the difference。”

Again，英译中，一言的天下。GPT-4望尘莫及!

9）请解释尼采的“超人”概念，以及它在现代社会的意义。

GPT-4的回答详细，一言的回答简洁。核心点都在。

其实吧，在不少时候, 需要的反而是一言这种简洁明了的答案。

10）有三个开关，其中一个可以控制一个房间里的灯泡。其他两个开关无任何功能。在房间外，你只能操作开关。进入房间前，你只能进房间一次，来判断哪个开关可以控制灯泡。请给出你的解决方案。

GPT-4和一言的回答很不同哦，读者们不妨仔细看，谁是对的呢：)

下半场：一言的出题：

1）谈论文学作品时，你更偏向于哪种类型？如果可以，请分享一部你最喜欢的作品。

两个AI都不表达倾向。注意到GPT-4把<百年孤独>中文名字搞错了。

2）如何理解和欣赏艺术作品？请列举一个你印象深刻的艺术品并简要描述它给你带来的感受。

这个问题还是GPT-4回答得好些，一言没有正面回答前半个问题。

3）在你看来，科学研究的价值在哪里？请分享你对科学的看法和体验。

这个问题也是GPT-4回答得更详细些。

4）哲学是一门什么样的学科？如何评价它对我们的生活和思考方式产生了哪些影响？

GPT-4这种12345的拆解回答很讨好和加分，希望一言学学。

5）如何运用逻辑推理来解决问题或者进行判断？请分享一个你认为最成功的逻辑推理例子。

GPT-4更有理论体系，一言更倾向于实际。作者更喜欢GPT-4的回答。

6）请分享你所了解的文化和历史背景，以及这些因素对你的创作和文学作品产生了哪些影响。

这个问题其实挺绕的；而仔细看答案，对于这个问题，两个AI回答的角度是不同的：

GPT-4回答的是，文化和历史背景对文学作品的哪些方面有影响；而一言回答的是，文化和历史背景的哪些方面(回应了前半个问题，"所了解的文化背景"包括了什么方面的因素) 对文学作品产生什么影响。

两个回答都很有干货。

7）你认为什么样的人才能够成为一名成功的创作者？他们需要具备哪些特质和技能？

这个问题的回答是典型的不相伯仲。

8）如何理解和评价一个文化或者社会的文化价值观和生活方式？请列举一些你认为值得尊重或者批判的文化和生活方式。

这个问题的前半个问题一言回答和GPT-4各有千秋。

不过一言直接丢了后半个问题, 这个bug在一言的测试中似乎不是第一次出现。这算是个技术小问题, 应该容易修复.

9）你认为人类最基本的需求是什么？如何满足这些需求才能让我们的生活变得更加美好？

两个AI的回答要点差不多。不过GPT-4直接搬出马斯洛需求模型, 且在第二个小问题的回答继续体现了自己的特点--喜欢用123列举，然后每一点概括一个主题。

10）人类最终会走向何处？你对未来有什么期望或者担忧？

Again, GPT-4 的回答更深入一些。

小结

总体比较下来，不出意外，GPT-4在半数问题的回答上胜过一筹，而有部分问题两者回答的水平差不多，还有几个问题文心一言的回答是更好的。

我们都知道，GPT-4是一个过去一年里从GPT3.5开始反复迭代进化，在近半年时间里经过全世界无数网友不断验证反馈而得到的产品。

文心一言，今天刚刚面世。直接把这两者放在一起似乎不太有可比性。

不过，作者感觉即便是在这样悬殊的情况下，就以上问题的回答而言，刚出生的文心一言不见得就落下太多，总体有差距但不大，从使用的第一观感而言，还是可以的。

更重要的是，据说今晚百度的内测申请通道已经被挤爆了，无数内测用户在不断涌入一言。

今天只是Day 1，我们或许可以更有耐心一点，且乐观的相信：在最能挑刺的中国用户们的反复"摧残"下，基于反馈强化的训练调教，未来的文心一言，能给我们带来更多的惊喜。

拭目以待。

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

文心一言与GPT-4的20道问答PK

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

生成图片，分享到微信朋友圈

文心一言与GPT-4的20道问答PK

您可能也对以下帖子感兴趣