查看原文
其他

阿里版 ChatGPT 突然关闭内测申请!

小 G GitHubDaily 2023-04-19

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!


4 月 7 日上午,阿里悄然推出了一款与 ChatGPT 类似的产品:通义千问

不过,目前该产品注册通道已经关闭,只能通过邀请码加入试用。

在产品上线的第一时间,阿里的同学也给我发来了邀请码,原打算当天写篇文章介绍下,无奈这几天比较忙,文章拖到现在才写好。

下面就让我们来好好把玩下这款产品。

打开通义千问官网,能看到主界面只有「使用邀请码」一个选项,意味着阿里暂时关闭了申请通道。具体什么原因,我还没去问。

https://tongyi.aliyun.com

登录进入产品,能感受到它与 ChatGPT、文心一言最明显的不同之处,在于提前内置了许多 Prompt(提示词)。

这些 Prompt 单独针对一个场景进行了封装微调。

这么做有两个好处,第一是方便用户更快上手,第二是让团队在这些具体场景上投入更多精力做优化,让用户体验效果更佳,同时也能尽可能规避自己的短板。

在这个页面上,除了有职场助理、邮件撰写、电影脚本等功能,左下角还藏着一个百宝箱。

百宝箱将场景划分为了三大类:效率、生活、娱乐。每个分类下面都有对应工具。

估计未来还会根据用户使用需求,在这里新增一些使用场景。

为了让评测看起来更客观,我就不参考通义千问给出的预置模板了,因为这样对其他两个不太公平。

下面我将按照直接提问的方式,横向对比一下 ChatGPT(GPT-4)、文心一言、通义千问这三款产品。

对比角度:智能问答、语义理解、代码编写、解数学题、实时联网。

OK,话不多说,我们正式开始。

1. 智能问答:当一个人看到喜欢的人或物时,身体哪个部位会放大?

ChatGPT:

文心一言:

通义千问:

这一波,ChatGPT 与文心一言打成平手,都给出了正确答案,通义千问则是在绕弯弯,答非所问,惜败。

2. 中文语义理解:"以前喜欢一个人,现在喜欢一个人",这句话里面包含了哪几种意思?

ChatGPT:

文心一言:

通义千问:

这个问题,三个 AI 都答得不太好,答案不是很全面,如果要评分,应该是:ChatGPT > 通义千问 > 文心一言。

3. 写代码

为了让展示效果更直观,我直接让他们三个给我生成一个 HTML 页面。

在这个页面里面,我只描述包含的元素,不限定样式和排版,看他们的创造力如何。

提示词:

帮我用代码写一个 HTML 静态页面。

这个页面里面包含如下元素:

1. 标题:文本内容为 "AI 工具大评测";
2. 按钮:文本内容依次为 "ChatGPT"、"文心一言"、"通义千问"。

页面背景颜色为 #5562b0

为了让文章可读性更高,这里就不贴代码了,直接放上 HTML 界面效果图。

ChatGPT:

文心一言:

通义千问:

可以看到,ChatGPT 给出的界面显示效果最好,通义千问排版差了点,文心一言乱加需求。

不过使用过程中,通义千问在输出结果时,里面夹带了一段错误信息。

这个地方应该是 HTML 代码,它说成了 Python 代码:

这波我们根据代码结果评分:ChatGPT > 通义千问 > 文心一言

4. 做数学题

还是老样子,丢给他们一个传统的鸡兔同笼数学题。

鸡和兔在一个笼子里,共有 35 个头,94 只脚,那么鸡有多少只,兔有多少只?

这里先说下答案,兔子有 12 只,鸡有 23 只。

现在我们再来看下 AI 计算的结果。

ChatGPT:

文心一言:

通义千问:

可以看到,ChatGPT 完整给出了解答步骤,文心一言优化了公式排版,并且这两个计算结果也都是正确的。

通义千问就稍微有点离谱,总共也才 35 个头,它给算出来 59 只鸡,35 只兔子。。。

这波评分:ChatGPT = 文心一言 > 通义千问

5. 是否联网

总所周知,ChatGPT 在 Plugin 推出之前,暂时还不能联网,如果其它模型有联网能力,在当前这个时间点,无疑会大大提升使用者的兴趣。

虽然期望值不高,但我还是想做下测试。

问题:微软 2023 年 4 月 9 日的股价是多少?

ChatGPT:

文心一言:

通义千问:

可以看到,只有文心一言给出了股价,只可惜答案是错误的,截至今日,微软的股价应该是 $291.60。

通义千问倒好,直接切换形态改用英语回答了。

这波测试:ChatGPT = 文心一言 = 通义千问。

写在最后

通过上述测试,大家大概对这三款 AI 聊天机器人的能力,心里应该有个大致判断。

ChatGPT 就不用说了,完胜,这里着重说下文心一言和通义千问。

总的来说,这两款产品在文学创作上,做的还是可圈可点的,但是在一些需要逻辑判断的场景,能力还是有比较大的缺陷。

国内的大语言模型,文心一言应该算是起步时间比较早,技术沉淀比较深厚的。

通义千问在某些特定问题的处理上,竟然能比文心一言的好一点,说实话,这是有点出乎我意料的。

但综合而言,文心一言还是更胜一筹,通义千问想在短时间内赶超,恐怕还得花费不少力气。

如果你想了解更多关于 ChatGPT 的内容,欢迎点击下方链接,加入我们社群进一步交流探讨。

👇 每个进群的人,都会收到我们赠送的一枚 ChatGPT 账号。

ChatGPT 社群,正式上线!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存