实测文心、星火、通义、360、智谱、豆包等主流大模型
↑请点上面的↑ 俗世传媒↑关注我
潮退了,你才知道谁没穿裤子。
之前我做了一个演示视频,就是机器人和用户互动,机器人可以根据用户的要求扮演某个知名故事的角色,然后以该角色的身份来回复用户的问题,我设计的目的是让它能帮助小朋友更好理解某个语言故事,或者某本名著,毕竟这些都要考的,也算是现在大人的一个痛点吧。
这样的机器人你不想双十一买一个带回家吗_哔哩哔哩_bilibili
https://www.bilibili.com/video/BV1Ba4y1D7mB?t=29.8
那么直接问大模型会怎么样?是不是类似小度音响、天猫精灵这样的智能音箱只要接入大模型也能实现呢?今天我就测试了目前主流的几个大模型:文心一言、360智脑、讯飞星火、智谱ai、通义千问、抖音豆包ai。通过我的直播演示,可以看出它们的回复都做的不好,存在2个普遍问题。
1、信息不准确,上面的视频中可以看到,我让机器人扮演的是小红帽故事里的小红帽和水浒传中的武松、鲁智深等人物,这两个都是知名的故事,按理不应该会出现回复错误的情况,可在测试的时候文心一言、讯飞星火、抖音豆包都有明显的错误,而且大模型把胡编乱造的本事也是展示了一通,很多信息上下都冲突了。
2、角色混淆,一会是故事里的角色,一会又是大模型的智能助手的角色。让人摸不清头脑。
下面是测试中的图,可能视频看不太清,那么这里会容易辨识一下
图片比较多,还是直接看知乎的链接吧
把大模型关在笼子里,才能真正让大模型落地---市面上主流大模型测试 - 知乎 (https://zhuanlan.zhihu.com/p/665174932zhihu.com)
肇庆管道疏通 清理化粪池 河道清淤 疏通厕所、厨房、马桶、地漏下水道等。给你方便,让你舒心。请联系我
刘付先生13717208826
往日推荐
○你会打吗?钟南山:近期将有新冠病毒感染小高峰,老年人需接种二代疫苗
感谢您抽出 · 来阅读此文
更多精彩请点击【阅读原文】哦
↓↓↓
感谢您抽出 · 来阅读此文
更多精彩请点击【阅读原文】哦
↓↓↓