查看原文
其他

BT看AI!资深基因从业者评测国内外26个大模型

王兵 尹哥聊基因 2024-03-30

点击上方蓝字关注“尹哥聊基因”

最近微信改版,容易找不到尹哥的文章,大家记得把尹哥设为星标⭐️ 哦~

在人工智能的历史长河中,GPT-4无疑是一座里程碑,它不仅代表了OpenAI在自然语言处理领域的深厚积累,更是全球AI技术发展的一个缩影。GPT-4以其卓越的多模态交互能力和创新的算法,在全球范围内引发了一场关于智能助手未来的热烈讨论。

然而,在这场全球性的AI竞赛中,国产AI也正以惊人的速度崛起,展现出百花齐放的繁荣景象。由于GPT-4在国内无法使用,笔者一直尝试选取一个好的国内AI模型来协助日常工作。主要是根据评测榜单,去试用免费的AI模型。下图是SuperCLUE-12月测评结果,选取了国内外有代表性的26个大模型在12月份的版本。

△ 来源:SuperCLUE, 2023年12月28日

专业机构测试比较枯燥,但用户真正在意的就是好不好用。在过去的几个月里,我一直在日常工作中使用国产大模型文心一言、通义千问等,基本上都是过去八个月国内模型在SuperCLUE基准上的前三名。

总体感觉,他们智能程度越来越好了,已经可以真正帮到作为程序员的我。但是提示词长度还是限制了使用场景,比如我的日常工作中,需要阅读大量的文献资料,因此需要AI助手支持多种类型文件解析,但目前允许的输入的文献长度相对有限。前几天看到新闻,国内大模型公司月之暗面悄然完成了超10亿美元的B轮融资,就去了解了下他们的产品。当了解到Kimi Chat,号称支持20万汉字的超巨型容量,当时感觉这个有点吹牛,毕竟国产的大模型...有的时候你懂的。GPT-4才2.5W字,足足差了8倍。

笔者抱着试试看的态度,进行了测试,测试结束后,笔者再也安耐不住内心的喜悦,表面平静的我内心真实OS是这样的

笔者从事基因行业,多年以来深知打破国外垄断的艰辛,从测序仪的制造到软件算法的研发,从专利的争夺到标准的制定,无数日夜的艰苦奋斗才换来如今国家的在基因科技的地位。今天看到国产AI也可以如此出色,由衷的感叹以后在国际高科技技术争端中不再会孤军奋战。

以下是具体的Kimi Chat测试内容:

与GPT-4的对话如下:

笔者用同样的语料提问GPT-4,可以看到Kimi Chat大模型的智能程度(包含创意能力、编码能力、逻辑能力、上下文理解能力)完全不逊于GPT-4,在文件处理方面更优于GPT-4,一个30M的文档,上传后几乎没有等待延迟,就可以进行归纳总结分析,可以想象一下以后处理文档:

300页的公司财报直接扔进去,总结文档或者让Kimi在文档中直接找公司的合作伙伴,没有问题。

50个周报扔进去做成年终总结,没问题。

20篇论文扔进去找关联性,没问题。

20万字且准确性无衰减的大模型,想象空间太大了。从某种意义上,也是对传统知识库的降维打击。

最后笔者从多方面横向对比了Kimi Ai和 GPT-4,列出以下表格,供大家参考!

最后,也为国产AI打Call。百尺竿头须进步,十方世界是全身。同时也祝福国产AI,不仅在技术上与国际巨头并驾齐驱,更在应用场景和用户体验上展现出了国产AI的特色和优势。让我们为国产AI的崛起喝彩,期待像Kimi Chat一样的国产AI工具们在未来继续突破束缚,在视频生成也能迎头赶上,为全球用户提供更加智能、便捷的服务。


— END —


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存