查看原文
其他

Claude 2 体验! 免费使用,生成代码,逻辑推理提升,对话记忆更长

黄勇 技术人生黄勇 2023-12-23

 Claude 2 在编码、数学和推理方面对之前的模型进行了改进。例如,我们最新的模型在律师考试多项选择部分的得分为76.5%,高于 Claude 1.3 的 73.0%。与申请研究生院的大学生相比,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与申请者的中位数相似。



01

ChatGPT 和 Claude


从OpenAI 团队分离出去的技术研究人员创建了 Anthropic 公司,Claude 是Anthropic 公司 用 transformer 架构开发的商业化大模型,基本上可以算是人工智力大语言模型 ChatGPT 的孪生兄弟了。官方信息显示,Claude 与谷歌云是合作伙伴。‍‍


7月11日,昨天官方宣布推出 Claude 2,同时开放了免费的网页版本。‍‍‍


这个炎热的夏天,真是各个人工智能厂家密集的更新时期:‍‍‍‍‍‍‍


本地版的ChatGPT;OpenAI 推出了Code Interperter


ChatLaw:北大团队智能法律助手,国产大模型成功应用普惠法律服务


ChatGLM2-6B 初体验


朋友们可以到它的官网地址体验一下(需要魔法):

https://claude.ai/


官方的更新说明:


提高了模型的性能,增加了 Claude 输入和输出的长度。用户可以在每个提示中输入最多 100K 个 token,这意味着 Claude 可以处理数百页的技术文档甚至一本书。Claude 现在还可以编写更长的文档 - 小到备忘录、信件,大到一个完整的故事,可以一次性完成几千个 token,基本是一篇中短篇小说的长度了


大大提高了编码技能。Claude 2 在 Python 编码测试Codex HumanEval上的得分比 56.0% 提高了71.2% 。在 GSM8k 这一大量小学数学题上,Claude 2 的得分从 85.2% 上升到88.0%。


安全性,从底层改进了 Claude 2 的安全性。使其更加无害,并且更难以提示产生攻击性或危险的输出。我们有一个内部红队评估,使用自动化测试对我们的模型在大量有代表性的有害提示上进行评分,同时我们还定期手动检查结果。在此评估中,与 Claude 1.3 相比,Claude 2在提供无害响应方面的表现要好 2 倍。



02

注册试用


官方没开放网页版时,只能通过 Slack 创建团队付费空间才能使用 Claude bot。


之前写了一个免费使用的教程:与ChatGPT媲美的大模型试用:免费体验 Claude 手把手的保姆级教程!


第一时间注册体验试试。


邮箱注册后,有一个已满18岁和协议的确认。


完成后,并没有第一时间进入聊天界面,而是给了三个这样的提示信息页面。

对话界面象 ChatGPT 那样,支持多个对话,每个对话都可以保留下来。

问了一个运煤的数学问题,答对。

问了一个智能问题,挂了。

模型安全性的改进,这部分特性非常重要,也是官方致力的方向。可惜测试不出来,留给网上各路英雄豪杰。

目前看起来,ChatGPT 还是一骑绝尘领先大模型领域,其他国内、国外的各家模型都在奋起直追。


往期热门文章推荐:


Hayo AI:国内朋友的居家旅行必备良药,融入了 ChatGPT 和绘图 Stable diffusion


为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)


终于部署成功!GPU 云环境搭建 ChatGLM2-6B 坎坷路


点击“原文阅读”,可以体验本地版 ChatGPT(有效期一个月)。


拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。





继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存