Claude3发布，AGI从火花到火苗，就等GPT-5 | 笔记

Original 未尽研究未尽研究

2024-08-23

Anthropic推出的大模型Claude3，终结了GPT-4整整一年的统治。成绩单Anthropic晒出了一张自己的成绩单，综合能力上全面超越，其中在数学、多语种数学、以及编程能力中，高出GPT-4一个分数档次。

但是硅谷AI大神卡帕西(Andrej Carpathy)对此有所保留，在他纠正了一个Claude3的视频演示生成文字之后，做出如下告诫，要亲自上手用再下结论，对于各种榜评估榜单要极为小心：“不仅因为评估本身远比你想象的更糟糕，而且因为其中许多评估都以未定义的方式过度拟合；而且做出的比较实际上也是具有误导性的。GPT-4在编码(HumanEval)方面的得分并非67%。每当我看到人们用这个评比来代表编码性能时，我就开始眼角抽搐。”有人指出，GPT-4的指标，仍然是其一年前发布时的，现在一年已经过去了, 人家也很拼。进入2024年以来，总体上来说，随着谷歌、Anthropic相继发布新一代大模型，并且基本赶上GPT-4，一个三足鼎立的局面正在短暂形成。只等GPT-5了。专业领域表现不过专业领域的基准测试，得到了许多专家的赞许。已经饱和的两项测试MMLU和HumanEval正在失去其意义，对每家都相当于“送分题”。Claude自我比较一下，Claude3 Sonnet 在金融与医学领域的提升非常显著。英伟达AI科学家Tim Fan建议所有大型语言模型的模型卡都应该效仿这一做法,以便不同的下游应用程序有能够了解它们可以期待的表现。

拒绝率下降拒绝率分析也得到点赞。大型语言模型对于无害问题给出过于谨慎的答复,这已经成为一种流行病。Anthropic又是最强调安全的一家头部AI公司, 之前的版本距离红线躲得远远的，但他们也认识到躲躲闪闪用户体验的影响, 加强了对于上下文和语义微妙之处的把握，拒绝率有显著下降。

200K上下文，大海捞针Claude 3全套提供20万的上下文窗口，也都能够接受超过100万token的输入，提供给需要增强处理能力的客户。为了有效处理长上下文提示的关键是提供强大的回忆能力。“大海捞针”（NIAH）评估衡量模型从大量数据中准确回忆信息的能力。在测试中，Claude 3 Opus实现了“接近完美”的回忆，准确率超过了99%。但是对于编码和文字处理的效果有所不同。在长上下文处理能力方面，Claude 3对代码数据的表现优于文本数据。代码往往具有更复杂的结构和更长的语义依赖关系,需要更强的长程建模能力。代码库级别的编码肯定将成为下一代模型的能力。

视觉功能每个人都能轻松把文字拍下来转录为文本，这个功能太有用了，首先会成为学习的一个利器。有很多优质的教科书尚未数字化，其中许多只是扫描件。所以可以猜测训练下一代模型的数据将来自哪里。

定价Claude3这一套包括大杯Opus，中杯Sonnet，小杯Haiku，代表的意思分别是拉丁语中的文集，源自法语而在意大利语中流行的的14行诗，和日语中的俳句。看来大模型成套出成为规定动作了，Gemini也出了Ultra，Pro，Nano。Haiku速度贼快，读篇10K的PDF论文只需3秒，要稍后发布了，是否是小参数量模型，可以装到PC或者手机上？Anthropic的定价也有讲究。大杯对“大杯”，Claude3 Opus 200K的定价，总体相当于GPT-4 32K的一半。而小杯对“小杯”，Haiku比GPT-3.5 Turbo还便宜。

训练Claude3使用亚马逊网络AWS和谷歌云平台训练，核心框架包括PyTorch、JAX和Triton。Anthropic API、亚马逊Bedrock和谷歌Vertex AI，三家共同提供企业解决方案。谷歌/亚马逊/Anthropic vs. 微软/OpenAI，双方阵营分明。合成数据Claude3是个闭源大模型，对于细节守口如瓶，不过在数据来源方面的交待值得看下。“ Claude3的训练，使用了专有的公开可用互联网信息组合, 截至2023年8月；还包括第三方的非公开数据、数据标注服务和付费承包商提供的数据以及我们内部生成的数据。我们采用了多种数据清理和过滤方法,包括去重和分类。Claude3没有在任何用户提交给我们的提示或输出数据上进行训练,包括免费用户、专业版用户和API客户。当Anthropic通过爬取公共网页获取数据时,我们遵循行业惯例,尊重robots.txt说明，并服从网站所有者用于表示是否允许抓取其网站内容的其他信号。根据我们的政策,Anthropic的爬虫不会访问需要密码保护或登录的页面,也不会绕过验证码控制,我们还会对使用的数据进行尽职调查。Anthropic运营其爬网系统时做到了透明化,这意味着网站所有者可以轻易识别Anthropic的访问,并向Anthropic发出他们的偏好信号。”许多专家认为，Claude的训练大量使用了合成数据，也说明合成数据将在今年的大模型竞赛中发挥重要作用 。创始人阿莫迪

Anthropic由前OpenAI员工阿莫迪姐弟（Daniela and Dario Amodei）俩创办，其中达利欧曾担任OpenAI研发副总裁。他们因不满奥特曼与微软的技术授权协议而出走创业。Anthropic自称是一家公共利益公司。

Anthropic是人工智能有效利他派的大本营，AI末日论的一些说法不时发源于此，其中有些员工自命准备迎接“奥本海默时刻”。

安全是Anthropic最优先考虑的因素，称他们的安全方法为“宪法人工智能”(Constitutional AI, CAI），这是一个对齐框架，使人工智能系统与人类价值观一致，确保它们有益、无害和诚实。这些构成“宪法”的规范原则被用于训练人工智能。

在2023年底的OpenAI董事会“政变”事件中，阿莫迪曾被邀请回去担任CEO，并且将两家公司合并，均遭拒绝。

GPT-5近一年前，GPT-4发布，此后一直雄霸各类测评榜单第一，而Claude2是全年老二。老大总是盯防老二。据说GPT-5在选择发布时机上，一定会考虑截胡Claude3。人们猜测GPT-5的发布也是近在眼前的事。去年GPT-4发布后，微软马上组织发布了一篇论文，称之为通用人工智能（AGI)的“火花”，引起轰动。这样看来，Claude3的发布，是不是可以说AGI的火花正在燃成火苗。而谷歌号称最强大模型的Gemini1.0 Ultra，刚刚发布还不满月。再过一周左右，就是GPT-4发布一周年的日子，应该会搞件大事吧。

修改于

继续滑动看下一个

未尽研究

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

Claude3发布，AGI从火花到火苗，就等GPT-5 | 笔记

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

Claude3发布，AGI从火花到火苗，就等GPT-5 | 笔记

您可能也对以下帖子感兴趣