Anthropic推出的大模型Claude3,终结了GPT-4整整一年的统治。成绩单Anthropic晒出了一张自己的成绩单,综合能力上全面超越,其中在数学、多语种数学、以及编程能力中,高出GPT-4一个分数档次。但是硅谷AI大神卡帕西(Andrej Carpathy)对此有所保留,在他纠正了一个Claude3的视频演示生成文字之后,做出如下告诫,要亲自上手用再下结论,对于各种榜评估榜单要极为小心:“不仅因为评估本身远比你想象的更糟糕,而且因为其中许多评估都以未定义的方式过度拟合;而且做出的比较实际上也是具有误导性的。GPT-4在编码(HumanEval)方面的得分并非67%。每当我看到人们用这个评比来代表编码性能时,我就开始眼角抽搐。”有人指出,GPT-4的指标,仍然是其一年前发布时的,现在一年已经过去了, 人家也很拼。进入2024年以来,总体上来说,随着谷歌、Anthropic相继发布新一代大模型,并且基本赶上GPT-4,一个三足鼎立的局面正在短暂形成。只等GPT-5了。专业领域表现不过专业领域的基准测试,得到了许多专家的赞许。已经饱和的两项测试MMLU和HumanEval正在失去其意义,对每家都相当于“送分题”。Claude自我比较一下,Claude3 Sonnet 在金融与医学领域的提升非常显著。英伟达AI科学家Tim Fan建议所有大型语言模型的模型卡都应该效仿这一做法,以便不同的下游应用程序有能够了解它们可以期待的表现。拒绝率下降拒绝率分析也得到点赞。大型语言模型对于无害问题给出过于谨慎的答复,这已经成为一种流行病。Anthropic又是最强调安全的一家头部AI公司, 之前的版本距离红线躲得远远的,但他们也认识到躲躲闪闪用户体验的影响, 加强了对于上下文和语义微妙之处的把握,拒绝率有显著下降。200K上下文,大海捞针Claude 3全套提供20万的上下文窗口,也都能够接受超过100万token的输入,提供给需要增强处理能力的客户。为了有效处理长上下文提示的关键是提供强大的回忆能力。“大海捞针”(NIAH)评估衡量模型从大量数据中准确回忆信息的能力。在测试中,Claude 3 Opus实现了“接近完美”的回忆,准确率超过了99%。但是对于编码和文字处理的效果有所不同。在长上下文处理能力方面,Claude 3对代码数据的表现优于文本数据。代码往往具有更复杂的结构和更长的语义依赖关系,需要更强的长程建模能力。代码库级别的编码肯定将成为下一代模型的能力。视觉功能每个人都能轻松把文字拍下来转录为文本,这个功能太有用了,首先会成为学习的一个利器。有很多优质的教科书尚未数字化,其中许多只是扫描件。所以可以猜测训练下一代模型的数据将来自哪里。定价Claude3这一套包括大杯Opus,中杯Sonnet,小杯Haiku,代表的意思分别是拉丁语中的文集,源自法语而在意大利语中流行的的14行诗,和日语中的俳句。看来大模型成套出成为规定动作了,Gemini也出了Ultra,Pro,Nano。Haiku速度贼快,读篇10K的PDF论文只需3秒,要稍后发布了,是否是小参数量模型,可以装到PC或者手机上?Anthropic的定价也有讲究。大杯对“大杯”,Claude3 Opus 200K的定价,总体相当于GPT-4 32K的一半。而小杯对“小杯”,Haiku比GPT-3.5 Turbo还便宜。训练Claude3使用亚马逊网络AWS和谷歌云平台训练,核心框架包括PyTorch、JAX和Triton。Anthropic API、亚马逊Bedrock和谷歌Vertex AI,三家共同提供企业解决方案。谷歌/亚马逊/Anthropic vs. 微软/OpenAI,双方阵营分明。合成数据Claude3是个闭源大模型,对于细节守口如瓶,不过在数据来源方面的交待值得看下。“ Claude3的训练,使用了专有的公开可用互联网信息组合, 截至2023年8月;还包括第三方的非公开数据、数据标注服务和付费承包商提供的数据以及我们内部生成的数据。我们采用了多种数据清理和过滤方法,包括去重和分类。Claude3没有在任何用户提交给我们的提示或输出数据上进行训练,包括免费用户、专业版用户和API客户。当Anthropic通过爬取公共网页获取数据时,我们遵循行业惯例,尊重robots.txt说明,并服从网站所有者用于表示是否允许抓取其网站内容的其他信号。根据我们的政策,Anthropic的爬虫不会访问需要密码保护或登录的页面,也不会绕过验证码控制,我们还会对使用的数据进行尽职调查。Anthropic运营其爬网系统时做到了透明化,这意味着网站所有者可以轻易识别Anthropic的访问,并向Anthropic发出他们的偏好信号。”许多专家认为,Claude的训练大量使用了合成数据,也说明合成数据将在今年的大模型竞赛中发挥重要作用 。创始人阿莫迪Anthropic由前OpenAI员工阿莫迪姐弟(Daniela and Dario Amodei)俩创办,其中达利欧曾担任OpenAI研发副总裁。他们因不满奥特曼与微软的技术授权协议而出走创业。Anthropic自称是一家公共利益公司。
Anthropic是人工智能有效利他派的大本营,AI末日论的一些说法不时发源于此,其中有些员工自命准备迎接“奥本海默时刻”。
安全是Anthropic最优先考虑的因素,称他们的安全方法为“宪法人工智能”(Constitutional AI, CAI),这是一个对齐框架,使人工智能系统与人类价值观一致,确保它们有益、无害和诚实。这些构成“宪法”的规范原则被用于训练人工智能。
在2023年底的OpenAI董事会“政变”事件中,阿莫迪曾被邀请回去担任CEO,并且将两家公司合并,均遭拒绝。
GPT-5近一年前,GPT-4发布,此后一直雄霸各类测评榜单第一,而Claude2是全年老二。老大总是盯防老二。据说GPT-5在选择发布时机上,一定会考虑截胡Claude3。人们猜测GPT-5的发布也是近在眼前的事。去年GPT-4发布后,微软马上组织发布了一篇论文,称之为通用人工智能(AGI)的“火花”,引起轰动。这样看来,Claude3的发布,是不是可以说AGI的火花正在燃成火苗。而谷歌号称最强大模型的Gemini1.0 Ultra,刚刚发布还不满月。再过一周左右,就是GPT-4发布一周年的日子,应该会搞件大事吧。