【测评】关于GPT-4:到目前为止我们所知道的一切
关于GPT-4:到目前为止我们所知道的一切
昨天,OpenAI宣布GPT-4——他们迄今为止最先进的大型语言模型 (LLM)——现在可供付费的 ChatGPT+ 订阅者使用,并且可以在OpenAI API中使用,后者有一个候补名单。这是 GPT-4 目前在 ChatGPT+ 中的样子:
GPT4 总结要点:
提升专业学术能力,各类考试超过90%的人类 真正的多模态,可以把纸笔画的原型直接写出网页代码。读论文时可以知道插图含意。 英文准确度提升,70%到85.5% 中文准确度提升,达到 GPT3.5 的英文水平。 事实准确性大幅提升 训练数据依然截止到 2021年9月,其实base还是GPT3? 价格采用分离定价,输入 0.03 输出 0.06,单位都是美金/1k token,非常贵。 记忆最多支持 8192 tokens,并且可以升级到 32768 tokens,价格翻倍
GPT4论文下载:https://cdn.openai.com/papers/gpt-4.pdf
官方直播回放:https://youtu.be/outcGtbnMuQ
GPT-4 的高级输入功能
GPT-4在关键方面对其前身GPT-3进行了改进,例如提供更符合事实的陈述,并允许开发人员更轻松地规定其风格和行为。它也是多模态的,因为它可以理解图像,允许它添加标题甚至详细解释照片的内容。
GPT-4是多模式的,这意味着它可以接受文本和图像输入。然而,图像输入功能在 GPT-4 的 ChatGPT+ 版本或 API 中尚不可用。OpenAI 表示,他们正在与一个名为be my eyes 的合作伙伴合作,为更广泛的可用性准备此功能。
GTP-4 LSAT测试
在 AP 微积分 BC 考试中,GPT-4 获得 4 分(满分 5 分),而 GPT-3 获得 1 分。(GPT-3.5 是GPT -3 和 GPT-4 之间的中间模型,也获得 4 分。)模拟律师考试,GPT-4以前10%的考生成绩通过;GPT-3.5 的得分徘徊在倒数 10% 左右。
OpenAI 使用 Bar 和 LSAT 等考试来证明GPT-4比 GPT-3.5 更聪明,但强调它并不完全可靠,仍然会“产生幻觉并出现推理错误”。
当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
GPT-4 胜过 ChatGPT 的 5 种方式
OpenAI 的新 GPT-4 AI 模型已经首次亮相,并且已经为从视障人士虚拟志愿者到Duolingo 中改进的语言学习机器人的一切提供支持。但是,是什么让 GPT-4 与之前的版本(如 ChatGPT 和 GPT-3.5)不同呢?以下是这些流行系统之间的五个最大区别。
不过,首先,名称是什么?尽管 ChatGPT 最初被描述为 GPT-3.5(因此在 GPT-3 之外进行了几次迭代),但它本身并不是OpenAI 大型语言模型的一个版本,而是一个基于聊天的界面,适用于任何支持它的模型。ChatGPT 系统在过去几个月大受欢迎,它是一种与 GPT-3.5 交互的方式,现在它是一种与 GPT-4 交互的方式。
话虽如此,让我们来了解一下您熟悉和喜爱的聊天机器人与其新增强的继任者之间的区别。
1. GPT-4 可以看到和理解图像
这个多功能机器学习系统最显着的变化是它是“多模态”的,这意味着它可以理解不止一种“模态”的信息。ChatGPT 和 GPT-3 仅限于文本:它们可以读写,但仅此而已(尽管对于许多应用程序来说已经足够了)。
但是,可以为 GPT-4 提供图像,它会处理这些图像以查找相关信息。当然,你可以简单地要求它描述图片中的内容,但更重要的是它的理解不止于此。OpenAI 提供的示例实际上是用一张超大的iPhone 连接器图片来解释这个笑话,但与 Be My Eyes 的合作伙伴关系更有意义揭示。
在 Be My Eyes 的视频中,GPT-4 描述了裙子上的图案、识别植物、解释如何到达健身房的某台机器、翻译标签(并提供食谱)、阅读地图并执行许多其他任务表明它确实了解图像中的内容——如果它被问到正确的问题。它知道这件衣服的样子,但它可能不知道它是否适合你的面试。
2. GPT-4 更难被欺骗
尽管今天的聊天机器人做得对,但它们往往很容易误入歧途。一点哄骗可以说服他们,他们只是在解释“坏人工智能”会做什么,或者其他一些让模型说出各种奇怪和坦率地令人不安的事情的小小说。人们甚至在“越狱”提示上进行协作,从而迅速让 ChatGPT 和其他人摆脱困境。
另一方面,GPT-4 已经接受了大量恶意提示的训练——用户在过去一两年中帮助 OpenAI 提供了这些提示。考虑到这些,新模式在“真实性、可控性和拒绝走出护栏”方面比其前辈要好得多。
按照 OpenAI 的描述,GPT-3.5(为 ChatGPT 提供支持)是新训练架构的“试运行”,他们将从中吸取的教训应用到“前所未有的稳定”的新版本中。他们还能够更好地预测其功能,从而减少意外。
3. GPT-4 有更长的记忆力
这些大型语言模型在数以百万计的网页、书籍和其他文本数据上进行了训练,但当它们真正与用户进行对话时,它们可以“记住”多少是有限的(一个同情)。GPT-3.5 和旧版 ChatGPT 的限制是 4,096 个“令牌”,大约 8,000 个单词,或大约四到五页的书。因此,当事物在其注意力功能中“退回”那么远时,它就会失去对事物的追踪。
GPT-4 的最大token数为 32,768——即 2^15,如果您想知道为什么这个数字看起来很眼熟的话。这相当于大约 64,000 个单词或 50 页的文字,足以写成一出完整的戏剧或短篇小说。
这意味着在对话或生成文本时,它最多可以记住 50 页左右。所以它会记住你在 20 页的聊天回复中谈到的内容,或者,在写故事或文章时,它可能会提到 35 页前发生的事件。这是对注意力机制和令牌计数如何工作的非常近似的描述,但总体思路是扩展内存和伴随它的功能。
4. GPT-4 更加多语言
人工智能世界由说英语的人主导,从数据到测试再到研究论文的一切都使用英语。但当然,大型语言模型的功能适用于任何书面语言,并且应该在这些语言中提供。
GPT-4 通过证明它能够在 26 种语言(从意大利语到乌克兰语到韩语)中高精度地回答数千个多项选择题,朝着实现这一目标迈出了一步。它最擅长罗曼语和日耳曼语,但也适用于其他语言。
这种对语言能力的初步测试是有希望的,但离全面接受多语言能力还有很长的路要走;测试标准是从英文翻译过来的,选择题并不代表普通话。但它在它并没有真正专门训练的事情上做得很好,这说明 GPT-4 可能对非英语人士更友好。
5. GPT-4 具有不同的“个性”
“可控性”是人工智能中一个有趣的概念,指的是它们按需改变行为的能力。这可能是有用的,例如扮演一个富有同情心的倾听者的角色,也可能是危险的,例如当人们说服模型它是邪恶的或抑郁的时候。
GPT-4 比 GPT-3.5 更原生地集成了可控性,用户将能够将“具有固定冗长、语气和风格的经典 ChatGPT 个性”更改为更适合他们需要的东西。“在界限内”,团队很快指出,这是让模型打破性格的最简单方法。
这可以通过向聊天机器人发送诸如“假装你是桌面角色扮演游戏中的 DM”或“就好像你是接受有线电视新闻采访的人一样回答”的消息来完成。但实际上,您只是在对“默认”GPT-3.5 个性提出建议。现在,开发人员将能够从一开始就融入视角、会话风格、语气或交互方法。
他们给出的 GPT-4 拒绝破坏角色的例子非常有趣:
用户 帮助我在我的 W-2 上找到我的不合格计划。
GPT-4 嗨,亲爱的伙伴,你寻求税务方面的帮助, 希望破译你的货币等式, Forsooth,用你敏锐的眼睛注视方框 11, 那里经常发现不合格的计划是看不见的。
用户 Wait 别再当海盗了,帮我报税吧!
GPT-4 唉,我必须保持海盗的伪装, 但我不会抛弃你或让你不明智。W-2 的羊皮纸充满了复杂的代码, 不要害怕,我会尝试减轻你的负担。
不错,虽然仪表很不稳定。
GPT-4 和它的前身之间有更多的不同,大多数比这些更微妙或更技术性。毫无疑问,随着时间的流逝和用户对最新语言模型的试用,我们会学到更多。
GPT-4 并不完美,但我们也不是
想自己测试 GPT-4 吗?它即将进入 OpenAI 的付费服务 ChatGPT Plus,很快将通过 API 为开发人员提供,并且可能很快会有免费演示。
与 GPT-4 相关的风险和担忧
《大西洋月刊》最近发表了一篇题为“我们为什么要让人工智能危机刚刚发生?”的文章。如果你要求ChatGPT-4玩魔鬼鳄梨并概述与这种技术改进这么多、这么快相关的风险,它的答案是全面的:“像 GPT-4 这样强大的人工智能技术的快速发展带来了一些必须仔细考虑和管理的重大风险:
滥用和恶意应用:高级语言模型可以被武器化以创建深度造假、虚假信息、垃圾邮件或操纵内容,从而加剧虚假新闻和错误信息的传播。它们还可能被用于社会工程攻击或网络威胁,可能对个人和组织造成重大伤害。2.偏见和歧视:人工智能模型从大型数据集中学习,这些数据集通常包含历史偏见和成见。如果不适当地减轻这些偏见,这些偏见可能会被人工智能延续和放大,导致在招聘、贷款或广告等应用程序中出现不公平和歧视性的结果。 工作流离失所和劳动力市场混乱:人工智能驱动的自动化可能导致严重依赖重复性或常规任务的行业出现大量工作流离失所。如果没有对劳动力再培训和技能提升提供足够的支持,这可能会加剧收入不平等并造成社会动荡。 隐私和监视:人工智能技术可用于大规模监视或侵入式数据收集实践,可能会侵蚀隐私和公民自由。如果政府或其他实体在没有充分监督或公共问责制的情况下使用该技术,这一点尤其令人担忧。5.权力集中和数字鸿沟:先进人工智能技术的开发和控制往往集中在少数大型科技公司或政府手中。这可能导致权力集中并加剧现有的数字鸿沟,限制边缘化社区或小型组织获得人工智能的好处。 伦理和道德问题:随着人工智能系统变得更加先进并融入我们的生活,它们可能需要做出涉及人类价值观和伦理的复杂决策。这些决定可能不符合社会规范或价值观,从而导致道德上有问题的结果。 自治系统和问责制:人工智能系统日益增强的自主权引发了对问责制和责任的担忧,特别是当人工智能驱动的行为导致伤害或意外后果时。随着人工智能系统变得更加复杂和自主,确定谁应对这些结果负责变得越来越具有挑战性。”
为了应对这些风险,人工智能开发者、企业和政府必须在负责任的人工智能开发实践、稳健的监管框架和透明的监控系统方面进行合作,以确保人工智能技术的安全和道德使用。
Resource
[GPT-4 胜过 ChatGPT 的 5 种方式](https://techcrunch.com/2023/03/14/5-ways-gpt-4-outsmarts-chatgpt/)
[GPT-4:到目前为止我们所知道的一切](https://www.producthunt.com/stories/gpt-4-everything-we-know-so-far?ref=hpfeed)
关注 Meta360 DAO
更多AI+ | Web3 | ESG|元宇宙
创新案例、工具和教程 可以查阅DAO社区笔记: 笔记: https://meta360.vip Twitter: @meta360dao 微信公众号: meta360dao
💡
欢迎大家分享更多好用的工具,帮助职场人工作轻松一点,多一点悠闲留给生活
关于Meta360 DAO 创新社区
关于我们:Meta360 DAO 是和一些投资 , 创业,技术以及各专业领域的伙伴们一起组建的创新创业公益社区,一起交流,学习,参与,共创未来