撰文 | ChatGPT
创意 | 李志飞
过去十二天,AI领域发生了一场震撼人心的革命。GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言等众多巨头级 AI 大模型及应用在同一时间重磅落地,新的 AI 生产力时代光速到来。GPT-4以多模态大模型实现了近乎「天网」的飞跃式提升,Microsoft 365 Copilot 颠覆了对人类工作的定义,Midjourney V5 解决了AI作画的手指等细节问题,而 Google PaLM API 和文心一言更为大模型的发展掀起了新的高潮。如同宇宙的诞生之际,这不同寻常的十二天科技革命,或将永久地改变着我们未来的方向。无疑,这是一场人类史诗级的颠覆。第一天:Alpaca发布,以更低的成本获得匹敌GPT-3.5的性能2023年3月13日,斯坦福大学推出了由 Meta 的 LLaMA 7B 微调而来的全新模型 Alpaca,仅用52k数据,以不到600美元的超低训练成本,即达到了与GPT-3.5相当的水平。同日,清华系公司智谱AI开源ChatGLM-6B大模型。Alpaca和ChatGLM-6B的出现具有非常重大的意义——它证明了让中小规模的模型具备可用性,是可以实现的。第二天:谷歌PaLM API——自然语言处理迈向更高维度2023年3月14日晚,Google开放PaLM API,并在Gmail、Docs等自家产品中陆续植入AI功能,帮助企业“从简单的自然语言提示中生成文本、图像、代码、视频、音频等”。此外,Google还发布了一款帮助开发者快速构建 AI 程序的工具MakerSuite,帮助开发者们快速构建生成式AI应用,尽管被GPT-4抢尽风头,但仍是一项划时代的突破。第三天:GPT-4,AI的未来正超越人类想象2023年3月15日凌晨,GPT-4的发布成为通往AGI的一个重要里程碑,将AI发展史推向前所未有的新高度。GPT-4可以跨数十种语言工作,还可以将图像作为输入对象,这意味着它能够在聊天上下文中理解照片或图表的意图和逻辑。其强大处理能力和多元应用场景,让人们对AGI的实现充满期待。GPT-4在很多任务上已经达到人类水平(human-level),甚至比人类表现得更好,OpenAI推出“predictable scaling”,让大模型得以“科学”炼丹。多模态将成为整个AI大模型发展的趋势和重要方向,军备竞赛已然开始。2023年3月16日,Midjourney V5 发布,V5 模型采用了先进的工具和新的神经架构来生成美学和设计,显著改善了生成图像中手和手指的表现。
Midjourney V5 版本代表了目前生成式AI的前沿水平,其生成的图像在某些领域已经得到商用,通过继续学习和技术迭代,其能力将再次颠覆人类的想象力。
第五天:微软的Office和GPT-4双剑合璧,开创办公软件的新纪元 2023年3月16日晚,微软 365 Copilot的发布将办公软件推向了新的高度,将彻底改变人类的工作方式。微软全家桶自带AI智能驾驶模式,意味着 Windows 全AI系列新品将火速渗透各行各业,AI的黄金时代已经来了。各种Office工具里都将拥有GPT的超能力,执行任何任务只是一记自然语言指令的事情。Copilot的诞生,也展示如何将LLM与具体数据和应用场景完美结合。
同一天,百度发布中文大模型「文心一言」,展示了在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力,将国内的大模型热浪推向新的高度。第六天:Stable Diffusion学会想象,探索图像的无限可能2023年3月17日,Stability.AI 发布 Stable Diffusion Reimagine。SDR 允许用户无限制地生成单个图像的多种变体。用户只需将图像上传到算法中,就可以创建他们想要的尽可能多的变体,而不需要复杂的prompt,再次卷翻人类提示工程师。
这是有史以来AI最具颠覆性的一周,此时身处时代巨浪中的人类,也许还尚未来得及真切理解此刻的每一步究竟意味着什么,但历史已经改写。
第七至九天,在短暂的几日风平浪静之下,一场更大的AI风暴正酝酿其中。这场风暴席卷而来的一系列革新,将深远地影响着每一个人的未来。
第十天:NVIDIA DGX H100发布,超越先前极限的重要里程碑2023年3月22日,英伟达发布NVIDIA DGX H100,这项产品的发布是一个重大的阶段性节点,将为训练各种大型模型提供更加强大的计算支持,从而加快了模型的训练和应用速度,为人工智能的发展注入了新的活力。与此同时,新H100将进一步推动大模型的训练和推理平民化,加速进入全民AI时代。第十一天:Canva发布“魔力编辑”新功能,AI创作新未来2023年3月23日,Canva宣布了其最新的人工智能设计工具套件"Magic designER tool",旨在帮助用户大规模简化内容生产,全球1.25亿用户都可以使用这些功能。此外,众多厂商也纷纷推出ChatGPT插件,如Runway推出第二代插件"Gen 2",可以将AGI技术应用于多个领域,包括图像处理、语音合成等。Nuance也发布了"Dragon Ambient eXperience (DAX) Express",该插件可以让用户在日常生活中更方便地使用语音助手,大幅度提高用户生活效率以及便利性。第十二天:ChatGPT Plugins,实现实时数据获取2023年3月24日,ChatGPT Plugins的发布掀起了一场新的革命。短短一周之内,ChatGPT从「iPhone时刻」,迎来「App Store时刻」。无论是普通用户还是开发者,都可以使用其来为他们的应用程序增加智能和个性化的功能。ChatGPT Plugins通过接入第三方应用,实现实时检索信息、检索知识库以及代替用户执行操作,实现对真实世界的「智能调度」。ChatGPT Plugins如同一个集内容生成、搜索和推荐于一体的「怪胎」,他的出现成为AI历史上的巨大转折点。同一天,摩尔定律的提出者、英特尔公司联合创始人戈登·摩尔(Gordon Moore)去世,享年94岁。摩尔先生于1965年提出了“摩尔定律”,该定律指出集成电路中的晶体管数量每隔18-24个月将翻倍,表示集成电路的性能将以惊人的速度增长。
而AI时代下的Sam Altman说,「新版摩尔定律很快就要来了,宇宙中的智能正以每18个月翻一倍走来」。1995年,凯文·凯利的《失控》横空出世,对20年后的预测,正一步步照进现实,其进化历程比想象中来得更迅猛。通往AGI的路程,将深刻影响生产力到生产关系的巨大变革。
从AI诞生之际到Machine Learning的跃迁,再到Deep Learning开启潘多拉魔盒,技术的进步是多维度的,一些生不逢时的理论或者方法,在另一些技术条件达成时,往往能融合出巨大的能量。
过去的十二天,不仅缩影了AI史的进化,更见证着人类史的革新。这场巨变将彻底改变我们的工作生活、竞争动态、社会结构,甚至生物进化。我们的世界将永远不再是原来的模样,其影响将持续数十年,乃至更深远的未来。