ChatGPT再升级！以人类的方式理解人类

巩周周北大青年CEO俱乐部 2024-01-12

文章转载自“未名科创”

把短期优势转化为长期优势。

作者｜巩周周

出品｜未名科创

OpenAI能走多远？近期许多人提出疑问。

从去年11月OpenAI推出ChatGPT起，它便以极快速度实现从0～1亿的用户增量。国际各大科技巨头谷歌、百度等企业在其技术挤压下，被迫推出各类不算完备的同属性大模型。不少企业一度由于准备不完善打出“无准备之仗”，极度仓皇失措下导致口碑无底线下沉。

尔后，OpenAI 几乎毫无顾忌，一路摧枯拉朽把技术拉伸至“遥遥领先”，开创出由它的主导的新时代。由于先驱性，OpenAI 从很大程度上决定着行业未来发展方向。这也给人们带来疑惑，这家企业是否有能力把早期优势真正转化为长久优势？

事实是肯定的。譬如现在，它已经开启商业化进程，已然实现盈利，且还在不停地更新技术优势上限。

OpenAI推出多模态模型GPT-4V

北京时间9月25日晚，OpenAI宣布推出GPT-4V，新增语言、图像交互功能，并发布通知表示将在未来两周向ChatGPT Plus和 Enterprise 用户正式推出。

目前，GPT-4V 语音输入输出允许用户通过语音与ChatGPT进行交互，图像输入输出则能让用户通过上传图片获取相关信息：

语音功能

语音对话能力：用户可以通过语音与AI进行对话，不需要进行键盘输入，提供更加直观便捷的交互方式；
多种语音选项：提供5种不同语音选项，男声、女生、青少年声音等；
提升语音识别精度：本次ChatGPT语音技术基于自研开源Whisper模型，生成部分基于TTS（text-to-speech）模型进行。实现高准确率语音识别和语音合成功能，能够从文本和几秒钟样本语音中生成类似于人类的音频；
与Spotify合作扩展功能：能够在不更改原创作者声音的前提下将博客翻译成其他语言。
实现在移动设备使用：目前语音功能能够在ios和安卓移动端使用

图像功能

支持多张图像处理：用户可以上传图像到ChatGPT进行互传，ChatGPT能够理解和处理多条图像信息；
图像处理：移动应用提供了绘图工具，用户可以圈出图像的重点来高效交互；
多模态交互：ChatGPT对用户所输入图片进行分析推理时，可以支持文字、语音和图片多种方式进行回复。
文字生成图可以支持语音进行微调：ChatGPT可以根据用户的文本生成图片，并根据用户反馈对图片进行微调。

9月27日，OpenAI表示，ChatGPT现在已经可以联网了，聊天机器人可以访问的数据范围将扩大到2021年9月之前的截止日期之后。这家人工智能初创公司表示，其最新的浏览功能将允许网站控制 ChatGPT 与它们的互动方式。

OpenAI表示，目前Plus 和企业版用户已经可以开始使用浏览功能，并且这项技术将很快扩展到所有用户。另外，这项功能只能够在bing上使用。但后续由于担心该功能会让用户绕过付费墙，OpenAI 后来关闭了该功能。

此前早些时候，OpenAI还宣布推出文生图AI工具DALL-E的最新版本DALL-E3。他计划将名为“GPT-Vision”的多模态功能纳入GPT-4中去，并且筹备下一代多模态大模型“Gobi”。

某种程度上，OpenAI这一举措也说明多模态大模型行业的竞争正在加速，它需要不停地高速开发出优质大模型来超越谷歌或行业中其余领先企业，以此来保持自身行业的领先地位。而这种覆盖文字、图片、音视频的能力正在不断拓宽大模型行业下游广度，提供出更广泛的信息处理能力，给下游应用层留足发展空间。

收购GI，跳出大模型发展框架

OpenAI少见的游戏收购也在表现出行业先驱目前应用创新的普遍性原理。

8月，OpenAI第一次发布出公开收购声明，官宣首笔收购——Global Illumination（GI），将其整个团队收进体系。

GI是一家美国初创游戏企业，致力于用AI构建创意工具、基础设施和游戏体验，曾为 Instagram、Facebook、YouTube、Google、Pixar、Riot Games 等知名公司提供服务，并开发了沙盒大型多人在线角色扮演游戏（MMORPG）Biomes。

资料显示，这款游戏存在体素建模、开源、UGC的特性。体素建模以牺牲视觉效果为代价，换取操作门槛低、模型易修改、游戏世界正式性强的特点，在极大降低成本的同时提高真实度，相较于建模，体素建模制作门槛低、模型易修改；开源意味着可发展空间广阔；UGC则能够助力应用快速抹开，依靠视频反哺游戏体验，提升应用黏性。

OpenAl 联创 Andrej Karpathy 曾表示，AI智能体是未来 Al 的前沿方向。以往普遍认为AIGC诞生是为了降本，而他们则认为，随着越来越接近 AGI，AI 将不再局限于“copilot”助手，而成为构建未来人类社会的基础框架。

类似此类跳出传统基于规则和搜索系统的思考方式，是一种脱离框架之外，探寻另外一种发展前景的可能性的有效手段。马斯克就是一个例子，之前他跳脱出原本的规则和搜索系统，创造出第一款端到端AI系统FSD V12；其航天业中Space X采取的批量制造工业品的做法，也很大程度地将火箭成本压缩，彻底颠覆了航天行业的价格。

这种以另一种思维方式来满足行业需求的方式实操性强，存在成功先例。因此，或许目前的降本仅仅是生成式AI的第一步，随着技术的进展，AI将不再局限于助手，它或许会成为新时代另一块生活的基石。

而现在，深入研究AI智能或许不过是探索AGI的必经之路。

来源：未名科创

—往期推荐—

云从科技上半年下降六成，大模型不是万能灵药

中关村“火花”活动——“新能源”沙龙

美柏生物完成数千万A+轮融资