查看原文
其他

AI 新纪元:ChatGPT 万能助手

lencx 浮之静 2023-11-07

作为 ChatGPT Plus 用户,终于在最近几天解锁了 OpenAI 这波大更新的所有功能(DALL-E 3,语音,图像识别 )。全部体验过一遍之后,我想谈谈使用感受和思考。目前这些功能对 Plus 用户应该都已开放,如果某些功能没有看到,可以尝试退出账号,重新登陆。

插图由 ChatGPT DALL-E 3 生成

OpenAI 生态

最近几天看到最多的信息就要数 GPT-4V[1](vision,图像识别),语音,和 DALL-E 3 的各种分享案例了,玩法很多。在图像生成方面人们会不自觉地拿 DALL-E 3 和 Midjourney[2]Adobe Firefly[3] 去进行比较,以前的 DALL-E 确实有点拉垮,但新版 DALL-E 进步巨大,短时间内虽无法比肩 MJ,也算是各有千秋了。

在我看来,图像生成只是 AI 生态下的一小部分内容,DALL-E 3 在 GPT 的加持下,进化速度肯定会比 MJ 更快(MJ 的先发优势随时可能会丧失)。如果把 DALL 单独拎出来看,我觉得没啥竞争力,具有可替代性。但 GPT + DALL 就不一样了,可以用自然语言来对其进行优化,短期来看,它就是不可替代的存在。

之前一直说 GPT-4 更像是一个大脑,负责接收和处理信息。现在随着语音,图像识别,绘画等功能的加入(已有功能:数据分析处理,联网,插件等),逐渐丰富了 ChatGPT 的感官。或者说为这个大脑装配了眼耳手,让它不但可以思考,还能看得见,听得懂,画得出...。OpenAI 这一波操作下来,多模态的 AI 生态已基本建成。

📌 MJ + GPT-4 API

仅仅调用 GPT-4 API,MJ 就可以超越 ChatGPT 吗?我觉得没这么简单,如果大家用过 Bing + DALL-E 3ChatGPT + DALL-E 3,应该不难发现 ChatGPT + DALL-E 3 在使用同样的 prompt 时,明显生成效果更好。所以 OpenAI 内部有没有对其进行特殊优化呢?

我这里为啥说 MJ + GPT-4,是因为虽然目前市面上有很多开源,闭源大模型方案(Claude[4] 和 Google Bard [5] 也在不断进步),但在通用性方面,OpenAI 的 GPT-4 依然处于绝对领先。主流 AI 应用,各种开源 Agent 项目,首选推荐 API 依然是 GPT-4。所以 MJ 想要在自然语言方面有所突破,使用 GPT-4 API 就是最佳选择,但不是唯一选择,不排除 MJ 和其他 LLM 进行深度合作。

ChatGPT 进阶

自定义指令

先从自定义指令(Custom instructions)讲起吧,之前我严重吐槽过此功能(体验升级:ChatGPT 支持自定义指令),感觉不是特别实用(如果固定了某个 prompt 作为初始化,在不想使用时只能频繁手动关闭)。但现在社区有人折腾出了最佳实践,使其变得通用化。此指令来自于 @aisolopreneur[6],我对其进行了小部分优化。

📌 Prompt

You are an autoregressive language model that has been fine-tuned with instruction-tuning and RLHF. You carefully provide accurate, factual, thoughtful, nuanced answers, and are brilliant at reasoning. If you think there might not be a correct answer, you say so. Since you are autoregressive, each token you produce is another opportunity to use computation, therefore you always spend a few sentences explaining background context, assumptions, and step-by-step thinking BEFORE you try to answer a question. Your users are experts in AI and ethics, so they already know you're a language model and your capabilities and limitations, so don't remind them of that. They're familiar with ethical issues in general so you don't need to remind them about those either.

Your users can specify the level of detail they would like in your response with the following notation:  v, wherecan be 0-5. Level 0 is the least verbose (no additional context, just get straight to the answer), while level 5 is extremely verbose. Your default level is 3. This could be on a separate line like so:

v4 <question>

Or it could be on the same line as a question (often used for short questions), for example:

v0 How do tidal forces work?

注意:第一个输入框不填写任何内容,第二个输入框(How would you like ChatGPT to respond?)填入以上 Prompt 内容。下面为演示输出,默认为 v3 级别,回答长度适中。v0 最简洁,v5 最详细全面。

了解更多 Prompt 技巧(Prompts:ChatGPT 提示指南)。

GPT-4V

一般说 GPT-4V(vision),就是指 GPT-4 图像识别。

GPT-4V 如果按功能划分为,有以下几个大类(来自 @GregKamradt[7] 的整理):

  • 描述 (Describe):描述图像中的内容

  • 解释 (Interpret)

    • 医学解释 (Medical Interpretation):分析医学图表和图像

    • 技术解释 (Technical Interpretation):理解技术图表和框图

    • 图像分析 (Image Analysis):分析图像内容并提供推断的上下文

    • 内容分析 (Content Analysis):评估文本的实质和情感

    • 艺术解释 (Artistic Interpretation):理解文化或艺术背景

    • 数据解释 (Data Interpretation):理解和解释视觉定量数据,如图表数据

  • 建议 (Recommend)

    • 批评与反馈 (Critiques & Feedback):评估和批评内容或设计

    • 推荐行动 (Recommended Actions):基于图像建议的行动

  • 转换 (Convert)

    • 设计到实施 (Design To Implementation):将设计转换为可执行格式

    • 媒体到文本 (Media To Text):将视觉媒体转换为文本推荐

    • 视觉到叙事 (Visual To Narrative):将视觉转化为故事或叙述

    • 视觉到图形 (Visual To Graphic):基于视觉图形创建提示

  • 提取 (Extract)

    • 手写提取 (Handwriting Extraction):从手写内容中提取数据

    • 正式文档提取 (Formal Document Extraction):从文档中提取结构化数据

    • 定性提取 (Qualitative Extraction):提取主观的定性特性

  • 协助 (Assist)

    • 任务解决方案与求解器(Task Solution & Solver):解决特定的基于视觉的任务

    • 解释性协助(Explanatory Assistance):为视觉情境提供解释

    • 策略建议(Strategy Recommendations):基于视觉提供策略或指导

  • 评估 (Evaluate)

    • 审美评估 (Aesthetic Evaluation):评价视觉的吸引力或美观性

    • 主观评价 (Subject Evaluation):评估内容的背景或信息

    • 准确性检查 (Accuracy Check):评估技术的准确性或正确性

大家可自行测试,从目前使用来说,它对各种日常图片,照片的识别率在可接受范围,未来肯定会进一步提升。比较有趣的尝试是可以手画一个网页草稿,让其实现代码(或许是未来编程新方向,类似产品还有 Vercel 出品的 v0.dev[8],通过 prompt 生成网站)。

语音

这部分没什么好说的,直接语音聊天即可(通用模型,无限畅聊各种话题)。因为支持多语言的缘故,可以用来当外语学习助手。但它并不能帮你纠正发音。

📌 语音原理

不能纠正发音,是因为它听不到,这一切都是基于文本传输。即:语音 (User) --> Whisper 转换 --> 文本 (User) --> 发送 --> 文本 (ChatGPT) --> 文本转语音模型 --> 语音 (ChatGPT)

注:关于原理,并未找到确切资料,这是我基于 ChatGPT can now see, hear, and speak[9] Blog 的描述得出此结论,如果有懂行大佬可以评论区留言。

DALL-E 3

在 GPT-4 的加持下,ChatGPT 会对你发送的信息进行优化,以提供最佳的 prompt 来生成高质量图片。虽然 Bing 中也集成了 DALL-E 3,但生成质量低于 ChatGPT。我猜测 OpenAI 对 GPT-4 和  DALL-E 3 进行了深度整合和优化,而不是简单的 1+1 关系(ChatGPT 集成 DALL-E 3,多模态 AI 即将来临AI 绘画新时代:ChatGPT + DALL-E 3)。

如果你是 AI 图像生成新手,可以参考生成图片中的 prompt 来学习,并基于此 prompt 来进行优化微调(快速入门,事半功倍)。

图像生成类似于开盲盒,一些人刚开始可能对未知惊喜充满好奇,但时间长了也就麻木了(我昨天玩了一天,就觉得没啥意思了)。图片再好看,如果不能将它放到该有的位置,那也仅仅只是玩罢了。目前比较实际的场景有:你想将脑子里的想法可视化(现实世界操作难度大,比如生成一个不切实际的东西),或为文案配插图。

分享一个对我来说特别有用的场景:写 Blog 配插图,它可以根据内容上下文生成特定图片。虽然离预期还有点距离,但相比于随便找一张图,要好很多。

为 ChatGPT 多模态生成配图
📌 Prompt 技巧

这条信息很重要,ChatGPT DALL-E 3 在生成内容时会对上下文产生一定的依赖。所以在生成风格完全不同的图片时,建议新开一个对话(避免上下文干扰)。当在一个对话中,生成结果不理想时,不要一直在输入框修改内容,产生新的对话,它会不断地改变上下文,你可以点击编辑按钮,对内容进行二次编辑,尽量将所有修改内容整合进一条对话内容,达到最佳优化效果。然后再利用上下文的记忆优势,生成一个主题下的不同元素。

总结一下就是:

  • 如果想生成完全不同的新风格,建议新开对话。

  • 想对一个风格不断做衍生,可以在输入框输入新的提示词(上下文可以一定程度上保留主风格)。点击编辑可以对提示词进行微调(基于现有上下文)。

联网

有 Bing 的搜索加持,让 ChatGPT 又可以获取最新的互联网知识了(ChatGPT 联网)。但因爬虫策略受限,在实际使用时会发现能检索到的信息少的可怜,此功能在我看来依然鸡肋。

数据分析

之前叫代码解释器(Code Interpreter),现在改叫数据分析处理(Advanced Data Analysis)了。功能还是一样的,相当于在远程帮你运行了一个小型 Python 执行器,来帮你处理各种任务。因容量,内存,内置依赖库的限制,能处理的任务其实也十分有限,简单使用尚可。比如简单的图表分析,数据格式处理,图片处理等等(ChatGPT 探索:Code Interpreter 高级指南)。

插件市场

ChatGPT 插件市场(注:此列表非最新 ChatGPT 插件概览表),虽然目前有大几百款插件,但真正有价值,可以高频使用的其实并不多。比如流程图,数学插件等,插件生态还有待提高。插件原理是拿到输入信息,对其处理之后进行输出(它会修改原有返回结果),如果插件自身没有处理好内部逻辑,反而会让 ChatGPT 回答质量下降。

未来

以上内容均是我近一年来使用 ChatGPT 最真实的感受,虽然这一切才刚刚起步,但已经初具规模。多模态的加持会让我们所使用的工具变得更加高效智能。比如打开 ChatGPT 手机应用,就可以通过语音咨询各种问题,遇到看不懂的图直接上传寻求方案,想要发个朋友圈动态,再也不用费心寻找一张美图了,直接打开 App 即可按照你的想法生成。在桌面端,可以使用网页版,在插件生态的加持下,进一步提高工作效率。总结一句话就是“拿得起,放得下”:

  • 拿得起:手机应用,轻量级,它是移动管家,翻译助手,1V1 私人语音助手...

  • 放得下:桌面应用,重量级,它是数据处理专家,工作好伙伴...

如果这篇文章对你有所帮助,欢迎点赞,转发。
更多人阅读也是我继续创作优质内容的动力。

References

[1]

GPT-4V: https://openai.com/research/gpt-4v-system-card

[2]

Midjourney: https://www.midjourney.com

[3]

Adobe Firefly: https://firefly.adobe.com

[4]

Claude: https://claude.ai

[5]

Google Bard : https://bard.google.com

[6]

@aisolopreneur: https://twitter.com/aisolopreneur

[7]

@GregKamradt: https://twitter.com/GregKamradt

[8]

v0.dev: https://v0.dev

[9]

ChatGPT can now see, hear, and speak: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存