AI 群星闪耀时,最亮那颗叫 GPT4!附:开发者大会核心要点+AI现场足球解说员等最新API花式玩法
你好,我是清风徐来
这是微信公众号“浩瀚的苍穹”《ChatGPT ,从入门到精通》 第 132 篇原创文章。
回顾人类发展科技发展史,你会发现这种情况:
某类新技术的浪潮,会在几年之内迅速爆发,就像大自然的力量,无法阻挡,不可逆转。
人才、新发明、新产品一波一波的来,群雄争霸,高潮迭起。寂寂无名的公司凭借新科技,迅速崛起,曾经的老大却容易落入创新者的窘境。
如果你了解蒸汽、电力、内燃机、半导体、电脑等技术发展史,你就知道我在说什么。
最近两波是 2000 年左右的互联网,16 年的区块链,
而今,我们正站在另一个巨浪的起点。人工智能,这个曾经只存在于科幻小说中的概念,未来将渗透到我们生活的每一个角落。
未来十年的风口,AI。再过十多年,就不会谈 AI 了,届时,AI 会变为类似水、电一样的基础能源。比如,现在哪家公司还在夸耀自己实现了电算化?
AI 的风,才刚刚刮起,行业格局还未定型,盈利模式还在摸索,应用场景还在融合、细分。
从国内外互联网巨头,到众多初创公司,每天都有新技术出现,每天都有新产品发布,硬件、算力也在突飞猛进。
不知道中国未来两三年的 AI 发展方向,就去看发达经济体现在正在干什么。
这个时候,OPEAN AI 的首届开发者大会召开了。
AI 群星闪耀时
沈从文先生曾经说过:“我行过许多地方的桥,喝过许多种类的酒,看过许多次数的云,却只爱过一个正当最好年龄的人”
而笔者这半年,看过许多的发布会,评测过许多的 Agent,聊过很多的 AI,却只有一个产品,让我忘掉与我对话的只是一个程序。
它就是 AI 群星中,最闪耀的那颗星,GPT4
什么都懂,还有自己的观点,有点严肃,道德水准高,这就GPT4给我的感受。
无论是谷歌的 bard,还是与gpt有点血缘的 Claude,针锋相对的 X.AI,李开复的 01,还有各种号称平替、吊打 gpt 的国产 AI,都无法掩盖 GPT4 的光芒。
据说,比尔盖茨就是被 GPT4的能力 折服,决定投资 OpenAI。
谷歌的口号是不作恶,曾经有很多很酷的产品,现在,它已经略显老态。就算谷歌收购了曾经的全球最佳 AI 公司,bard 更像现有产品线的一个补充。
马斯克也愤愤不平,作为 OpenAI 早期主要投资人的他,和 OpenAI 的爱恨情仇都可以写一本书。马斯克本质上还是个产品经理、技术宅,他对未来有独特的判断,他的目的是人机接口。我的判断,X.AI 对 GPT 的市场威胁要远远高于谷歌。
GPT 当初并不是 OpenAI 的主力产品,正如美女 CTO Mira Murati 所说,GPT 的方向早期并不被看好,时间推移,OpenAI 逐渐才发现了对话形式具有无可比拟的价值。
下面,我和和您解读开发者大会的核心要点,并分享最新的花式玩法!
OpenAI 开发者大会核心要点回顾(第一部分)
开发者大会,顾名思义,是针对开发者的大会
所谓开发者,就是利用 openai 提供的技术平台,API(程序接口)进行开发的人员;他们承上启下,做出的产品要提供给终端用户使用。
今年起,IT 迷再添一个狂欢日,OpenAI DevDay!
B 站回放视频:https://www.bilibili.com/video/BV1gH4y167SF
点击“阅读原文”可达
一、开场白
音乐响起,出现动态图片如下:
主角登场,OpenAI 的 CEO 山姆· 奥特曼登场
他回顾了近一年的发展:
2022 年 11 月,GPT3.5 发布
2023 年 3 月,GPT4 发布
最近几个月,推出了语音和视觉功能,ChatGPT 现在可以听、说、读、写
-最新推出了可以在 ChatGPT 中使用的最新最先进的图像模型 Dall.E 3
-对企业用户
了 ChatGPT 企业版。它提供企业级的安全和隐私,更高速度的 gpt4 访问,更长的上下文窗口。
山姆给出了运营数据
有大约 200 万开发人员基于我们的 API 构建了各种用例,超过 92% 的财富 500 强公司基于我们的产品做了惊人的事情。现在我们在 Chatsworth 上拥有约 1 亿每周活跃用户。
还自豪的说,GPT靠口碑营销就做到了这一点!
二、用户访谈
为了从数字调出来,山姆播放了一个简短的视频,看看人们如何使用产品,人们如何使用 AI。
几个用户分享了使用 chatgpt 的故事:
用 AI 给父亲写信消除隔阂的亚裔; 对 AI 感到惊讶的非裔; 感觉和 AI 能够对话能够倾听自己(很多人都做不到!)的非主流; 利用 gpt 可视化研究医学的科学家; 可视化分析食物建议的男子; 效率增倍数据分析员; 百岁老人夸赞 GPT 友好耐心博学迅速; 用 GPT 分析问题学业家庭都繁忙有四个孩子的母亲(注意,她说 GPT 不仅给了一个答案,还给了解释); 使用语音模式的神经残障人士。
他们都从 GPT 找到了帮助和乐趣。
三、GPT4 TURBO
然后山姆开始介绍新产品,第一个就是 GPT4 TURBO
1、128K 上下文长度
第一,背景,长度。很多人的任务需要更长的上下文,长度,gpt4 支持高达 8k,在某些情况下,高达 32 k 的上下文长度。但我们知道这对你们中的许多人来说还不够。你想做的是,gpt4 turbo 最多支持 128000(128K)个上下文令牌。
这就是一本标准的书的 300 页,比我们的 8k 上下文长 16 倍。除了较长的上下文长度外,您还会注意到此模型在较长的上下文中更准确。
2、更好的控制性
① 有一个叫做Json 模式的新功能,它确保模型将使用有效的 Json 进行响应,这是一个巨大的开发者要求。这将使调用 API 变得更加容易。
② 该模型在函数调用方面也要好得多。您现在可以同时调用许多函数。它在遵循指令方面会做得更好
③ 可重复输出。您可以通过传递(seed)种子参数,使模型返回上下一致性的输出。当然,这可以让你对模型行为有更高程度的控制。
④ 在未来几周,我们将推出一项功能,让您在 API 中查看日志
3、知识更新
你希望这些模型能够更好地获取关于世界的知识。我们也是。所以我们正在平台上启动检索。
① 你可以将外部文档或数据库中的知识引入到你正在构建的任何东西中。
② 更新了知识。gpt4 Turbo 拥有到2023 年 4 月的世界知识。随着时间的推移,我们将继续改进。
4、新的 API 接口
今天,DALL-E3、gpt4 Turbo、新的语音模型今天都将开放 API 接口。
① 通过 API 调用 DALL-E3 做图
山姆列出了可口可乐用 DALL-E3 做的图,并保证了知识产权。
编者:这点非常有用!通过 API,意味着你可以在更多的场合下使用。
昨天还有小伙伴在问我,能否使用 AI 做出一致性的儿童绘本!再等 1-2 周,相信国内就会有产品出来!
② 通过 API 接受图像输入
可以通过 API 接受图像作为输入,可以生成标题、分类和分析
”成为我的眼睛“功能能够用来帮助盲人或低视力的人完成日常任务,例如识别他们面前的产品。
② 通过 API 调用语音 TTL
使用新的文本转语音模型,您将能够在 API 中从文本生成令人难以置信的自然自然声音,有 6 种预设声音可供选择
奥特曼说:这比我们听到的任何其他事情都更自然。语音可以使应用程序更自然地交互,更易于访问。它还解锁了许多功能,如语言学习和语音助手。
语音模型 whsiper V 3 今天很快就会在 API 上推出。语音将是应用交流更顺畅、便捷,
5、更强的自定义微调
山姆:自从我们几个月前推出 GPT 3.5 以来,微调一直非常有效。从今天开始,我们将把它扩展到模型的 16 k 版本。另外,从今天开始,我们将邀请活跃的微调用户申请 gpt4 微调实验访问计划。
API 中的微调非常适合调整我们的模型,以便在数据量相对较小的各种应用程序中实现更好的性能。
但是你可能想要一个模型来学习一个全新的知识领域或使用大量的专有数据。所以今天我们将推出一个名为“用户模式”的新程序。
我们的研究人员将与公司密切合作,帮助他们使用我们的工具制作出色的定制模型,特别是为他们及其使用案例。
编者点评:这点让很多做微调和 Agent 的开发公司寝食难安?
6、更高的令牌数量
每分钟加倍令牌,以便更容易做更多事情。并且可直接在 API 帐户设置进一步提高令牌数量。
为企业和 AIP 提供版权保护,还会支付相关费用!
7、价格
实际上,还有一个开发人员请求,比所有这些请求都要大。所以我现在想谈谈这个。这就是定价。
TTS,便宜 20 倍,11labs 完了 多模态输入和 Dalle3,MJ 用户要迁移了 Assistants API,连中间层也干掉了 降价,促销,迎接双 11?API 价格五折起降,为了用户不要利润了
API 花式玩法
当很多人还沈浸在 OpenAI DevDay 带来的兴奋,有开发者已经利用此次升级的 API 和其他功能,开始了花式玩法
1、视频解说
比如 做个足球比赛视频解说
使用 GPT-4V + TTS 创建 AI 体育解说员
英雄联盟解说!
2、创建 NPC 交互
利用 OpenAI 的最新语音模型,仅用了几分钟就创建了一个 NPC 交互
使用工具:-OpenAI TTS -SadTalker -SDXL
3、制作小型 GPT
不到一分钟就快速组装的一个小型 GPT
它可以在网上查找某个产品流行趋势,创建产品原型图像。整个过程不到 90 秒。
自动搜索信息
4、使用 OpenAI 视觉 API 进行网络摄像头聊天
利用 GPT-4 视觉 API 能够近乎实时地识别正在发生的事情,识别物体和动作...
这个程序大约只花了 10 分钟就构建完成。
现在已经上线了:http://pluginai.ai/webcamgpt
5、ChatGPT 自定义 GPTs 演示
Gif-GPT 自动将 Dalle 图片转换为 gif
6、用 30 分钟构建的 GPT-4 视觉 API 的演示
随便丢一个链接,将其转换为图像,然后通过 GPT-4 视觉 API 处理,以响应自定义的着陆页优化建议。
7、使用 GPT-4-Vision API 做网站
昨天还有人在问我如何用 AI 做网站!我给他说拍图给 AI,将低保真模拟图转化为实际的 HTML
以上就是目前的一些 API 的花式玩法!后面我会带着大家逐一演示和操作
正如曾经的互联网一样,AI 正开启其范式转换的序幕,而 GPT 则是这场变革中最闪亮的明星。无论是语言处理,还是深度学习,GPT 都在推动着界限的不断拓宽。它不仅仅是一种技术,更是一种未来语言的构建者,一种新的认知方式的开创者。
让我们拭目以待,它将如何在人工智能的星空中,绘制出属于自己的光辉轨迹。
我们可以预见,接下来的十年,AI 将不仅仅是技术发展的风口,它将成为推动社会进步的核心力量。从医疗健康到城市管理,从教育创新到产业升级,AI 将成为改善人类生活的关键。
正如 山姆· 奥特曼在发布会最后所说:“我们这样做是因为我们相信AI将成为一场技术和社会革命。它将在很多方面改变世界,我们很高兴能够着手做一些事情。他们如果你给人们更好的工具,他们就可以改变世界。我们相信,AI将以我们从未见过的规模赋予个人能力和权力,并将人类提升到我们从未见过的规模。我们将能够做更多,创造更多,拥有更多。随着智能融合到各个层面,我们都将拥有所需的超能力。我们将共同构建的新的未来”
好啦,今天就分享这里!觉得好看,请关注本公众号,转发、点赞、在看,一键三连哦!
扫描下面二维码加入免费学习群: