查看原文
科技

【AI周刊】本周重要AI产品和AI资讯概览(05.08-05.14)

GenAI Gen AI Hub 2023-05-15

 #AI周刊 栏目由Gen AI Hub运营,每周一凌晨更新,主要回顾上周AI领域发布的一些重要产品和业内值得关注的大事以及重大研究成果或论文等。




本周重要产品


🤯谷歌I/O大会放大招,携AI全家桶全面反击微软


谷歌在本周举行一年一度的开发者大会,大会以“Making AI helpful for everyone”为主题,发布了一系列AI模型、产品、功能和平台。


其中包括新的语言模型 PaLM2、内置在 Workspace 里的办公助手 Duet AI、一键 P 图工具 Magic Editor、Gmail 内 AI 工具「帮我写」和面向企业的 AI 平台 vertex AI。


更多详情可查看文章《一文看懂谷歌I/O大会及其AI全家桶》




🔗 https://bard.google.com


🤯Meta开源多模态大模型ImageBind,可感知理解6种模态


Meta近期开源了一个横跨6种不同模态的大模型ImageBind,包含视觉(图像和视频)、文本、音频、深度、温度和运动数据。并且能够做到在各种模态之间理解和切换。



后续,Meta还计划引入更多的感官模态,比如触觉、嗅觉和大脑fMRI信号等,使得该以人为中心的AI模型变得更加丰富和智能。



这像极了人类大脑对物理世界的理解,我们听到一个声音或者描述一段文本,脑海中能够感知到相应的画面,空间感、温度和运动状态都是构成这个画面的要素。未来随着更多模态的加入,AI的能力也将会变得越像人类的大脑,人类离硅基生命的到来不会太遥远。


🔗 ai.facebook.com/blog/imagebind-six-modalities-binding-ai


🤯Claude最新更新,上下文窗口从 9K 扩展到 100K Token


Anthropic 本周宣布将其旗舰文本生成 AI 模型 Claude 的上下文窗口从 9K个 token 扩大到 100K token,相当于75K单词的内容。 



而gpt-4模型,也才仅仅做到32KToken。此前基于gpt-3.5或者gpt-4模型API开发的大部分应用,为了扩展大模型的记忆能力,不得不依赖于Pinecone这些向量数据库的服务。比如chatpdf、AutoGTP等。


现在开发者终于可以不借助外部向量存储库,直接利用Claude的API接口,就能够实现对超长文本(一本书、一篇长论文、企业文档等)的分析和对话。


Anthropic先是宣布推出了Claude-100k的API版本,之后又火速上线了网页端(现在登陆网页端便可体验,PS:需要通过waitlist候补)。


🔗 https://www.anthropic.com/product


🤯stability AI发布文本生成动画的SDK Stable Animation


Stability AI正式发布了他们从文字生成动画的SDK工具Stable Animation,提供了以下3种能力:


  • 文本转动画:用户输入文本提示(与Stable Diffusion一样),并调整各种参数以生成动画。


  • 文本输入+初始图像输入:用户提供一个初始图像,作为他们动画的起点。文本提示与图像一起使用,产生最终的输出动画。


  • 输入视频+文本输入:用户提供一个初始视频来制作他们的动画。通过调整各种参数,他们得到了一个最终的输出动画,该动画还受到文本提示的指导。



从官方发布的演示视频来看,该工具的效果类似Runway的Gen-1,但Stable Animation的能力更加丰富强大。


🔗 https://stability.ai/blog/stable-animation-sdk


🤯HuggingFace上线Transformers Agents,让大模型调用10万+开源AI模型实现万能app


HuggingFace本周宣布了一个新的API:Hugging Transformers Agent。设计理念与先前的HuggingGPT相同,可以控制 10 万多个 Hugging Face 模型,来完成各种多模态任务。



根据官网介绍,其基本的原理是调用大语言模型先把指令自动转化成Prompt,然后根据prompt调用所需的模型或者工具,来完成指令的目标。


比如在下面这个例子中,让 Transformers Agents 大声解释图片上描绘了什么内容。它会尝试理解你的指令(Read out loud thecontent of the image),然后将其转化为 prompt,并挑选合适的模型、工具来完成你指定的任务。



🔗 https://huggingface.co/docs/transformers/transformers_agents



本周重要资讯


📢ChatGPT下周将给所有Plus用户开放Plugins权限

OpenAI近日宣布,所有的Plus用户将在下周获得Plugins的使用权限,这意味着Plus用户下周就可以直接体验ChatGPT的联网和插件功能。



自从3月底,ChatGPT重磅推出插件功能以来,第三方插件数量已经从10来个增加到了70+。此前Plugins权限只对极少部分Plus用户放开,大部分的Plus用户苦苦排队了一个多月都没能等来插件功能的使用资格。此次OpenAI的提前放量,也有人认为是跟Google I/O大会AI产品集中发布有关。


🔗 https://chat.openai.com


📢女网红靠大模型打造AI分身与粉丝聊天,1美元/分钟,一周暴赚7.2万美元


在Snapchat上坐拥180万粉丝的女网红Caryn,利用AI技术在Telegram上打造了一个自己的AI分身——Caryn AI。粉丝们只需花费每分钟1美元,就可以和CarynAI进行“沉浸式AI体验”,几乎就像和Marjorie本人交谈一样。上线后一周内便赚了7.2万美元。


它背后的AI公司是Forever Voices,已经训练了很多虚拟AI角色,比如Steve Jobs、Kanye West、Donald Trump和Taylor Swift,但是目前只能在Telegram上进行使用。


结合近期火热的AI孙燕姿,这类虚拟人或者数字分身的概念未来会是一个不错的方向,会有越来越多这样的需求来满足众人追星的欲望。类似地还有家人陪伴的需求,比如《流浪地球2》中的数字丫丫。


🔗  mp.weixin.qq.com/s/WY4sC18Wmb9KF9UXvURN5g

📢OpenAI发布最新研究,用GPT4来研究AI的可解释性

本周OpenAI发布的一项重要研究成果,该研究利用GPT-4来解释GPT-2的行为。这项新方法为理解和解释AI的"黑箱"行为提供了可能,有可能改变人类对人脑和AI的理解。

在这项研究中,OpenAI开发了一个工具,利用GPT-4来计算并解释更简单的语言模型(GPT-2)的神经元行为。

最终,这个工具成功解释了GPT-2中的307200个神经元的行为,并将这些解释整合成数据集。最终生成的解释数据集和工具代码,已对外开源。


🔗 openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html


📢学而思正自研数学大模型MathGPT,教育领域迎来AI热潮


讯飞上周刚推出自己的大模型,在教育领域布局自己的AI产品矩阵,接着就传来学而思正紧锣密鼓地开始进行数学大模型研发。教育领域开始迎来AI热潮。


教育行业和大模型有着天然的契合点。教育也是通过交流,把知识和信息传递给学生,大模型会让教育行业的数字化、智能化速度更快。


在教育领域,已有很多入局的选手,比如Duolingo、Quizlet、可汗学院等产品主要和OpenAI合作,在GPT大模型上做微调和接口调用,产品已经在很多教育场景进行了落地。


但是教育领域的一些细分场景,比如数学或医学等,对AI的需求是准确、清晰、具备强大的逻辑推理能力,且容错率低,通用LLM目前的性能表现还无法在上述领域取得突破,未来是否可能取得突破目前尚不清晰。但从理论上看,大模型只解决推理的问题,逻辑推理和理解能力上去了,大语言模型负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,这样能提高题目解答正确率。


据报道,学而思学习机近期将会上线一款“AI助手”,涵盖作文助手、口语助手、阅读助手、数学助手等相关功能,该AI产品将于5月11日开启内测。


🔗 mp.weixin.qq.com/s/RUnJ2T9BueDnDCu91m8uPQ

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存