刚刚,谷歌宣布推出其目前最强大的AI模型Gemini。这是谷歌继Transformers、BERT之后,在自然语言处理领域推出的又一重量级产品。Gemini最大的创新在于实现了跨模态的理解和推理。所谓跨模态,是指它可以同时处理文本、图像、音频、视频等不同类型的输入,并可以将不同模态之间的信息无缝结合,来进行更加复杂的推理。Gemini之所以有此强大能力,源自其独特的训练方法。Gemini从一开始就是在大量多模态数据上进行预训练,捕捉不同模态特征之间的内在联系。这与以往比较”拼凑“式的多模态系统有本质区别。据称,Gemini在包括文字、图像、音频、视频等30多个领域的基准测试中都取得了state-of-the-art的结果。尤其在需要复杂推理的任务上,其优势更加明显。此外,Gemini也在代码生成、图文理解等任务上展现了强大的能力。Gemini目前有三个版本,分别是面向云端的Gemini Ultra,面向通用任务的Gemini Pro,以及面向手机端的Gemini Nano。这意味着Gemini不仅可以用于云服务,也可以在设备端部署,为用户提供即时的AI支持。谷歌已经在产品中集成Gemini,例如在新推出的对话机器人Bard中使用Gemini Pro提升了对话质量;在新款Pixel手机中集成了Gemini Nano来支持语音识别、智能回复等功能。未来Gemini将在更多谷歌产品中应用。
Gemini可以从大量文献、报告中提炼出关键知识,进行概括和归纳。这将大大提高研究效率,对学术界和商业界都有重大价值。
Gemini强大的语音理解能力,将使语音助手和智能车载系统更加智能和友好。
Gemini可以分析图像,连接背景知识,并用语言形式作出回答。这可应用于无人商店、视障人士辅助等领域。
Gemini可以根据语音或文字描述,生成配图,可供平面设计师采用。也可以根据视觉输入,自动生成创意文章。
Gemini擅长代码生成,可辅助程序员设计、调试代码,提高开发效率。
Gemini在各学科知识上的广泛积累,可用于在线教育和考试,自动出题或判分。
Gemini兼具语音识别和翻译技能,可做实时的跨语言翻译,打破语言障碍。https://deepmind.google/technologies/gemini/#build-with-gemini
Gemini:一顿饭时间阅读20万篇科学论文的AI
公众号一直在审核视频中,请大家直接通过以下地址查看:https://youtu.be/sPiOP_CB54A
在这个视频中,Google DeepMind的Taylor揭示了Gemini在处理科学家面临的一个常见问题上的重要作用:从科学文献中找到并利用数据。由于数据量庞大,这个任务通常需要从成千上万的科学论文中手动提取数据,因此非常具有挑战性。
他们用一个2022年的研究来说明这个问题,该研究涉及到手动审查遗传学中的成千上万篇科学论文。利用Gemini来更新这个数据集,包含了从2021年以来发布的新论文(超过200,000篇)是一项艰巨的任务。Gemini的先进推理能力使其能够根据团队给出的提示区分相关的论文。然后,它可以阅读并从这些论文中提取关键数据,甚至提供注释来显示信息的来源。在一个午餐时间内,Gemini处理了200,000篇论文,找出了250篇相关的论文,并提取了他们的数据。此外,Gemini是多模态的,这意味着它不仅可以从文本中理解信息,还可以从图形中理解信息。团队通过要求Gemini使用新更新的数据集来更新原始2022年研究中的一个图表来演示这一点。Gemini能够生成绘制图表所需的代码,从而得到一个包含了截止到2023年的数据的更新图表。视频总结时指出,Gemini的能力自然可以延伸到任何依赖大数据集的领域,如法律或金融,而不仅仅是生物学或科学。团队对看到其他人将如何使用Gemini来创造新的应用表示了兴奋。在这个视频中,Gemini在日常生活中处理音频信息。一般来说,大型语言模型处理音频时,会先通过语音识别系统将音频转换为文本,然后将文本输入到另一个理解文本的模型中。然而,这样做会丢失很多细微的信息,如声音或发音。而Gemini能够端到端地处理原始音频信号。根据这个视频可以看出,Gemini具有强大的多模态理解能力。用户使用中文对Gemini进行提示,Gemini能根据卧室内的光照条件分析出卧室朝南。给定一株植物图片后,Gemini能识别这是一株不需要强光的长命竹,并可以推理出餐厅相对卧室在北侧,光线较少,因此那株植物更适合放在餐厅里。这个例子展示Gemini可以同时处理视觉和语言信息,并可以跨语言进行环境关系的复杂推理。Gemini强大的多模态理解能力可广泛应用于智能家居、地理位置推断等领域。Gemini的另一个重要意义在于,它标志着计算机视觉与自然语言处理的融合趋势正在加速。以前这两个领域之间还存在着明显的鸿沟,但Gemini证明了通过预训练可以培养通用的“多感觉”能力。这为未来构建更加智能的机器提供了可能。计算机视觉之父福克斯曾表示,如果不能让计算机像人一样使用视觉与语言相结合进行思考,那就无法造出真正智能的机器。Gemini可以看作是迈向这个目标的重要一步。以下是一些我之前的文章,你可能会对它们感兴趣:
已是ChatGPT会员,为何还充值Poe,我的深度使用分享
tldraw make real:利用AI一键从原型图到生成真实可用的代码
深度使用GPTs的分享——授人以鱼不如授人以渔