查看原文
其他

OpenAI推ChatGPT高级语音模式;谷歌Gemini1.5升级

all in on ai 梭哈AI
2024-11-27

今日简讯 2024.9.25

- AI 生成的马力欧图片遭大规模下架,该人工智能驱动的版权工具属于一家名为 Tracer 的公司,称代表任天堂向 X 平台发出下架通知。

- 好莱坞传奇导演詹姆斯 · 卡梅隆加入 Stability AI 董事会,将AI技术与电影艺术结合,开启创新故事讲述方式。

- 多邻国推出 AI 视频通话功能,可以直接通过视频通话来学习语言和练习口语。

- HuggingFace公司最新推出的HuggingChat原生macOS客户端。

下载地址:

https://github.com/huggingface/chat-macOS

- 阿里新技术MIMO,可以让一张图片+视频转化为可操控的虚拟角色,Lite版永久免费,Max版可免费领1亿Tokens。


地址:

https://xinghuo.xfyun.cn/sparkapi

- 2024 百度云智大会今日在北京召开,百度在大会上宣布全面升级百舸 AI 异构计算平台 4.0、千帆大模型平台 3.0 两大 AI 基础设施,并升级代码助手、智能客服、数字人三大 AI 原生应用产品。

- 百度李彦宏:智能体是我最看好的 AI 应用方向。

- “稚晖君”创业项目,智元自主研发的机器人中间件 AimRT 开源。

地址:

https://docs.aimrt.org/tutorials/concepts/core_design.html#id2

- 英伟达发布 Llama-3.1-Nemotron-51B AI 模型:创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载。

谷歌 Gemini 1.5 AI 模型再进化,性能升级,价格暴跌

谷歌下调了 token 输入和输出费用,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 最高降幅 50%,提高了两种模型的速率限制,并减少了延迟。(新定价于 2024 年 10 月 1 日生效。)

OpenAI 上线高级语音模式

AVM 采用焕然一新的设计,以蓝色动画球体取代之前使用的动画黑点。面向所有 Plus 和 Team 订阅用户,推出高级语音模式(Advanced Voice Mode,简称 AVM),能用中文等 50 多种语言。

阿里新技术MIMO,可以让一张图片+视频转化为可操控的虚拟角色

首先,只要提供一个图像以及视频或者动作序列,该技术就可以将给定图像中的人物替换成视频中的人物。其次,还能够控制这个被替换后的角色的动作,并且可以让这个角色与场景进行互动。例如,可以让替换后的人物在特定场景中做出各种动作,与周围的环境产生交互效果。

项目地址:
https://menyifang.github.io/projects/MIMO/index.html

谷歌研究人员提出了零样本语音转换技术,帮助失声人士找回声音记忆


该技术具有零样本能力,支持多语言声音转换,展示了强大的适应性和实用性。通过短时间音频样本,成功合成特殊发音者的语音,大大丰富了语音交流的可能性。

项目地址:
https://google.github.io/tacotron/publications/zero_shot_voice_transfer/
继续滑动看下一个
梭哈AI
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存