查看原文
其他

几个有意思的项目:手语视频,降噪黑科技,超牛ComfyUI节点,语音合成模型等

all in on ai 梭哈AI
2024-12-01

今日简讯 2024.5.28

- 在美区 App Store 的前 20 名教育应用程序中,有 5 个是帮助学生完成作业的 AI 工具软件,其中最受欢迎的两款软件 Gauth 和 Question AI ,均为中国公司开发(字节跳动和作业帮)。

- 网飞(Netflix)首席执行官泰德・萨兰多斯(Ted Sarandos):抢你饭碗的不是 AI,而是熟练使用 AI 的人。

- 苹果将在即将到来的WWDC上展示其最新的人工智能进展,重点放在普通用户可以在日常生活中使用的AI工具上。新计划名为“Project Greymatter”。

- “星战之父”乔治・卢卡斯吐槽好莱坞“几乎没有原创思维”,AI 将“不可避免”用于电影制作。

- 微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision,主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。

- 谷歌 CEO 皮查伊:未来几年的 AI 可能会给人一种“具备意识”的假象。

- Canva上线多个好用功能:文本生成插画、自动剪辑视频精华片段。

- Meta被曝利用Instagram和Facebook用户照片训练AI模型的隐私引发争议。

国产开源Sora(北大-兔展联合发起的Sora开源复现计划Open-Sora-Plan)上新

今起可以生成最长约21秒的视频了!生成的视频水平,如下展示。先看这个长一点的,9.2s。

项目地址:

https://github.com/PKU-YuanGroup/Open-Sora-Plan

超牛ComfyUI节点AnyNode来了

AnyNode是ComfyUI中一个令人印象深刻的新节点,它利用了大型语言模型(LLMs)的能力,允许用户通过输入提示词来创建具有特定功能的节点。

项目地址:

https://github.com/lks-ai/anynode

对话式高可控的语音合成模型:ChatTTS

一个专为对话场景设计的语音生成模型,支持中文和英文,通过大量数据训练,提供高质量和自然度的语音合成。

项目地址:

https://github.com/2noise/ChatTTS

视频演示地址:

https://www.bilibili.com/video/BV1zn4y1o7iV/

一个视频修复项目的Comfyui节点:ProPainter

它是一个专门针对视频修复的解决方案,基于ProPainter框架并实现了ComfyUI界面。该项目提供了高级视频帧编辑和无缝的视频修复任务,为视频编辑和修复领域带来了强大的工具。

项目地址:

https://github.com/daniabib/ComfyUI_ProPainter_Nodes

AI可以生成手语手势视频了

SignLLM是一项创新的多语言手语模型,它通过文字描述生成手语视频,为听力障碍者提供了重要的沟通工具,推动了人工智能在语言理解和生成领域的研究。

项目地址:

https://signllm.github.io/

Look Once to Hear:这是一个降噪黑科技?

一种先进的降噪耳机技术,通过用户的视觉输入来控制声音的放大或消除。这项技术在嘈杂环境中提供了专注和便利,让用户能够清晰听到目标说话者的声音。

项目地址:

https://github.com/vb000/LookOnceToHear

InstructAvatar:实现文字生成指定面部的表情和动作

InstructAvatar 实现了对情感和面部动作的细粒度控制,提升了虚拟形象的互动性和泛化能力。

项目地址:

https://wangyuchi369.github.io/InstructAvatar/

继续滑动看下一个
梭哈AI
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存