NotebookLM +PodLM + F5:AI播客系列,个性化中英文播客(本地安装、Colab部署)
🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
NotebookLM的第一个功能是RAG(Retrieval-Augmented Generation),允许用户对知识库进行提问,表现相当出色。每个空间最多可容纳50个文档,但用户可以创建更多空间。相比于Anythingllm,NotebookLM在这方面更具优势,使用的是免费的Gemini模型,操作也更加简便,唯一的挑战在于其界面基本上是全英文的。
这五个快捷选项挺有用的
比如其中,大纲 ...
然后时间线 ...
NotebookLM可以作为研究型专家,支持用户导入多种研究材料,如论文、参考资料、视频(youtube 链接)和音频等,集中进行混合研究。通过其知识库功能,用户可以结合不同领域的信息,模拟主持人与专家之间的一问一答形式。
基本的功能我们介绍完了,那么,对于 NotebookLM 有没有一些好的实践?
▲ 来源|36氪
PodLM
这个东西操作挺简单的,到这里https://podlm.ai/zh-CN可以免费体验一定的次数,不过他也是开源的,你可以选择自己部署。
现在下面是使用PodLM的一个例子
点击生成它就会按照你填入的内容,自动补内容,形成播客脚本,并生成音频
这个音频就是用文章开头内容生成的AI播客,
虽然不如NotebookLM生成英文播客那样流利顺畅,不过也做的挺不错的,而且它是开源的:https://github.com/lihuithe/podlm-public。
F5-TTS
这是一个挺厉害的TTS项目
我在Colab部署F5后生成了一个例子:
由于F5官方(https://huggingface.co/spaces/mrfakename/E2-F5-TTS)访问人数众多,经常出现卡顿,因此推荐本地部署。第一种方法是在我的Windows电脑上部署,使用4060显卡(8GB显存),生成15个字的内容也需要比较久的时间,显存要求较高。
如果你想要更便捷的体验,可以选择第二种方法,我已在谷歌Colab中调试好,只需连接到T4 GPU,速度比我本地的快得多。
现在看看第一种方式:首先克隆仓库
打开pycharm进入项目目录,pycharm提示自动按照requirements.txt创建虚拟环境,当然你也可以使用conda手动创建虚拟环境并安装依赖
我们需要查看本机的Cuda版本,安装对应的torch与audio torch,我这里使用了一个上海交通大学的源,测试下来比较好,我的cuda是12.1的
pip install torch===2.3.0+cu121 torchaudio===2.3.0+cu121 -f https://mirror.sjtu.edu.cn/pytorch-wheels/torch_stable.html
安装依赖
pip install -r requirements.txt
然后执行python gradio_app.py启动项目
点击web界面的端口
可以看到界面:
TTS功能是正常的,但是播客用不了,会报一个这样的错误
总之播客没有生成出来内容,我也不想花太多时间弄这个,网上也没有生成成功的例子,期待有人指明。并且,官网的播客也是一直处于生成错误的状态。
此外,如果你的TTS也没有成功的话,他可能缺少ffmpeg,你需要安装它
安装这个东西的网址在这(有不同系统的):
https://www.gyan.dev/ffmpeg/builds/
Windows中记得把bin文件夹添加到环境变量中。
现在第二种:Colab部署,我解决了几个潜在的问题,Colab版本可以直接运行,笔记本在这:
https://colab.research.google.com/drive/1KoMvZQyxXiE3bw00_InCyNDbD4WkPlNr#scrollTo=P9Sgtw-jBBRe
链接T4,然后点击最后一行,并“ctrl+F8”,它会执行所有代码。
One More Thing
总的来说,就是这样,语音是人类最自然的交互模式之一,符合我们大脑的认知习惯。虽然我们有教科书,但依然需要老师讲课来帮助理解复杂内容。当我们能用口语解释概念、讲给别人听时,才真正掌握了它。AI播客 就是用简单的语言重新诠释书面概念,同时融入情绪和语气,带来了更自然的感官体验。
传统媒体让你被动地听别人制作的内容,而现在,你可以主动制作个性化的音频。
正如 OpenAI 研究主管 Karina Nguyen 所说,‘我心目中的终极 AGI 界面是一张空白画布(Canvas)’,它随着人类的偏好不断演变,自我变形,给予用户无限的创作空间和自由度,让交互方式更加个性化和丰富。
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
[1] https://mp.weixin.qq.com/s/Jqf2eZZHSU0ax732xP5V5g
[2] https://www.youtube.com/watch?v=lFxu0mlOoWs
[3] https://podlm.ai/zh-CN
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~