查看原文
技术和科学

AGI前夜-开源周报#77

Meta360 DAO 创新海DAO团 2023-08-29


  • AGI前夜 (https://agi360.xyz)

  • Weekly 一周热点

  • 开源 LLM

  • 开源App

  • 开源 Agent

  • 开源 AIGC-Music

  • 开源 AIGC-Image

  • 开源 数据集

  • 开源 开发工具

  • 其他资源

  • 加入我们(创新DAO)

  • 我们的愿景和目标


AGI前夜 (https://agi360.xyz)

💕 旨在推动AI开源和普惠AI运动,让每个人都有机会享受人工智能带来的红利。(扫码申请加入开源资源分享群)

Weekly 一周热点

  • facefusion 下一代换脸器和增强器https://github.com/facefusion/facefusion

  • Qwen-VL:阿里云推出的多模态大型视觉语言模型能针对图像提出问题。许可协议:研究人员和开发人员可以自由使用Qwen-VL和Qwen-VL-Chat的代码和模型权重,也允许其商业使用。项目地址:https://github.com/QwenLM/Qwen-VL

开源 LLM

  • IDEFICS:可能是目前为止最先进的多模态模型,基于谷歌的Flamingo多模态模型研发,80B参数。在线体验:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground 详细介绍:https://huggingface.co/blog/idefics 模型细节及训练过程:https://huggingface.co/HuggingFaceM4/idefics-80b-instruct

  • Meta AI 推出 SeamlessM4T,这是第一个一体化多语言多模式翻译模型。这个单一模型可以根据任务执行多达 100 种语言的语音到文本、语音到语音、文本到文本翻译和语音识别任务。页面: https://github.com/facebookresearch/seamless_communication 代码: https://ai.meta.com/resources/models-and-libraries/seamless-communication/ colab: 请尝试一下 https://github.com/camenduru/seamless-m4t-colab demo: https://seamless.metademolab.com/

  • Meta 发布 Code Llama 基于 Llama 2 微调的专门写代码的LLM。官方新闻:https://ai.meta.com/blog/code-llama-large-language-model-coding/ Github:https://github.com/facebookresearch/codellama 在线colab使用:https://github.com/camenduru/text-generation-webui-colab

  • WizardLM发布了 WizardCoder 34B,基于Meta的 Code Llama 微调,成绩超越了GPT-4官方发布的成绩 ⛵️ Github:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder ⛵️ 模型下载:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0 ⛵️在线体验:http://47.103.63.15:50085/

开源App

  • Quivr:索引电脑上几乎所有类型的本地文件,然后通过LLM来进行问答,做“你的第二大脑”。只支持Ubuntu系统,windows系统可以等微软官方的copilot,苹果系统可以用Rewind。Quivr Github:https://github.com/StanGirard/quivr

  • MovieChat: 🔥 chat with over 10K frames of video! 关于《疯狂动物城》动画片片段的问答,讲述了一只名叫朱迪的坚定的兔子警官与狡猾的狐狸搭档揭开有关动物失踪的阴谋并发展出意想不到的友谊的故事。https://github.com/rese1f/MovieChat

开源 Agent

  • WavJourney 发布源码 WavJourney 是一个文字生成音频节目的模型,相比 elevenLabs 、Fliki 等文字生成人声的产品,WavJourney 的特点是不仅生成人声,同时生成了背景音乐、转场音乐、音频特效等用于氛围的音频,让一键创建播客有了可能。Github:https://github.com/Audio-AGI/WavJourney 论文:https://arxiv.org/abs/2307.14335 在线Demo:https://huggingface.co/spaces/Audio-AGI/WavJourney

开源 AIGC-Music

  • AudioCraft_Plus An All-in-One AudioCraft WebUI https://huggingface.co/spaces/GrandaddyShmax/AudioCraft_Plus

  • VALL-E-X An open source implementation of Microsoft's VALL-E X zero-shot TTS model. ⛵️ Demo:https://plachtaa.github.io ⛵️ https://github.com/Plachtaa/VALL-E-X

  • 48kHz AudioLDM 现已在 GitHub 上开源 文本到 HiFi 音频的生成 比之前的16kHz好多了。速度优化版本很快将在 HF 和 Diffuser 上推出。https://github.com/haoheliu/AudioLDM2

  • Scenimefy:把视频处理成新海诚动漫风格。另外作者提供了如何获取新海诚图片数据集的操作方法。项目地址:https://yuxinn-j.github.io/projects/Scenimefy.html 在线体验:https://huggingface.co/spaces/YuxinJ/Scenimefy Github:https://github.com/Yuxinn-J/Scenimefy

开源 AIGC-Image

  • 腾讯开源的AI模型GFPGAN,能帮助恢复老照片⛵️ 项目地址:https://github.com/TencentARC/GFPGAN ⛵️ 在线测试地址:https://replicate.com/tencentarc/gfpgan

  • ComfyUI-to-Python-Extension解决了comfyui无法被套壳使用的问题,现在不光可以通过python直接调用工作流json画图,而且通过python画图不需要启动server。⛵️ https://github.com/pydn/ComfyUI-to-Python-Extension 不需要启动server这个特性有点一言难尽,的确不需要启动server,但是也享受不到server带来的缓存等好处,运行的时候需要经历类似启动server的过程。另外就是它和一些自定义节点不兼容,有些工作流在comfyui里能跑,导出成json后它无法正确加载部分节点就不能跑。

  • 又开源了一个基于 Diffusion 的视频生成模型 StableVideo,通过向现有的基于文本的Diffusion模型引入时间依赖性,为编辑的对象生成一致的外观,从而解决闪烁问题。利用层次表示的概念将外观信息从一帧传播到下一帧。基于此机制构建了一个基于文本的视频编辑框架,它可以实现一致性感知的视频编辑。下面是演示视频的合集看起来确实很稳定,感兴趣的可以下载模型试一下。论文:https://huggingface.co/papers/2308.09592 Github:https://github.com/rese1f/stablevideo 模型下载:https://huggingface.co/lllyasviel/ControlNet

开源数据集

  • 2TB多模态语料库 “书生·万卷” 上海人工智能实验室(上海 AI 实验室)于 8 月 14 日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布 “书生・万卷” 1.0 多模态预训练语料。“书生・万卷” 1.0 目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过 2TB。集合语料数据联盟成员丰富的内容积累与上海 AI 实验室领先的数据处理能力等优势,“书生・万卷” 将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。⛵️: https://opendatalab.org.cn/home

开发工具

  • pezzo 提示语工程的Github⛵️: https://github.com/pezzolabs/pezzo

  • OpenCopilot,这是一个开源框架,开发人员可以在一天之内轻松构建 AI Copilot 并将其嵌入到他们的产品中。⛵️: GitHub:https://github.com/opencopilotdev/opencopilot…

  • douyin-downloader Public 抖音批量下载工具,去水印,支持视频、图集、合集、音乐(原声)。⛵️: https://github.com/itgoyo/douyin-downloader

其他资源

  • open-llms 如果你想及时追踪有哪些开源LLM和开源的用于写代码的LLM,关注这个列表 Github:https://github.com/eugeneyan/open-llms

  • Awesome-LLMOps An awesome & curated list of best LLMOps tools for developers https://github.com/tensorchord/Awesome-LLMOps

  • genmusic_demo_list a list of demo websites for automatic music generation research https://github.com/affige/genmusic_demo_list

  • Awesome-DragGAN: A curated list of papers, tutorials, repositories related to DragGAN https://github.com/OpenGVLab/Awesome-DragGAN

  • 100+ Teachers Prompt Templates

  • 500+ ChatGPT Prompt Templates Break through creative blocks & get things done in a flash

  • 500+ ChatGPT 提示模板 突破创意障碍,瞬间完成工作。精心策划的提示的全面集合,专为许多常见和特定需求而定制。借助此产品,您可以轻松访问 ChatGPT 的各种提示并提高您的工作效率。https://www.producthunt.com/products/500-chatgpt-prompt-templates#500-chatgpt-prompt-templates

  • 150+ AI Historic Figureshttps://ignacio-velasquez.notion.site/150-AI-Historic-Figures-464075f3804843d7a93087c98cfe4943

加入我们(创新DAO)

我们的愿景和目标

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存