Meta:悄悄发布多款模型、研究和数据集
长话短说
大半夜的
Meta 发货 6 款
由 FAIR 团队呈现
*FAIR: Fundamental AI Research
Meta Chameleon
多模态模型,7B/34B
Multi-Token Prediction
多词预测模型
JASCO
文本生成音乐模型
AudioSeal
AI 语音检测
PRISM
AI 反馈数据集
“DIG In”
人文地理差异评估方法
更详细的如下
Meta Chameleon
“变色龙”模型
一款多模态模型,能同时处理文本和图像。目前发布 Chameleon 7B 和 34B 模型,供研究使用,支持混合输入(文本+图像),输出文本。
例如,输入一张海滩照片,Chameleon 能生成“夕阳下的金色沙滩,海浪轻拍海岸”这样的描述;输入“森林里的小木屋”,再配上几张树木、房子的图片,它就能生成一段描述森林小木屋的文字。
模型:
https://ai.meta.com/resources/models-and-libraries/chameleon-downloads/?gk_enable=chameleon_web_flow_is_live
Multi-Token Prediction
多词预测
一种新的语言模型训练方法——多标记预测,旨在提高模型能力和训练效率。该方法训练模型一次预测多个单词,而非传统的一次一个单词。
例如,在写代码时,输入“print("Hello")”,就能预测接下来可能要输入的内容,比如“.upper()”或者“+ name”。
论文:
https://arxiv.org/abs/2404.19737
模型:
https://huggingface.co/facebook/multi-token-prediction
JASCO
将文本提示转化为音乐,并支持和弦、节拍等条件输入,实现对生成音乐的精细控制。例如,输入“欢快的流行歌曲,4/4拍,C大调”,JASCO就能生成一段符合要求的音乐。
论文:
https://arxiv.org/abs/2406.10970
代码:
https://github.com/facebookresearch/audiocraft
AudioSeal
一款音频水印技术,能精准识别AI生成的语音内容,防止滥用。例如,在一段播客中,AudioSeal可以标记出哪些部分是由AI生成的。该技术已应用于SeamlessM4T v2、Audiobox等产品中,Meta还将发布图像、语音和文本模型的水印方法。
代码:
https://github.com/facebookresearch/audioseal
PRISM数据集
Meta 与外部伙伴合作发布了 PRISM 数据集,包含来自全球 1500 名参与者的对话数据和偏好,用于改进大型语言模型。
例如,通过分析不同文化背景的用户对同一问题的回答,模型可以学习如何生成更具包容性的回复。该数据集旨在提高模型的对话多样性、偏好多样性和社会效益。
论文:
https://arxiv.org/abs/2404.16019
数据:
https://huggingface.co/datasets/HannahRoseKirk/prism-alignment
DIG In
多词预测
DIG In 指标可被用于评估文本生成图像模型中存在的地理差异。例如,输入“传统婚礼”,模型是否会生成不同地域的婚礼图片。
此外,他们还进行了大规模注释研究,收集了大量关于图像吸引力、相似性、一致性等方面的反馈,以改进模型。
代码:
https://github.com/facebookresearch/DIG-In
标注:
https://github.com/facebookresearch/DIG-In/blob/main/task2_geode.csv
OpenAI
要努力了