Meta巨无霸语言模型LLaMA登场:650亿参数基础架构模型隆重亮相
今日份知识你摄入了么?
Meta公开发布了LLaMA(大型语言模型Meta AI),这是一个最先进的基础大型语言模型,旨在帮助研究人员推进他们在这一人工智能子领域的工作。像LLaMA这样的更小、更高效的模型可以让研究社区中没有大量基础设施的人研究这些模型,进一步民主化这个重要的、快速变化的领域的访问。
在大型语言模型领域,训练像LLaMA这样的小型基础模型是可取的,因为它仅需要更少的计算能力和资源就可以测试新方法、验证其他人的工作并探索新的用例。基础模型在大量未标记的数据集上进行训练,使它们非常适合针对各种任务进行微调。Meta提供了多种尺寸(7B、13B、33B和65B参数)的LLaMA,并分享了一个LLaMA模型卡,详细说明Meta如何根据负责任的人工智能实践方法构建模型。
在过去的一年里,大型语言模型——具有数十亿个参数的自然语言处理(NLP)系统——已经显示出生成创造性文本、解决数学定理、预测蛋白质结构、回答阅读理解问题等新的能力。它们是人工智能可以大规模为数十亿人带来巨大潜在利益的最明显案例之一。
尽管大型语言模型最近取得了很大的进步,但由于训练和运行这样的大型模型所需的资源,对它们的全面研究仍然受到限制。这种受限的访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力,阻碍了提高它们的稳健性和缓解已知问题(如偏见和产生错误信息的可能性)的努力的进展。
使用更多的词元(即单词的一部分)训练出的较小模型更容易重新训练和微调以适用于特定的潜在产品用例。Meta使用了1.4万亿个词元来训练LLaMA 65B和LLaMA 33B,而Meta最小的模型LLaMA 7B是在一万亿个词元上进行训练的。
与其他大型语言模型类似,LLaMA的工作原理是将单词序列作为输入,并预测下一个单词来递归生成文本。为了训练自己的模型,Meta从使用人数最多的20种语言中选择文本,重点是拉丁字母和西里尔字母的语言。
还需要做更多的研究来解决大型语言模型中的偏见等问题。和其他模型一样,LLaMA也面临着这些挑战。作为基础模型,LLaMA被设计为多功能的,可以应用于许多不同的用例,而不是为特定任务设计的微调模型。通过分享LLaMA的代码,其他研究人员可以更容易地测试在大型语言模型中限制或消除这些问题的新方法。Meta还在论文中提供了一套评估模型偏差的基准,以显示模型的局限性,并支持在这一关键领域的进一步研究。
为了维护完整性并防止滥用,meta发布这个模型采用了专注于研究用例的非商业许可证。对于学术研究人员、政府、民间社会和学术机构相关人士以及全球产业研究实验室,Meta会根据具体情况授权访问该模型。有兴趣申请访问权限的人可以在Meta的研究论文中找到申请链接。
Meta认为,整个人工智能社区——学术研究人员、民间社会、政策制定者和产业界——必须共同努力,围绕负责任的人工智能,特别是负责任的大型语言模型,制定明确的指导方针。Meta期待看到社区使用LLaMA可以学到什么,并最终构建什么。
Read the paper:
https://arxiv.org/abs/2302.13971
Read the model card:
https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md
Apply for access to LLaMA:
https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform
原文作者:Meta AI
翻译作者:过儿
美工编辑:过儿
校对审稿:过儿
原文链接:https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
本周公开课预告
往期精彩回顾
ChatGPT会替代我们的工作吗——最有可能被人工智能取代的十种工作
Microsoft使用AI的7种方式,带你真正了解Bing
新兴报表工具FineReport——商业分析师需要知道的三种报表
点击“阅读原文”查看数据应用学院核心课程