国产开源大模型再添一员,昆仑万维开源百亿级大语言模型|甲子发现
大模型开源动作不停,下一个会是谁?
作者|武静静
编辑|赵健
国产大模型开源动作持续不断。
10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并发布了配套的600GB、150B Tokens超大高质量开源中文数据集。
昆仑万维称,此次发布开源大模型旨在为大模型的场景应用和开源社区发展提供最佳技术支持,降低大模型商业门槛,推动人工智能技术落地千行百业,推动开源生态繁荣。
1.开源130亿参数两大模型
即日全面开放商用
此前,昆仑万维已经对外发布完全自研的天工大模型作为通用基座大模型,此次开源Skywork-13B系列模型是基于通用基础模型构建而成,拥有130亿参数、3.2万亿高质量多语言训练数据。其在CEVAL, CMMLU, MMLU,GSM8K等几大权威评估基准中全面超越LLaMA2-13B等开源大模型。
此外,在中文文本创作领域的评测中,该模型也展现出在科技、金融、政务、企业服务、文创、游戏等领域的优秀成绩。
此次开源的主要包括两个130亿参数的大模型。目前,在公司官网和GitHub上可以详细看到这两款大模型的信息。
其中,Skywork-13B-Base模型是这个系列大模型的基础模型,由3.2万亿个多语言高质量数据训练,目前其在国际的多个评测与基准测试上(CEVAL,CMMLU, MMLU, GSM8K)都展现了同等规模模型的最佳效果。
Skywork-13B-Math模型是一款数学能力更强的专有模型,其基于基础模型进行了专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。
除了发布开源模型之外,昆仑万维也正式对外发布了大规模的开源中文数据集——600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这是目前最大的开源中文数据集之一,可以支持开发者最大程度地借鉴大模型预训练的经验,以及定制模型参数,进行针对性训练与优化。
此外,公司透露,Skywork-13B系列大模型即将全面开放商用,开发者无需申请就可进行商用。
2.加速大模型开放与落地
昆仑万维在大模型领域的布局开启于2020年,适逢GPT-3面世,在认定GPT-3会给整个内容生成领域带来重大变革的机会之后,公司就成立了一个团队与奇点智源合作,跟踪GPT-3大模型的进展。
2022年12月底,昆仑万维发布了AIGC全系列算法与模型,开源了文本AI、编程AI、绘画AI。2023年4月17日,公司正式发布了天工大语言模型。
9月份,在权威推理榜单Benchmark GSM8K 测试中,天工大模型以80%的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),这标志着天工的推理能力达到全球领先,接近GPT-4。
开源是昆仑万维一直希望探索的方向。今年2月,昆仑万维就宣布与奇点智源合作在今年内发布中国版类ChatGPT代码开源。
昆仑万维董事长兼CEO方汉是最早参与到开源生态建设的开源老兵,也是中文Linux开源最早的推动者之一。
昆仑万维CEO方汉认为:“没有开源就没有移动互联网时代的蓬勃发展,没有开源也没有AIGC这个领域的蓬勃发展,我们坚信开源是AIGC生态发展的土壤和重要的推动力量。”
公司透露接下来,也将继续全面落实“All in”AGI与AIGC的战略,持续加大研发投入力度。财报数据显示,昆仑万维前三季度研发费用提升至6.2亿元,去年同期研发费用4.84亿元,同比增长28.18%。
公司的季度财报表现也不错,2023年第三季度报告显示,前三季度,公司实现营业收入36.81亿元,同比增长8.31%;经营性现金流7.56亿元,同比增长33.4%;归属于上市公司股东净利润3.29亿元,居行业第一梯队。
国产大模型开源动作不停,下一个会是谁呢?
(封面图来源:拍信创意)
END.
点击文末“阅读原文”
进入「甲子光年」官网
了解更多精彩内容