其他
李彦宏说开源模型会越来越落后,为什么很多人不认同?|甲子光年
差距在缩小,但可能永远追不上。
1.差距没有拉大,而是在缩小
大模型排行榜,图片来自LLM Arena截图
闭源模型与开源模型的差距,图片来自X
2.开源模型的“真假开源”
仅模型开源(技术报告只列举了 Evaluation)。主要利好做应用的公司(继续训练和微调)和普通用户(直接部署)
技术报告开源训练过程。比较详尽的描述了模型训练的关键细节。利好算法研究。
训练代码开源/技术报告开源全部细节。包含了数据配比的核心关键信息。这些信息价值连城,是原本需要耗费很多GPU资源才能得到的Know-how。
全量训练数据开源。其他有算力资源的团队可以基于训练数据和代码完全复现该模型。训练数据可以说是大模型团队最核心的资产。
数据清洗框架和流程开源。从源头的原始数据(比如CC网页、PDF电子书等)到 可训练的数据的清洗过程也开源, 其他团队不仅可以基于此清洗框架复现数据预处理过程,还可以通过搜集更多的源(比如基于搜索引擎抓取的全量网页)来扩展自己的数据规模,得到比原始模型更强的基座模型。
3.模型开源的意义是什么?
Meta股价走势图,图片来自X
4.闭源to C,开源to B
END.