其他
每闻春风之怒号则寸心欲碎
采用了混合专家(Mixture of Experts)架构,这是继Mistral、Grok以来,又一个确定采用混合专家架构的大模型。附带说一句,由于GPT-4没有公布技术路线,我们无法确认它具不具备混合专家架构。 多项评测显示,DRBX可能是目前市面上最强大的开源大模型,优于上面提到的LLaMA-2、Grok和Mistral/Mixtral。当然,具体有多强还要等待开源社区的进一步评估。 DBRX的训练仅仅使用了3072张H100显卡、2个月时间,训练成本仅为1000万美元。这说明,即便在算力军备竞赛白热化的今天,仍然存在以较低成本做出堪用的大模型的可能性。