查看原文
其他

LLama2 真实地位

小熊跑的快 小熊跑的快 2024-01-18

      怎么说,国内是略高估LLama2的真实地位的。实际上meta 在基础大模型方面,在openai和google之后,它开源了两代产品,第二代也在gpt3.5实力之下。


    开源对于第三第四名一般有利、可以聚集 全球有识之士加入生态,进一步开发。


  但是不得不说LLama2 也是目前最好用的开源模型! 付费?主要还是付的微软云的ai租赁费,meta不收钱。


      7月份meta新发布可以商用的Llama 2,强于初始模型Llama(在今年2月份,Meta公司开源了第一版的Llama大语言模型,可用于商业用途,不能进行特定任务或需求的训练)。Llama2模型包含三个规模,分别是70亿、130亿和700亿。并与其他模型进行了比较:
(1)700亿参数的模型在推理逊于GPT-3.5,编写代码方面还存在较大差距;
(2)70亿参数的模型可以在Mac上运行,每秒处理6个字符,比Google发布的PaLM 2最小模型“壁虎”慢了70%。GoogleGecko 十亿参数以下。
(3)在相同参数规模下,Llama 2的性能超过了所有其他开源大模型。
       meta还公布了llama2的其他方面:
首先是训练数据这一块,Llama 2用的训练数据都是来自公开数据源的,大约是两万亿个token,也就是常用单词、标点和数字等,比第一代多了40%。上下文长度也延长到了四千个字符,对文本的理解力更强了。
学习方式上,Meta把人类反馈强化学习(RLHF)也用上了,用了一百万条人类标记的数据训练出了一款跟ChatGPT类似的对话应用。这也是过去几个月里开源社区经常调整Llama训练的常用方法。Meta还说,“大语言模型的卓越写作能力从根本上是由RLHF驱动的”。
    最后是训练成本,Llama 2的训练成本据说超过了两千五百万美元,这比三年前OpenAI训练GPT-3的成本还要高。Meta还在继续训练更强大的Llama模型。
   (有人说是4000颗a100、这个数常理上是靠谱的,所以昨天又很多人问,今年应该训练需求还是最大的,除了azure云,感觉是对的)
 
    Llama2的开源发布具有里程碑意义,可能改变整个大模型的竞争格局,更加开源化、多元化、不确定性。
(1)大模型的商业应用现状:
    在美国,绝大多数公司通过OpenAI的API来利用大模型进行基本应用,如翻译和文本生成。
    在中国,很多公司基于开源模型做垂直开发,底座用的大模型可以随机切换。
 
(2)大模型的隐性特点:大模型作为产品的基础设施,在底层运行,对用户隐藏。用户与大模型的交互通常只涉及对话框和处理的内容,而不知道具体使用的是哪个大模型或技术。
(3)易替换性与开发难度:如果多个大模型的功能相近,更换大模型的障碍并不高。AI开发者认为如果大模型能力相差不大,仅需进行少量调度工作。
    
    商业授权: 

1) 日活大于 7 亿的产品需要单独申请商用权限。(竞争对手不行)

2) 不得使用 Llama 材料或 Llama 材料的任何输出或结果来改进任何其他大型语言模型.(竞争对手不行)。


 
    
 

继续滑动看下一个

LLama2 真实地位

小熊跑的快 小熊跑的快
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存