书生·浦语灵笔 2.0 正式开源,能力全面升级,支持个性化高质量图文创作
继1月17日发布书生·浦语2.0(InternLM2)大语言模型之后,上海人工智能实验室(上海AI实验室)近日推出全面升级的图文混合创作大模型书生·浦语灵笔2.0(InternLM-XComposer2),在大模型落地应用的探索上再迈进一步。
书生·浦语灵笔2.0是在书生·浦语2.0的基础上通过图文拓展训练获得的。得益于InternLM2强大的语言建模能力,浦语灵笔2.0的图文理解和创作能力显著提升,可为用户提供更精准、更个性、更丰富、更专业的图文创作体验,在12项图文能力评测中大幅领先同量级开源模型,在部分维度可比肩国际领先水平。
书生·浦语灵笔2.0开源了图文创作大模型(InternLM-XComposer2-7B)和它背后的图文理解与问答模型(InternLM-XComposer2-VL-7B),均提供免费商用。
开源仓库(包括模型和代码): https://github.com/InternLM/InternLM-XComposer
技术报告:https://github.com/InternLM/InternLM-XComposer/blob/InternLM-XComposer2/InternLM-XComposer2-Report.pdf
更全面的图文混合创作能力
为实现用户的个性化创作需求,浦语灵笔2.0支持用户上传图像和文本素材,并根据用户要求,使用规定素材定制图文文章,保证用户的内容原创性需求。
例如,根据图片素材和文字要求,让浦语灵笔创2.0作一篇文笔细腻温暖的哈尔滨游记。
图文理解能力显著提升,多项表现比肩多模态模型标杆
全新多模态架构Partial-LoRA
在此架构下,对于输入的文字词牌(Text Token),P-LoRA使用原本模型结构进行推理;对于图像编码(Image Token),通过额外的P-LoRA参数赋予模型对图像内容的深刻理解。通过上述方式使模型在实现多模态性能领先的同时,高效地保留了语言基座的能力。