查看原文
其他

原创AI:上海AI实验室近期科研成果速览(部分)

Shanghai AI Lab 上海人工智能实验室 2024-04-23

岁末年初,上海人工智能实验室(上海AI实验室)陆续发布多项原创科研成果,部分项目已开源并提供免费商用。一文速览近期成果。


矢志原创。上海AI实验室在新的一年将持续秉持原创理念,开展战略性、原创性、前瞻性的科学研究与技术攻关,敬请关注。




大模型


书生浦语2.0:回归语言建模本质,综合性能领先开源社区

新一代大语言模型书⽣·浦语2.0(InternLM2)回归语言建模本质,通过提高语料质量及信息密度,实现了模型基座语言建模能力获得质的提升。支持20万字牌(token)超长上下文,性能领先同量级开源模型,以20B的规格超越GPT-3.5。InternLM2现已开源并提供免费商用。


项目链接:https://github.com/InternLM/InternLM

书生·视觉大模型:视觉任务性能开源领先,创新视觉大模型架构

新一代书生·视觉大模型(InternVL)首次提出了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。以不到1/3的参数量超越视觉模型标杆谷歌ViT-22B,在MMBench等评测上比肩GPT-4V和GeminiPro。InternVL全系列模型、代码均已开源。


项目链接:https://github.com/OpenGVLab/InternVL

书生·浦语灵笔2.0:个性化高质量的图文混合创作大模型

图文混合创作大模型书生·浦语灵笔2.0(InternLM-XComposer2)能力全面升级,支持个性化高质量图文创作,图文理解和创作能力领先开源社区。得益于实验室原创的全新多模态模型架构Partial-LoRA,书生·浦语灵笔2.0可同时兼顾图文创作和多模态理解。模型及代码均已开源,提供免费商用。


项目链接:https://github.com/InternLM/InternLM-XComposer

书生·浦语数学:中轻量级参数刷新开源模型数学能力上限

新一代数学模型书生·浦语数学(InternLM2-Math)以中轻量级参数规模,在多项数学评测中刷新开源模型数学能力上限。该模型为首个同时支持形式化数学语言及解题过程评价的开源模型,以强大内生计算和推理能力,为技术社区提供强大数学工具和模型范式。代码和模型完全开源,并支持免费商用。


项目链接:https://github.com/InternLM/InternLM-Math





大模型评测


OpenCompass2.0:一站式评测,助力大模型技术创新

大模型开源开放评测体系司南(OpenCompass2.0)旨在为大语言模型、多模态模型等提供一站式评测服务,客观中立地为大模型技术创新提供坚实的技术支撑。目前包括Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用OpenCompass2.0助力开展技术研发。


评测链接:https://opencompass.org.cn



AIGC


书生·物华:三维物体生成大模型,构建数字资产技术基础

三维物体生成大模型 “书生·物华”(3DTopia)集成了文本、三维数据等多模态数据,可根据文本输入高效率地生成高质量、多样化的三维数字模型,大幅节约了三维内容创作的时间和成本。在OpenAl的评测指标上,3DTopia超越其三维模型Point-E和Shap-E。模型及代码均以开源,提供免费商用。


项目链接:https://github.com/3DTopia/3DTopia

文生视频框架AnimateDiff升级

无需额外的数据收集或定制化训练,AnimateDiff可一次性快速为大多数个性化文本转图像模型提供动画化能力。通过SparseCtrl支持对视频动效生成更灵活的控制,AnimateDiff被用于制作《枕着光的她》中的AI视频,登上2024年央视春晚舞台。现已开源。


项目链接:https://github.com/guoyww/AnimateDiff

书生·筑梦:支持故事性、多镜头的视频生成大模型

书生·筑梦(Intern·Vchitect)为首个支持故事性、多镜头的视频生成大模型,包含超过30亿参数,可提供多样化的高质量视频生成能力,赋能视频创作。书生·筑梦将AI生成视频时长由秒级提升至分钟级,并使所生成视频内容具备“转场流畅、故事连贯、画质高清”特质。凭借强大的语义、图像理解和生成能力,在多维度评测指标中综合领先。书生·筑梦已开源,并提供免费商用。


项目链接:https://github.com/Vchitect



AI for Science


浦科化学:大语言模型拓展科学研究路径

浦科化学(ChemLLM)作为首个科学大模型,依托浦语2.0的基础能力支撑,通过注入化学专业海量数据,在该领域显著超越GPT-3.5,迈出以大模型支持科学探索的重要一步。浦科化学现已开源,提供免费商用。


项目链接:https://huggingface.co/AI4Chem/ChemLLM-7B-Chat



应用研究&AI智能体


医疗多模态基础模型群浦医2.0升级

首个医疗多模态基础模型群浦医2.0(OpenMEDLab2.0),参数规模扩展至200亿,涵盖医学图像、医学文本、生物信息、蛋白质工程等10余种医疗数据模态,赋能合作医疗机构助力智慧医疗应用场景建设。首次加入多维基准评测模块,为医疗大模型提供客观的性能参考。


项目链接:https://github.com/OpenMEDLab

DriveLM:首个含图结构的“语言+自动驾驶”全栈开源数据集

DriveLM为首个含图结构的“语言+自动驾驶”数据集,覆盖自动驾驶全栈环节。借助多模态大语言模型和海量自然语言数据集,DriveLM助力构筑复杂场景下安全、精准、可解释的自动驾驶系统,推动构建下一代端到端自动驾驶技术进步。


项目链接:https://github.com/OpenDriveLab/DriveLM

OpenPAL:多模态交互智能体框架助推“人机共智”

多模态交互智能体框架OpenPAL在多人实时竞技环境中,首次验证了AI智能体在开放任务中的人机交互能力,在面对未知环境时可以实现“自我进化”。相较于此前智能体框架,其部署成本更低,将为人类提供更友好、更可靠的“AI队友”支持,助推“人机共智”。


项目链接:https://github.com/opendilab/OpenPAL



开源生态


OpenMMLab浦视GitHub星标数突破10万

OpenMMLab在GitHub平台星标数(Star)突破10万,已经成长为全球最具影响力的计算机视觉开源算法体系之一。目前,OpenMMLab累计开源了超30个算法库,拥有超400种算法实现和超3000个预训练模型。代码仓库总下载量超1700万次,用户遍及140多个国家和地区,涵盖全球多所顶尖高校、研究机构和企业。


主页链接:https://github.com/open-mmlab



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存