对于科学研究和工业研发来说,深入阅读和分析文献都是一项关键却耗时的任务。深势科技推出的 Uni-Finder 正在改变这一局面。这个革命性的智能文献数据库平台,不仅提供高效的多模态检索功能,还能通过先进的自然语言交互技术灵活提取关键数据,大大优化了科学文献的理解和分析过程。
在科研活动中,科学文献的阅读和分析是一个至关重要但极为耗时的步骤。以药物研发为例,研究人员需要阅读大量文献来分析特定靶点的关键作用区域,收集活性小分子的数据等。这一过程虽关键,却往往需要耗费大量的时间和人力资源。传统的科学文献数据库,如 SciFinder,尽管提供了检索功能,却依旧让研究人员不得不人工筛选和阅读大量文献。此外,尽管像 ChatGPT 这样的大型语言模型在处理自然语言方面表现出色,但面对含有分子结构图、化学反应式等多模态元素的科学文献时,它们却显得力不从心。针对这一挑战,深势科技推出了革命性的智能科学文献数据库平台 Uni-Finder,旨在进一步提升科学文献的阅读和分析效率。该平台不仅具备传统数据库(例如 SciFinder)的多模态检索功能,还能通过自然语言交互,在筛选结果中灵活且自动化地提取所需信息,如多个专利的共同中间体或与特定靶点相关的小分子活性数据。此外,由于其对科学多模态元素的精确理解,Uni-Finder 在科学文献的内容理解和问答方面的性能也优于其他大型语言模型。
Uni-Finder 的核心技术是深势科技自研的科学多模态大模型 Uni-SMT(Universal Science Multimodal Transformer)。不同于之前仅关注纯文本的大型语言模型,Uni-SMT 综合考虑了科学文献中的多模态元素,如图表、数学方程、分子结构表示和化学反应方程式等。它运用多模态对齐技术,实现了对科学文献的更全面和精确理解。例如,对于某些专利,Uni-SMT 能够通过多模态对齐技术同时理解 markush 式(带有可变基团的化学分子式)和文本中对可变基团的描述,从而精确地识别和解析专利的保护范围。
为了评估 Uni-Finder 在多模态元素理解方面的性能,我们将其与目前市场上流行的基于大型语言模型的文献分析工具进行了横向对比。比较的工具包括 ChatPDF, Claude 以及 GPT-4。我们的评测重点集中在几个关键功能上:分子结构图的识别、综合多模态信息的文献理解,以及判断特定分子是否受到专利中的 Markush 结构保护。从下表的评测结果(详见后续截图)可以看出,Uni-Finder 在处理和理解这些多模态元素方面表现出色,而其他基于传统大型语言模型的工具则大多未能准确理解这些元素。
随着信息时代文献数量的激增,科研人员在文献阅读和分析上花费大量时间,这影响了他们专注于核心研究的时间。Uni-Finder 应运而生,融合先进的多模态文献理解和灵活的自然语言处理技术,极大地提高了文献检索和分析效率。借助 Uni-Finder,科研人员可更高效处理科学文献,节省宝贵时间,集中精力解决科研难题。在一个模拟药物研发场景中,我们演示了 Uni-Finder 如何有效提高研究效率。研究人员关注SOS1靶点时,可通过 Uni-Finder 查询 SOS1 相关疾病和结直肠肿瘤信息。这为他们提供了关键科学知识,为后续研发工作打下了坚实基础。研究人员还可利用 Uni-Finder 的高级检索功能深入探索。选择“SOS1”靶点标签后,Uni-Finder 快速展示相关专利,证明了其在精准检索和信息筛选上的卓越性能。接着,研究人员对市场和科研趋势进行了全面分析。他们查看过去10年 SOS1 靶点的专利趋势,获取了市场动态和竞争环境的深刻洞察,辅助研发策略制定。通过 Uni-Finder 的跨文献分析,如骨架聚类,他们了解了该领域的最新进展和创新方向,为新药设计和开发提供了科学指引。最后,研究人员可深入分析特定专利。他们可以方便地审视保护的分子结构,提取高活性的实施例,并详细查看了特定实施例的信息。值得一提的是,通过上传分子结构图,并与 Uni-Finder 进行互动式对话,研究人员能够准确判断特定分子是否受当前专利保护。这一系列复杂分析突显了 Uni-Finder 在药物研发领域的强大实用性。一名药物研发领域的内测用户在试用了两周后表示:“Uni-Finder 基于便捷的对话式交互,能够在不超过10秒的时间内,就能够精准提供专利实施例中所使用的共有中间体,或者是活性最佳的实施例的编号及其结构;在一些复杂的专利和文献调研任务中,Uni-Finder 在几分钟内给出的信息,甚至堪比两名博士生调研一周的工作成果。”Uni-Finder 现在也开放了更大范围的测试,如果您对 Uni-Finder 感兴趣,欢迎扫描下面的二维码(或点击文末的“阅读原文”)申请试用。
深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和多尺度的模拟仿真算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。
我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®科研云平台、Hermite®药物计算设计平台、RiDYMO®难成药靶标研发平台及 Piloteye™电池设计自动化平台等工业设计与仿真基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式。
深势科技是国家高新技术企业、国家专精特新“小巨人”企业,总部位于北京,并在上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。