查看原文
其他

怎么办?不同系统的图数据无法交换!

DataFunSummit
2024-09-11

随着大数据时代的到来,图数据应用到了越来越多的领域,如图挖掘、图分析、图学习和知识图谱等。

然而,不同系统之间的数据交换和共享变得非常困难,因为每个系统都有自己的数据存储和交换格式。

为了解决这个问题,GraphAr项目诞生了。

GraphAr旨在为不同的内外图数据存储和交换场景提供一个灵活、可扩展的标准文件格式。

首要的挑战是设计一个通用的图存储文件格式,能够兼容不同的图数据模型。为此,GraphAr参考了不同系统的属性图数据模型,并设计了兼容性强的Schema。同时,GraphAr支持丰富的数据类型和属性,使用户可以灵活地表示和操作各种类型的图数据。

在底层,GraphAr应用了成熟的文件格式,如CSV、ORC、Parquet等,以便于与现有系统的集成和使用。此外,GraphAr还提供了点边数据的分块存储和索引功能,支持高效的图格式,如CSR/CSC,方便不同的单机和分布式图计算引擎、图数据库的加载、导入和导出操作。同时,GraphAr还支持在不修改payload文件的情况下进行一些常规操作,如添加新属性和增删改点等,以及自由组合不同类型的点和边来组织一个新的图数据。

除了文件存储,GraphAr还提供了一系列的查询接口,方便处理各种下游计算任务,如外存的图计算、图分析、图挖掘和知识图谱的查询等。

为了更方便地生成和转化现有的图数据,GraphAr还提供了Spark库,支持用户在Spark/Hadoop等非图计算引擎上进行图数据的处理和转化,同时提供了强大的ETL工具,适用于大规模图数据的处理。这使得用户可以在现有的计算框架中无缝地集成和处理图数据,提高数据处理的效率和灵活性。

2024年3月23日DataFunSummit2024:知识图谱在线峰会正式举办,在上午的大规模知识存储与计算论坛中,阿里巴巴高级开发工程师将带来GraphAr的全面介绍,欢迎参与!

峰会议程




峰会详情




① 知识获取与构建论坛

出品人:张亦弛 Shopee Marketplace Intelligence Listing Team Leader

个人介绍:张亦弛,现任电商平台 Shopee Marketplace Intelligence Listing 商品算法负责人,服务全球十余个市场的商品智能化识别,工作研究方向为电商领域知识图谱构建、自然语言处理和多模态技术在电商业务中的应用等。毕业于伦敦大学,学术论文曾发表在 BMVC / EMNLP / WSDM / CVPR 等国内外会议和期刊,出版专著一部。

张文 浙江大学 特聘研究员

个人介绍:张文,浙江大学软件学院特聘研究员,研究方向为知识图谱、图数据处理、大数据系统。在包括NeurIPS/KDD/WWW/IJCAI/AAAI/ICDE/ACM MM/WSDM等在内的国际顶级会议上发表多篇论文。主持国家自然科学基金青年科学基金项目、浙江省自然科学基金探索青年项目、宁波市自然科学基金探索一般项目。曾获国际知识图谱联合会议IJCKG最佳论文奖、最佳应用论文奖,浙江省科技进步二等奖等奖励。入选副省级市高层次人才引进计划、百度2023年度AI华人女性青年学者榜。

演讲题目:大语言模型与知识图谱:机会与挑战

演讲提纲:大语言模型实现了基于参数的隐式知识表示,这使得显式的知识表示方法逐渐向混合了符号化和参数化的表示方法迁移,本报告将从知识表示的视角介绍和讨论一些知识图谱和大语言模型融合的辩论点、机会、挑战、和研究点。

听众收益:

1. 知识计算社区针对大语言模型和知识图谱结合的辩论点

2. 语言模型和知识图谱结合的机会与展望

3. 语言模型和知识图谱结合关键研究点和相关挑战

郑鑫 Shopee MPI&D Senior Expert Engineer

个人介绍:郑鑫,南洋理工大学(NTU)计算机博士,有多篇一作论文发表在WWW/ EMNLP / CIKM / TKDE 等顶会和期刊,2项US专利。现任Shopee Marketplace Intelligence and Data 团队 Senior Expert Enginner,参与或负责众多Listing 基础数据建设及相关toB、toC的数据应用,如Global Category、 SPU、比价系统等,有多语言自然语言处理、多模态模型及知识图谱构建等经验。

演讲题目:电商知识图谱建设及大模型应用探索

演讲提纲:

1. 知识图谱概览

2. 电商知识图谱构建

3. 电商知识图谱应用

4. 大模型与知识图谱探索及展望

听众收益:

1. 电商知识图谱建设基本框架

2. 知识图谱在电商领域应用

3. 电商知识图谱与大模型的结合点

扫码免费报名

② 知识增强与推理论坛

出品人:王文广 达观数据 创新产品部 副总裁

个人介绍:高级工程师职称,浦东新区“明珠计划”菁英人才,曾获得广东省科技进步奖二等奖,上海市计算机学会科技进步奖二等奖和上海市浦东新区科技进步奖二等奖。人工智能标准编制专家,《知识图谱:认知智能理论与实战》作者,参与编撰《智能文本处理实战》,《新程序员 * 人工智能新十年》顾问专家和文章作者,专注于知识图谱、通用人工智能 AGI、大模型、AI 大工程、NLP、认知智能、强化学习、深度学习等人工智能方向。上海市人工智能技术标准化委员会委员、上海科委评审专家、中国计算机学会(CCF)高级会员、中文信息学会(CIPS)语言与知识计算专委会委员、中国人工智能学会(CAAI)深度学习专委会委员。申请有数十项人工智能领域的国家发明专利,在国内外知名期刊会议上发表有十多篇学术论文。曾带队获得国内国际顶尖算法竞赛 ACM KDD CUP、EMI Hackathon、“中国法研杯”法律智能竞赛、CCKS 知识图谱评测的冠亚季军成绩。曾获 BroadView2023“技术成长领路人”、2022 年度电子工业出版社博文观点“优秀作者”等称号,2021 年度浦东职工科技创新英才优秀奖。被聘为上海市质量和标准化研究院培训中心企业标准化总监高级研修班教课讲师,高校学生人工智能训练营(同济大学)特邀企业导师,浙江大学中国数字贸易大讲堂讲师团专家。在达观数据致力于将自然语言处理、知识图谱、计算机视觉和大数据技术产品化,以 OCR、文档智能处理、知识图谱、RPA 等产品服务于金融、智能制造、贸易、半导体、汽车工业、航空航天、新能源、双碳等领域。

杨成 北京邮电大学副教授

个人介绍:杨成,北京邮电大学副教授,长期从事数据挖掘和自然语言处理相关方向的研究,发表相关领域CCF A类论文30余篇,谷歌学术被引九千余次,相关成果获2020年教育部自然科学奖一等奖(排名第四)等省部级奖励。曾获中文信息学会优秀博士论文奖,先后入选百度发布的首届“AI华人青年学者百强” 榜单、第九届中国科协“青年人才托举工程”。

演讲题目:面向开放任务场景的图模型与大语言模型对齐

演讲提纲:ChatGPT等大语言模型展示了强大的零样本学习和指令跟随能力,可以有效服务于由自然语言描述的各类开放式任务。然而在图结构数据的分析领域,图神经网络等图模型受限于节点分类、链接预测等预定义形式的任务,如何适应更加通用的开放任务场景仍亟待探索。为此,我们提出了GraphTranslator来连接预训练好的图模型和大语言模型,其中图模型负责预定义任务,大语言模型作为图模型的扩展接口来处理各种开放式任务。为了训练GraphTranslator,我们设计了一个能够自动构建节点-文本对齐数据的Producer,对齐数据中包括节点信息、邻居信息和模型信息。通过将节点表示翻译成token,GraphTranslator赋予了大语言模型根据语言指令进行预测的能力,为预定义和开放式任务提供了统一的解决方案。

听众收益:

如何面向图数据分析场景使用大语言模型?

图神经网络模型如何与大语言模型相结合?

郑志彤 OPPO AI中心大模型算法部 首席算法架构师

个人介绍:现任AI中心大模型算法部首席算法架构师,曾任数智系统机器学习TMG主任和小布多模态负责人。2020年加入OPPO,参加软件商店首页攻坚,贡献2个多点ARPU值提升,当年指标超越头条;随后负责机器学习部,负责并完成了StarFire项目,构建了云原生机器学习平台和部门架构;之后调入小布智能中心,负责多模态学习,短时间搭建了多模态预训练团队、虚拟人团队和StarLite团队,完成了小布AIGC等项目;在AI中心,主导了codeLLM和dataLLM的研发,参与了RAG项目研发,其中code和data指标达到SOTA。在机器学习相关领域有十几年的经验,对CV、NLP、语音、推荐系统、大模型和多模态等算法有深刻认知和实践,十分关注通用智能的发展并有一套自己的理论。学历硕士,毕业于清华大学。

演讲题目:codeLLM和RAG技术在OPPO的探索

演讲提纲:

1. LLM的缺陷与领域知识。

2. codeLLM与dataLLM技术创新。

3. RAG技术落地。

4. 展望LLM与符号化知识的结合。

听众收益:

1. 如何训练好的codeLLM;

2. codeLLM如何落地到业务场景;

3. RAG如何落地到实时信息等场景。
扫码免费报名

③ 大规模知识存储与计算

出品人:曾立 华为 GTS—AI算法部 数据智能计算专家

个人介绍:本科和博士毕业于北京大学计算机科学技术专业,在图处理领域有九年多的实践经验,主导研发过图数据库系统gStore、电信图查询引擎、分布式图学习加速组件,将亿级电信网络的图查询和图学习性能提升至行业标杆TigerGraph和DGL的2倍以上,内存占用降低一半。当前负责图技术探索及大模型全栈加速。

范志东 蚂蚁集团 图计算开源负责人

个人介绍:蚂蚁图计算开源负责人,专注于TuGraph的开源技术演进、社区运营和商业化等工作。先后就职于腾讯、阿里云、蚂蚁,从事大数据平台、云数据库、图计算相关的产品设计和技术建设。在分布式计算、数据安全管理、数据中台架构、开源布道等领域有丰富的开发和实践经历,目前专注于TuGraph的开源建设与技术合作。

演讲题目:蚂蚁TuGraph计算引擎技术架构与应用

演讲提纲:

● 蚂蚁TuGraph计算引擎发展历程与建设背景。

● TuGraph计算引擎的架构设计与技术原理。

● TuGraph计算引擎的应用场景与建设规划。

听众收益:

● TuGraph图计算引擎的设计、实现和应用价值。

● 如何实现流计算、批处理、图计算一体化执行能力。

● 大规模图计算的典型应用场景与未来思考。

曾维彬 阿里巴巴 高级开发工程师

个人介绍:北京航空航天大学计算机硕士,目前在阿里巴巴通义实验室任高级开发工程师,负责一站式图系统 GraphScope 和 图数据存档格式 GraphAr 的开发。

演讲题目:GraphAr: 开源的标准化图存储文件格式

演讲提纲:本次演讲主要介绍标准化图存储文件格式GraphAr的设计和特性,当前开源社区的发展以及在图数据和知识图谱场景下的应用前景

1. 背景:图计算的生态和文件存储

介绍GraphAr设计的背景和Motivation

2. 标准化图存储文件格式GraphAr

- 设计与特性

- 对比其他格式的优点(一些性能对比)

3. GraphAr 的应用与开源社区发展

4. GraphAr 在知识图谱下的应用前景

听众收益:

1. 了解大数据场景下图数据和知识图谱数据的存储

2. 专门用于大规模图数据和知识图谱数据的标准文件格式是什么样的?

3. 了解如何高效地提升数据湖中图查询的能力

扫码免费报名

④ 知识问答与检索论坛

出品人:刘焕勇 360人工智能研究院 资深算法专家

个人介绍:360 人工智能研究院资深算法专家、知识图谱方向负责人,“老刘说 NLP”公众号作者,曾就职于中国科学院软件研究所。主要研究方向为大模型数据挖掘与知识增强、领域知识/事件图谱的构建与落地应用,主持或参与研制全行业事理图谱、百科图谱、知识图谱平台、事件情报分析、右侧推荐、大模型研发等落地项目,申请发明专利十余项、论文数篇。近年来在OGB-Wikikg2、CCKS 多模态实体对齐、可解释类案匹配等评测中获得多项冠亚军。致力于自然语言处理技术开源共享,在 github开源项目60+,收获star数超 2W+。

演讲题目:知识图谱增强在360文档知识问答及管理中的应用实践

演讲提纲:当前,为缓解大模型在特定领域问答场景中的幻觉问题,检索增强生成(RAG)作为一种外挂输入的范式受到广泛关注。本文主要介绍360文档云在围绕知识管理场景下做的应用实践,涉及到如何对文档进行标准化、层次化、结构化等处理操作;如何较好地召回知识库输入到大模型;如何将知识图谱纳入到回复的逻辑以提升等多个方面的内容。

1、360文档云在知识管理/问答中应用场景

2、知识图谱在文档标准化、层次化、结构化中的应用

3、知识图谱在文档知识检索增强问答中的应用

4、知识图谱与大模型在文档场景下的挑战及展望

听众收益:

1、了解当前业界在文档云盘场景下的一些落地经验;

2、了解知识图谱在文档问答/管理场景中的一些技术坑点;

3、了解知识图谱增强大模型的一些现实问题及挑战;

杜振东 云问科技 NLP研究院算法负责人

个人介绍:云问科技NLP研究院负责人,拥有8年机器学习与文本挖掘相关技术经验,6年中文自然语言处理相关项目实战经验,擅长运用NLP前沿技术解决真实项目。在意图识别、新闻推荐、多轮人机交互领域有数年实战经验。参与百万级用户金融资讯新闻推荐项目,作为算法主要负责人及整体框架设计者,主导全新智能新闻推荐系统的落地,并优化线上推荐算法,整体线上相较原有系统精度提高10%。主要设计面向任务驱动的多轮对话引擎,主导参与搭建NLP底层能力平台,为企业提供底层能力的服务输出。参与多家企业问答机器人系统、知识图谱系统搭建,针对集团型知识管理与问答效果优化有丰富实战经验。参与制定国家人工智能标准化总体组《人工智能标准化与开源研究报告》;参与制定中国电子工业标准化技术协会《信息技术 人工智能 智能助理智能能力等级评估》;编写书籍《会话式AI》与《ChatGPT原理与实战》;入选国家标准委人工智能专家及AIIA人工智能技术专家。

演讲题目:工业知识图谱进阶实战

演讲提纲:介绍图谱前沿知识如何在工业应用场景落地。

听众收益:

1.工业图谱schema如何设计

2.三元组无法支撑的业务场景如何支撑

3.LLM与KG的结合方式

鄂海红 北京邮电大学 计算机学院(国家示范性软件学院) 北京邮电大学教授,博士生导师,教育部信息网络工程研究中心副主任

个人介绍:鄂海红,北京邮电大学教授,博士生导师,教育部信息网络工程研究中心副主任,中国科学技术情报学会科研诚信建设工作委员会副主任委员,中国计算机学会数据治理发展委员会执行委员。主要研究知识图谱与大模型协同的数据要素治理和复杂推理决策。累计主持国家重点研发计划课题、国家自然科学基金项目以及省部级课题、企事业合作项目30余项。累计发表EI/SCI高水平学术论文100余篇,获国家发明专利授权81项,专利许可实施21项。科技创新成果已在医疗健康、科技服务、金融、政务等多个行业实现规模化商用,超关系层次化知识图谱构建、推理与问答技术在多家医院临床决策支持系统(CDSS)落地应用,获聘北京市昌平区首批“科技副总”,荣获中国商业联合会中国服务业创新奖特等奖,教育部高等学校科学研究优秀成果奖进步奖二等奖,中国计算机学会科技成果奖技术发明一等奖,中国通信标准化协会科学技术奖三等奖。

演讲题目:大模型时代知识图谱赋能高血压智能诊疗实践

演讲提纲:数据是信息的来源,信息是知识的载体,知识是智能的根本。大模型时代,知识图谱与大模型的互补融合为解决垂直领域复杂决策问题打开了新的思路,为垂域AI的实现提供了更好的智能基座。本报告介绍了知识图谱构建、推理与问答技术在高血压智能诊疗场景的一些探索与实践,首先以精准用药决策问题为例阐明了高血压诊疗的本质是基于知识的复杂决策任务,并介绍了当前医学与通用大模型在该问题上的局限与不足。然后从知识图谱建模、推理与问答三个方面递进讲解超关系层次化知识建模、神经符号精准推理与大模型驱动的可解释智能问答相关工作,有效提升高血压智能诊疗的科学性、精准性与可解释性。最后,介绍了相关技术在临床决策支持系统(CDSS)等场景的落地应用情况,并探讨LLM+KG在知识图谱构建、推理与问答方向的可能路径。

听众收益:

1.如何构建高质量的垂直领域知识图谱?

2.知识图谱推理技术如何支撑医学领域复杂决策任务?

3.大模型如何赋能知识图谱问答?

王为磊 智慧芽 研发部 搜索与算法总监、首席科学家

个人介绍:目前在智慧芽信息科技(苏州)有限公司任职搜索与算法总监,首席科学家。曾经获得过姑苏高层次人才,苏州园区紧缺人才等;发表国际核刊论文10多篇,专利30余篇,曾参与研发了国家火炬计划一项,主持国家科研项目一项,江苏科技计划项目一项,苏州重点产业科技创新等多个项目。目前主攻:专利情报挖掘,专利搜索,基于大模型的专利理解与生成等方向。目前研发的基于1.8亿专利文本为主的专利大模型(PatentGPT),在专利撰写、专利对比等产品里得到应用,取得客户高度认可,针对专利大模型,2023 受邀参加世界人工智能峰会,做“专利大模型的实践与探索”主题报告;受邀参加“中国2023知识产权年会”, 做“专利大模型在知识产权的应用”主题报告。

演讲题目:专利大模型的实践与知识问答探索

演讲提纲:

1. 专利大模型介绍

2. 专利大模型的训练过程

3. 结合RAG的实践

听众收益:

1.垂直大模型必要吗?一般是如何训练的。

2. 结合RAG能解决什么问题

3. RAG的核心点是什么?为什么perplexity.ai会围绕这个来做。

扫码免费报名

⑤ 大模型与知识图谱论坛

出品人:孙常龙 阿里巴巴资深算法专家

个人介绍:孙常龙,阿里巴巴通义实验室NLP应用算法负责人,拥有多篇授权专利,在顶级会议发表论文30余篇,承担国家科技部重点研发项目多项,带领团队在多项的国内外评测比赛中获得第一名,曾获高等学校科学研究优秀成果奖(科学技术)科技进步一等奖。研究方向包括机器学习、自然语言理解、文档理解等。在技术赋能业务方面,深入司法、通信、互联网等垂直领域的智能化建设,首创了司法全流程智能化审判系统,该智审模式2022年纳入社科院《法制蓝皮书》,构建了法律垂直大模型通义法睿,已经落地多家法院。

孙佩霞 中国电信研究院 AI研发中心 智行云网大脑技术负责人

个人介绍:主要负责网络运营知识图谱建设,图谱检索,推荐,对话机器人,网络运营大模型相关技术架构。参与过IEEE P2807知识图谱国际标准撰写。国家知识图谱标准撰写,AIIA大模型,智能决策标准撰写。

演讲题目:网络大模型与知识图谱在网络运营中的结合应用

演讲提纲:介绍电信网络运维领域事件知识图谱构建,知识图谱检索推荐,知识交互等应用。

1电信网络运营场景介绍。

2网络大模型的介绍。

3网络大模型与知识图谱结合应用。

4展望。

听众收益:

靓点1:通过网络大模型在网络运营中应用,提升网络自智等级。

靓点2:网络大模型与知识图谱结合提升智能化水平。

陈玉博 中国科学院自动化研究所 副研究员

个人介绍:陈玉博,中科院自动化所副研究员,研究方向为自然语言处理和知识图谱,在ACL、EMNLP、AAAI 等国际重要会议和期刊发表学术论文40 余篇,Google Scholar引用量5200余次,其中两篇论文入选ACL、EMNLP高影响力论文(Paper Digest评选),获ISWC 2023(CCF-B类)最佳张贴论文奖。出版学术专著两部《知识图谱》、《知识图谱:算法与实践》,由人工智能学会推荐入选十三五国家重点图书出版规划教材。连续多年在中国科学院大学主讲《知识图谱》课程,2021 年获得中国科学院大学优秀课程。主持国家自然科学基金面上项目、青年基金项目,参与国家自然科学基金重点项目、2030新一代人工智能重大项目、重点研发计划课题。主持研发的信息抽取和知识图谱构建系统多次获得国际/国内学术评测冠亚军。入选2020 年第五届中国科协青年人才托举工程、2022 年百度全球华人AI 青年学者、2022 年中国科学院青年创新促进会会员、担任中国中文信息学会青年工作委员会秘书长、COLING 2022领域主席、Data Intelligence编委等。获2018 年中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖,2019 年度北京市科学技术进步奖一等奖。

演讲题目:预训练语言模型中的知识分析、萃取与增强

演讲提纲:近年来,大规模预训练语言模型在知识密集型的自然语言处理任务上取得了令人瞩目的进步。这似乎表明,预训练语言模型能够自发地从语料中学习大量知识,并隐式地保存在参数之中。然而,这一现象的背后机理仍然萦绕着许多谜团。语言模型究竟掌握了哪些知识,如何提取和利用这些知识,如何用外部知识弥补模型不足,这些问题都亟待进一步探索。该报告将重点介绍预训练语言模型知识分析、知识萃取、知识增强等领域的基础知识和近期研究进展。

听众收益:

1.预训练语言模型中蕴含哪些知识?

2.如果从预训练语言模型中萃取知识?

3.如何增强预训练语言模型的知识?

张宁豫 浙江大学 副教授

个人介绍:张宁豫,浙江大学副教授,博士生导师。研究方向包括知识图谱、自然语言处理等,在知识图谱和自然语言处理领域已发表多篇顶级会议和期刊文章,包括ACL、EMNLP、NAACL、NeurIPS、ICLR等,五篇论文入选Paper Digest高影响力论文,获浙江省科技进步二等奖,国际会议IJCKG最佳论文/提名2次,CCKS最佳论文奖1次;担任ACL、EMNLP领域主席、ARR Action Editor、IJCAI 高级程序委员、ACM Transactions on Asian and Low-Resource Language Information Processing Associate Editor及NeurIPS、ICLR、ICML等会议程序委员会委员。

演讲题目:从知识图谱的视角看大模型知识编辑问题

演讲提纲:大模型是人工智能领域的一次重大突破,其成功也揭示了大规模参数化神经网络在习得和刻画世界知识上的巨大潜力。其通过将海量的、以文本序列为主的世界知识预先学习进神经网络中,并实现在参数化空间对知识进行处理和操作。知识编辑旨在通过对大模型进行精准、轻量的操作,实现对知识谬误的修正,为可信、可控、可靠的大模型应用提供了支持。本次报告将从知识图谱视角剖析现有大模型知识编辑问题,并重点分析知识冲突、知识扭曲现象和概念知识编辑问题。

听众收益:

1.什么是大模型知识编辑?

2.大模型知识编辑的知识冲突和知识扭曲现象

3.大模型概念知识编辑问题

4.开源大模型知识编辑工具EasyEdit

蒋卓人 浙江大学 信息资源管理系 “百人计划”研究员

个人介绍:浙江大学“百人计划”研究员,博士生导师。已在国际国内重要刊物或会议上发表60余篇高质量学术文章。主持包括国家自然科学基金、科技部重大专项子课题、国家社科重大项目子课题、国家自科重点项目子课题在内的十余项课题。担任中国人工智能学会青工委委员、中文信息学会青工委委员,以及信息检索、情感计算、社会媒体处理专委会委员。曾任阿里巴巴达摩院语言技术实验室顾问;曾获得2013年ACM/IEEE-CS Joint Conference on Digital Libraries(JCDL)Best Poster Award和多项人工智能和数据算法国际比赛冠军。研究方向包括计算社会科学,自然语言处理,信息检索。

演讲题目:利用大语言模型促进综合图学习能力

演讲提纲:虽然大语言模型已经展现出了其纯文本推理能力,但其是否可以泛化到图的学习上还未被充分探索。在本次演讲中,我们将初步回顾一下大语言模型在图上的技术应用。具体的,我们从图学习的不同场景以及大语言模型在图学习中的不同角色等角度对相关文献进行了总结。我们发现大语言模型为图上跨领域跨任务的统一学习框架发展提供了机会。最后,我们将总结在这个快速发展领域的潜在研究方向。

听众收益:

- 了解适应大语言模型的图学习的研究现状。

- 如何利用大语言模型促进跨领域数据源和不同学习任务的图学习。

- 了解这个领域的潜在研究方向。

梁家卿 复旦大学 大数据学院 青年副研究员

个人介绍:梁家卿博士,复旦大学大数据学院青年副研究员,主要研究方向为基于知识图谱与大模型的认知智能。在国际顶级学术会议与期刊(包括TKDE,AAAI,IJCAI,ICDE等)发表论文50多篇。在应用落地方面,作为技术负责人研发并公开发布了多个知识图谱与大模型应用平台如CuteGPT、Emo-CuteGPT、CN-DBpedia、ProbasePlus、CN-Probase、“不倒翁”智能问答等,相关产品API被工业界与学术界多家单位已调用累计17亿次以上,并形成了16个专利。有成功训练百亿参数量级别模型的经验和在大规模集群上训练千亿参数量级别模型的经验。先后在国际性的“知识库构建”比赛中荣获第二名;在中国计算机学会和中国中文信息学会的主办的语言与智能技术竞赛“信息抽取”比赛中荣获第一名。主持研发的情感增强大模型 CuteGPT 在上海卓辰信息科技有限公司(帮助其情报信息知识抽取准确率达到 90%以上)、上海双地信息系统有限公司(帮助其开发了内容管理产品“小孔商业智能AI助理”)、上海光唯文化传媒有限公司(应用于其客户在新产品研发业务,新产品销售额超过千万元)等单位实现了落地应用。并且曾获ACM-ICPC区域赛金牌、TopCoder Open全球前150名、吴文俊人工智能科学技术奖科技进步奖三等奖、上海市优秀博士毕业生、上海市计算机学会优秀博士论文、华为云最佳论文复现奖、复旦大学超级博士后、上海市超级博士后、中国博士后科学基金面上资助、国家自然科学基金青年基金资助。

演讲题目:领域大模型的挑战与机遇:从构建到应用

演讲提纲:目前,GPT-4等大规模的预训练语言模型(以下简称大模型)已经获得了惊人的效果,促成了新的人工智能应用范式。然而,由于其开放性和幻觉现象,大模型在领域落地仍然遇到了诸多挑战。

事实上,大模型仍不足以也不应当整个替代现有的领域中的工作流程,而应当作为强大的人工智能工具融入其中。为此,准确定位大模型在现有工作流程中的角色和针对性地构建和增强就成为了重要的任务。

本演讲从大模型的领域适配、能力提升和协同工作三个层次,介绍和分享本团队在领域大模型构建和落地的一些实践。其目的并非提升模型的“智商”或使其在MMLU等考试中获得更高的分数,而是如何融入和赋能现有的领域应用中的工作流程,使其真正产生价值。

听众收益:

1. 大模型是否终结了知识工程?

2. 大模型和专业领域中的知识如何进行结合?

3. 大模型在领域应用中应当扮演什么角色?

4. 大模型在领域落地中遇到了哪些困难?如何一定程度缓解?

扫码免费报名

⑥ 多模态知识图谱论坛

出品人:李直旭 复旦大学 研究员、博导

个人介绍:李直旭,复旦大学计算机科学技术学院研究员、博士生导师,上海市数据科学重点实验室主任助理,复旦大学知识工场实验室执行副主任,曾兼任科大讯飞苏州研究院副院长,博士毕业于澳大利亚昆士兰大学,主要研究方向为认知智能与知识工程、多模态知识图谱、大数据分析与挖掘等。在领域主流期刊和国际会议上发表论文150余篇,主持十余项国家和省部级科研项目。

刘铭 哈尔滨工业大学 计算学部 教授/博士生导师

个人介绍:刘铭,教授/博士生生导师,哈尔滨工业大学计算学部。先后主持国家重点研发计划项目(课题)、国家自然科学基金、中国博士后科学基金特别资助等多项基金项目。任黑龙江省自然语言处理专委会副主任。获黑龙江省科学技术一等奖,哈尔滨市科技成果,第六届全国青年人工智能创新创业大会一等奖。担任多个国内外知名会议的领域主席和程序委员会主席。

演讲题目:多模态知识图谱构建初探

演讲提纲:报告分两部分:1)介绍当前知识图谱中条件知识缺少的情况,并提出一种事实和条件联合抽取方法,2)围绕多模态知识图谱构建介绍一些多模态实体和关系抽取的方法。

听众收益:

1.给出当前知识图谱中条件知识缺失的情况

2.提出一种事实知识和条件知识联合抽取的方法

3.提出多模态实体和关系抽取的一些启发性方法

刘孟洋 腾讯TEG 算法工程师

个人介绍:香港城市大学博士学位,腾讯高级算法工程师,5年计算机视觉从业经验,现从事文生视频算法研究工作。研究方向包括视频生成,图像生成,多模态,视频表征学习,大规模视频检索系统等。曾参与构建十亿级视觉检索系统,服务于视频去重,版权保护等。

演讲题目:扩散模型与文生视频

演讲提纲:近年来扩散模型在视觉生成领域大放异彩,跨模态对齐技术让文本控制生成成为可能,文生图以及文生视频领域迎来飞速发展。本次分享将主要介绍文生视频近期的主流方法,以及我们在画质提高、语义一致提升上的一些探索。同时也会介绍一些有趣的应用实践,以及一些可能并不会太长期的展望。

听众收益:

1. 如何用扩散模型实现文本控制生成?

2. 如何提高生成内容和文本的语义一致性?

3. 除了文本还能用什么控制生成呢?

4. 知识图谱如何提升文生视频?

蔡毅 华南理工大学 教授

个人介绍:华南理工大学软件学院院长,教授,博导;大数据与智能机器人教育部重点实验室主任、香港裘搓基金访问学者。现为中国计算机学会杰出会员、自然语言处理专委会常委、数据库专委会、信息系统专委会执行委员;中国中文信息学会语言与知识计算专委会委员、情感计算专委会执委、社会媒体计算专委会委员;广东省计算机学会大数据专委会副主任、数字经济专委会副主任。曾获得多个学术奖项,包括2019年47届日内瓦国际发明展银奖,2019年广东省科技进步二等奖,2018 中国计算机学会科学技术奖技术发明二等奖等,在 IEEE TKDE、IEEE TMM、IEEE/ACM TASLP、IEEE Transactions on Affective Computing、AAAI、ACL、ACM MM、SIGIR、EMNLP、COLING等多个顶级国际期刊和会议上发表论文200多篇。担任NLPCC 2023组织主席, APWeb-WAIM 2021大会主席,ICEBE 2021、IEEE DSC 2020和 APWeb-WAIM 2018程序委员会主席,CCKS 2020工业论坛主席,国际学术期刊IEEE/ACM TASLP副主编,CMC-Computers, Materials & Continua副主编,Natural Language Processing Journal编委。

演讲题目:基于多模态数据的命名实体识别和关系抽取

演讲提纲:命名实体识别(NER)和关系抽取(RE)是知识图谱构建任务中的两个基本子任务。最近的研究表明视觉模态信息可以为文本提供补充性的上下文信息,从而提升命名实体识别(NER)和关系抽取(RE)的性能。在本次演讲中,我们将介绍一系列多模态命名实体识别(MNER)和多模态关系抽取(MRE)模型。

听众收益:

1.多模态命名实体识别

2. 多模态关系抽取

3.多模态命名实体和关系联合抽取

扫码免费报名
继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存