查看原文
其他

原来,知识图谱是“找关系”的摇钱树?

亲爱的数据 亲爱的数据 2023-03-26



图文原创:谭婧

全文审核专家:朱小坤



知识图谱,英文名Knowledge Graph,是一种非结构化数据,属于图数据。


这里被称为“图”的东西,不是图画的图,而是图论的图。知识图谱数据模型的数学基础源于“图论”。


简单说,是把零散的信息有效地组织起来,把纷繁复杂的数据变成有用的知识,这是知识图谱的意义。


下图为,中文医学知识图谱示意



知识图谱有顶点(Vertex)和边(Edge),是关联数据的高度抽象。


顶点和边可以带有属性,能表示出不同的“关系”。



(一)如何“建”知识图谱?

 

建大型知识图谱,可是个系统工程。


人类学知识也是从词汇开始,机器也一样,词汇本身也是比较简单的“知识”。


从信息中“抽取”知识,一定得是一个自动化技术,靠人工太累了。



从文本中抽取,自然语言处理技术(NLP)。


为了提高性能,技术能力强的厂商,会用到NLP大杀器——“预训练大模型”。


而除了文本之外,企业有很多数据,图片,音频,视频,交易记录等,会用多模态技术,这种技术的能力更强一些,技术难度也更高。


简单讲,计算机视角下,图片和文本,都是不同的“模态”,所以是“多模态”。

 


从多模态信息中得到一批非结构化数据(文本、图像、视频、语音)中包含的信息,自动抽取并建立关系,形成知识图谱。


知识图谱上阵后,机器认识了“全面屏”手机,也能认识“曲面屏”手机


机器能在电影的上下文里认出《长津湖》是影片名,在歌手李健的上下文里理解《贝加尔湖畔》是歌名,虽然这两个词又都是地名。


这时候,机器学会了举一反三。



(二)电商公司,怎么干活?

 

电商痛点之一是商品,用户等关系刻画不准确。


巧了,知识图谱能精准刻画属性和关系,令运营和管理精细化。

 

电商建知识图谱先得“看懂”“商品,锅碗瓢盆都分不清,很尴尬。


为了看懂商品,引入“商品标签”。



商品标签是“知识理解”后的产物,也是对上面说到的多模态数据的提炼和抽象。


标签是商品知识的一部分,标签为商品之间“建立关系”贡献了力量。


那些有相同标签的商品就能连起来了,也就有了“关系”。商品标签越多,知识越丰富。

 

除了标签之外,商品之间会有一种天然的关系,是“品类”,而且商品类别会有多级。




举一个真实的例子,京东商城的品类太多了,会用到一种黑科技:用热门品类的标注数据,迁移到冷门品类。


黑科技背后会有顶级学术会议的论文来支持。也就是说机器理解了一些常见热门商品品类,接着,又“有如神助”般地多学会了一些少见的商品品类。


这样,机器成为了认识“商品品类”的小能手。

 

看懂商品名称是基本功,若连商品标签都不够准确和精细,后续的电商运营策略和方法很难做好,成了“拔错萝卜,带错泥”。


日后会被电商运营同学吐槽:我厂AI技术水平有待提高。


其实,算法工程师没闲着,一日复一日,年复一年,都在用算法提高准确度,尽量把模型设计的“聪明点”。



(三)知识图谱+深度学习技术,什么原理?

 

知识图谱离不了数学方法。


通过图表示学习的方法,把顶点和边都用数值化的向量来表示,映射到欧式空间里面计算距离。

 

用距离衡量“关系”,

距离近,关系近。

距离远,关系远。

 

这样,可以把一些隐藏关系给找出来。


头部国内电商企业对知识图谱的应用大约五六年前起步,均在2021年左右建成超大规模电商知识图谱。阿里巴巴有“藏经阁知识引擎”,京东有“知识大脑”。


如今,国内头部电商动不动好几亿用户,50亿以上商品相关实体,知识图谱能够达到非常大的规模,能做到覆盖零售全站商品和用户。


连这个研究方向博士也惊叹:“之前,没处理过这么大的图”。


构建大规模、高精度的知识图谱,需要投入很大的人力物力财力,但是用好了能创造很大的商业价值。


假如一个电商收入一百亿,利用知识图谱提升1%的收入,就是多赚一个亿,摇钱树,非他莫属。


最后补一点,其实,知识图谱技术,很多人天天在用。


因为搜索引擎早已离不开知识图谱了,当你轻点鼠标,查找某个问题,搜索会结合知识图谱技术。


  


有两本好书推荐:


1.《知识图谱:概念与技术》(肖仰华等著)一书,多位专家推荐给我。


2.《图深度学习:从理论到实践》(颜伟鹏,包勇军,朱小坤,姚普主编)。


这本书中的作者们,会在我之前一篇文章中《京东零售:北极星永远指北》见到他们。


(完)



全文审核专家:


更多阅读


漫画系列

1. 万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛逼症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,人工智能算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓



AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨贾扬清独家专访(二)


DPU系列:

1.造DPU芯片,如梦幻泡影?丨虚构短篇小说

2. 永远不要投资DPU?

3. DPU加持下的阿里云如何做加密计算?

4.哎呦CPU,您可别累着,兄弟CIPU在云上帮把手


其他:

1. 我怀疑京东神秘部门Y,悟出智能供应链真相了

2. 超级计算机与人工智能:大国超算,无人领航

3. 隐私计算:消失的人工智能 “法外之地”

4. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?

5. 两大榜单揭晓啦,2021年中国高性能计算机性能TOP100+国际人工智能性能排行榜AIPerf500



最后,再介绍一下主编自己吧,

我是谭婧,科技和科普题材作者。

为了在时代中发现故事,

我围追科技大神,堵截科技公司。

偶尔写小说,画漫画。

生命短暂,不走捷径。

个人微信:18611208992

还想看我的文章,就关注“亲爱的数据”。  



分享、在看、点赞、打赏 ,都是爱


 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存