累计修正2亿商品属性、1亿SKU商品数,机器学习在京东的应用实践!
2017 年 7 月 21 日-22 日,由 51CTO 主办的以人工智能为主题的 WOTI2017 全球创新技术峰会已经完美闭幕。峰会期间,30+AI 明星,数十场围绕人工智能主题的精彩演讲与圆桌论坛缓缓揭开面纱。
会后,记者采访了京东商城基础平台部首席研究员郑志彤,他将为大家介绍机器学习在电商领域的场景化应用。
京东的数据问题
京东有很多商品数据,包括图像、文本、视频和语音,这些不仅是多模态的,而且是非结构化的。我们要做的就是利用机器学习把这些数据组织起来,建立知识图谱。
京东目前存在的不足:
电商商品的数据质量参差不齐。电商商品的数据是多模态的,有很多噪音,商品的数据录入难以管理。
很多数据类目本身就会有错误,有些商家为了提高商品搜索率,会用大量的词汇来描绘商品,很容易造成词语堆砌的现象。
用户反馈数据没有得到有效利用。
我们的目标是:
对于商家录入的商品数据进行清洗,提升数据准确率。
对原先没有得到有效利用的数据,进行整合抽取。
为商家生态提供算法支持,从源头把控商品数据的质量。
为了改变现状,我们从数据的信息合规、商品基本属性优化、电商短文本理解、商品类目的自动识别、多维度知识抽取五个方面来逐步优化并解决现阶段京东存在的问题。
机器学习在京东的应用实践
电商数据的信息合规
很多信息如果输入不正确,就会违反广告法或者价格法。上图中的“最高质量标准”是违反广告法的,下面的“第一步”没有违反,但“销量第一”的用词是违反的。
从这个案例中我们意识到,仅仅依靠关键词是不够的,还需要借助上下文的关系。于是,我们就做了上下文的文本分类,无效审核下降 3%,漏掉率为 7.2%。
价格合规方面,详情页里有很多价格信息,上图的 banner 中还有另外一个价格,两个价格如果不一致就属于不合规。为了提高审核的准确率,我们把详情页里的价格做了 OCR 识别。
京东端到端的通用字符串识别系统
如图所示,通过 CNN model 获得图片的特征与基于大规模语料数据训练循环神经网络(LSTM)的通用语言模型相结合,再通过基于时序分类(CTC)输出。
端到端的文本检测与识别算法克服了传统 OCR 鲁棒性不足的问题,即使对于京东网站上各种压缩失真和版面复杂的图片,也能有很好的文字识别效果。
目前,每天可以自动发现数千个价格不一致的现象。同时,图片文字识别出的语句通过文本合规服务后,能自动发现包含违禁语义的图片。
商品基本属性优化
属性间的不一致对上层系统影响巨大,搜索、推荐调用错误数据,结果也会随之错误。
例如,一张图片中女 model 提着红色手包,穿着白色上衣,蓝色裤子,这种图片直接识别不能分别得到三个主体的颜色分类。
而我们则是选用了一些成熟的模型,得到一张图片的属性,例如颜色,再通过一个清晰规则,比如最优先的是图片属性,逐渐把整个商品的属性做正确。
我们从图片上抽取商品属性的大概情况主要覆盖了四个一级品类,准确率能到 95% 左右,规模大概是累计了两亿条以上的商品属性和一亿多条的 SKU。
特征提取+ 主体颜色识别:Faster R-cnn
改进特征提取部分,加入 Reception 和 Resnet 结构以提高检测和分类准确率,实际过程中也提高了训练速度。
电商的短文本理解
京东商品的标题出现大量的堆砌现象,因此我们就必须要对商品的标题属性理解并重组。
具体的步骤如下:
标题分词。人工会标志一些词汇,训练一个预测新词的模型。
实体命名识别。
短文本理解。
应用:标题重组。
商品类目的自动识别
目前京东存在的痛点:
商品录入量大,难以管控:大型店铺 SKU 数量达到数十万条。
商品类目数多,精准录入难:三级分类数近 4000 条。
主观理解商品类目划分错误:部分商品类目有重叠,难界定。
我们主要采用了文本分类的解决方法。文本被分到一个树状的类别图里,分类准确率能到 99%。
早期我们尝试过基于字母级别的 DCN 分类,然后又试过 Word2vec、LTM,通过大量的对比方法,发现效果基本相当。最后我们选择对 Fasttext 进行一个深层次的改造。
利用机器学习来定义类目的合并与拆分
我们研发了一个 BTC 的文本分类,比其他的分类方法又快、效果又好。在新商品录入的时候,能够准确地预测类目,从源头上杜绝错误的信息。
一级类目 40 多个,二级类目 300 多个,三级类目 4000 多个,在树状类别分类上也做了一些细节的处理。
商品数据多维度的知识抽取
商品的详情页可以做 OCR 识别。我们在 OCR 里面做了很多探索,最初是用了 CER 的方法,最近可能要转到物体检测,结合 CTC。
有一些评论里有很多垃圾,要进行清洗。还有一些星级评论,有的评了一星,文本写的是五星;有的评了五星,但评论区写的却是一些负面的内容,所以星级评价是不靠谱的。
在这方面,我们主要用了两种解决方法,一种是有监督学习,还有一种是无监督学习。
通过图文属性的校验,电商短文本的识别,包括商品页的 OCR 识别、用户评论知识的抽取,最后上传新商品的时候做一个类目的引导,基本上就能够建立一个比较完善的京东知识图谱。
后记
郑志彤说,京东主要用的深度学习平台是 TensorFlow、MXNet、Torch、Caffe,也会跟踪一些业内的牛人,比如深度学习的三大牛人 Hinton、Ylekun、Beigo,然后把他们发布论文中的算法运用到项目当中。
在未来,他希望能在语音识别上有所突破,能够达到适用的水平;其次,图像方面希望利用深度学习可以做的更好。
作者:郑志彤
编辑:谢海平、陶家龙、孙淑娟
郑志彤
京东商城基础平台部首席研究员
主要负责机器学习研发与应用;在基础平台部,将深度学习应用到了京东商城一系列业务场景中,包括商品信息合规检测,知识抽取,语义理解与对话系统等。郑志彤先后毕业于中国人民大学和清华大学,拥有十余年机器学习算法研究经验。
精彩文章推荐: