累计修正2亿商品属性、1亿SKU商品数，机器学习在京东的应用实践！

查看原文

其他

累计修正2亿商品属性、1亿SKU商品数，机器学习在京东的应用实践！

原创 2017-07-27 郑志彤 51CTO技术栈

2017 年 7 月 21 日-22 日，由 51CTO 主办的以人工智能为主题的 WOTI2017 全球创新技术峰会已经完美闭幕。峰会期间，30+AI 明星，数十场围绕人工智能主题的精彩演讲与圆桌论坛缓缓揭开面纱。

会后，记者采访了京东商城基础平台部首席研究员郑志彤，他将为大家介绍机器学习在电商领域的场景化应用。

京东的数据问题

京东有很多商品数据，包括图像、文本、视频和语音，这些不仅是多模态的，而且是非结构化的。我们要做的就是利用机器学习把这些数据组织起来，建立知识图谱。

京东目前存在的不足：

电商商品的数据质量参差不齐。电商商品的数据是多模态的，有很多噪音，商品的数据录入难以管理。
很多数据类目本身就会有错误，有些商家为了提高商品搜索率，会用大量的词汇来描绘商品，很容易造成词语堆砌的现象。
用户反馈数据没有得到有效利用。

我们的目标是：

对于商家录入的商品数据进行清洗，提升数据准确率。
对原先没有得到有效利用的数据，进行整合抽取。
为商家生态提供算法支持，从源头把控商品数据的质量。

为了改变现状，我们从数据的信息合规、商品基本属性优化、电商短文本理解、商品类目的自动识别、多维度知识抽取五个方面来逐步优化并解决现阶段京东存在的问题。

机器学习在京东的应用实践

电商数据的信息合规

很多信息如果输入不正确，就会违反广告法或者价格法。上图中的“最高质量标准”是违反广告法的，下面的“第一步”没有违反，但“销量第一”的用词是违反的。

从这个案例中我们意识到，仅仅依靠关键词是不够的，还需要借助上下文的关系。于是，我们就做了上下文的文本分类，无效审核下降 3%，漏掉率为 7.2%。

价格合规方面，详情页里有很多价格信息，上图的 banner 中还有另外一个价格，两个价格如果不一致就属于不合规。为了提高审核的准确率，我们把详情页里的价格做了 OCR 识别。

京东端到端的通用字符串识别系统

如图所示，通过 CNN model 获得图片的特征与基于大规模语料数据训练循环神经网络（LSTM）的通用语言模型相结合，再通过基于时序分类（CTC）输出。

端到端的文本检测与识别算法克服了传统 OCR 鲁棒性不足的问题，即使对于京东网站上各种压缩失真和版面复杂的图片，也能有很好的文字识别效果。

目前，每天可以自动发现数千个价格不一致的现象。同时，图片文字识别出的语句通过文本合规服务后，能自动发现包含违禁语义的图片。

商品基本属性优化

属性间的不一致对上层系统影响巨大，搜索、推荐调用错误数据，结果也会随之错误。

例如，一张图片中女 model 提着红色手包，穿着白色上衣，蓝色裤子，这种图片直接识别不能分别得到三个主体的颜色分类。

而我们则是选用了一些成熟的模型，得到一张图片的属性，例如颜色，再通过一个清晰规则，比如最优先的是图片属性，逐渐把整个商品的属性做正确。

我们从图片上抽取商品属性的大概情况主要覆盖了四个一级品类，准确率能到 95% 左右，规模大概是累计了两亿条以上的商品属性和一亿多条的 SKU。

特征提取+ 主体颜色识别：Faster R-cnn

改进特征提取部分，加入 Reception 和 Resnet 结构以提高检测和分类准确率，实际过程中也提高了训练速度。

电商的短文本理解

京东商品的标题出现大量的堆砌现象，因此我们就必须要对商品的标题属性理解并重组。

具体的步骤如下：

标题分词。人工会标志一些词汇，训练一个预测新词的模型。
实体命名识别。
短文本理解。
应用：标题重组。

商品类目的自动识别

目前京东存在的痛点：

商品录入量大，难以管控：大型店铺 SKU 数量达到数十万条。
商品类目数多，精准录入难：三级分类数近 4000 条。
主观理解商品类目划分错误：部分商品类目有重叠，难界定。

我们主要采用了文本分类的解决方法。文本被分到一个树状的类别图里，分类准确率能到 99%。

早期我们尝试过基于字母级别的 DCN 分类，然后又试过 Word2vec、LTM，通过大量的对比方法，发现效果基本相当。最后我们选择对 Fasttext 进行一个深层次的改造。

利用机器学习来定义类目的合并与拆分

我们研发了一个 BTC 的文本分类，比其他的分类方法又快、效果又好。在新商品录入的时候，能够准确地预测类目，从源头上杜绝错误的信息。

一级类目 40 多个，二级类目 300 多个，三级类目 4000 多个，在树状类别分类上也做了一些细节的处理。

商品数据多维度的知识抽取

商品的详情页可以做 OCR 识别。我们在 OCR 里面做了很多探索，最初是用了 CER 的方法，最近可能要转到物体检测，结合 CTC。

有一些评论里有很多垃圾，要进行清洗。还有一些星级评论，有的评了一星，文本写的是五星；有的评了五星，但评论区写的却是一些负面的内容，所以星级评价是不靠谱的。

在这方面，我们主要用了两种解决方法，一种是有监督学习，还有一种是无监督学习。

通过图文属性的校验，电商短文本的识别，包括商品页的 OCR 识别、用户评论知识的抽取，最后上传新商品的时候做一个类目的引导，基本上就能够建立一个比较完善的京东知识图谱。

后记

郑志彤说，京东主要用的深度学习平台是 TensorFlow、MXNet、Torch、Caffe，也会跟踪一些业内的牛人，比如深度学习的三大牛人 Hinton、Ylekun、Beigo，然后把他们发布论文中的算法运用到项目当中。

在未来，他希望能在语音识别上有所突破，能够达到适用的水平；其次，图像方面希望利用深度学习可以做的更好。

作者：郑志彤
编辑：谢海平、陶家龙、孙淑娟

郑志彤

京东商城基础平台部首席研究员

主要负责机器学习研发与应用；在基础平台部，将深度学习应用到了京东商城一系列业务场景中，包括商品信息合规检测，知识抽取，语义理解与对话系统等。郑志彤先后毕业于中国人民大学和清华大学，拥有十余年机器学习算法研究经验。

精彩文章推荐：

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！