Bing搜索连连看!——你真不知它有多强
关键词:BERT,Azure GPU,BRQ,Elections Experience (Beta)
还记得一个月前,杨安泽指微软Bing搜索是多么不堪一用么?微软Bing 躺枪美民主党总统竞选辩论 。微软知耻而后勇,11月18日连发两条改进,涉及硬件和算法。
首先是硬件:
“Bing delivers its largest improvement in search experience using Azure GPUs”
https://azure.microsoft.com/en-us/blog/bing-delivers-its-largest-improvement-in-search-experience-using-azure-gpus/
这篇文章中,微软称新采用的机器学习和来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,简称BERT)帮助搜索引擎更好理解了用户输入的内容的潜在重点意义,并为此提供更相关和更智能的搜索结果。
BERT是谷歌2018年10月发表的训练模型,因其处理NLP时更高效和更为智能,一年来备受注目。BERT采用变换器这一概念且摒弃传统的神经网络训练,其主要训练框架参见https://github.com/google-research/bert
下面例子,输入搜索的是“what can aggravate a concussion”:
▲之前的搜索注重concussion,即碰撞本身,所以搜索出来研究其现象和症状的内容
▲改进的搜索重点放在“aggravate”,即加重或恶化,因此结果更多出现治疗和后果控制的内容
然而应用BERT需要耗费大量的并行计算资源。为此,Bing搜索引入Azure N系列 GPU虚拟机来加强并行计算能力。N系列包括NC,ND和NV。从下图可以看出,采用NV6 Batch size 5可以将原先77毫秒的任务缩短到9毫秒,采用NC6S_v3 Batch size 64则可以进一步缩短到6毫秒。
▲GPU硬件加速成为强化BERT算力的利器
微软在全球四个地区部署了超过2,000个这样的Azure GPU虚拟机,每秒执行超过100万次的BERT推论(BERT inferences),大大改善了Bing搜索的处理结果和速度,使其更为智能。
接下来是算法:
如下图,人眼和人脑可以迅速识别右边的图片是小女孩身着红舞裙头戴玫瑰花,但机器没这么利索。采用BERT技术优化了检索和文档的匹配。
▲向量匹配:右侧上面的黄色框内提出图片的几个要点(花、服装),进入文档嵌入模型;右侧下的检索则进入检索嵌入模型。两个模型在语义空间图上匹配。BERT技术主要是优化嵌入模型的相关度。
▲特性匹配:根据图片提炼的多重特性和检索关键词匹配提高精准性。
▲BRQ匹配(Best Representative Query):通过机器翻译和向量搜索降低遗漏
下面的例子,输入搜索的是“car seat for chevy impala 96”:
▲两年前搜出来主要是车而非车座
▲半年前的搜索,已经大幅减少车的结果
▲现在的结果,已经全部是车座,没有车了
关于算法的改进,具体内容可参考文末左下角“阅读原文”(Read more)。
总之,现在Bing搜索已经不是杨安泽口里的那个“谁知道呢”的无名者,而是实实在在的寻找资源的好工具。
顺便说一下,11月21日,Bing发布了2020 US Elections Experience (Beta),对比一下杨安泽的搜索结果:
▲ 2019年10月搜索杨安泽的结果界面,空白太多,候选人政见表达内容不足
▲ 2019年11月搜索杨安泽的结果界面,内容更为紧凑和具有相关性,蓝色圈出“BETA EXPERIENCE”
还等什么,你也来把www.bing.com放到收藏夹快捷栏吧!
长按二维码,关注本公众号,或搜寻:云就该这么玩 。点击文末右下角"在看"(Wow)分享给关注你关注的人。