查看原文
其他

技术|斯坦福实验室发布通用数据深度挖掘工具DeepDive

2017-02-23 全球人工智能

AIjob社


AIjob社:是《全球人工智能》推出的一项免费求职服务。目前与约100家ai企业合作提供近300个工作岗位。有实习,求职和跳槽意向的ai相关开发工程师可发送简历到邮箱:274724446@qq.com


选自:stanford

翻译:林一鸣  编辑:王健


DeepDive能做什么?


DeepDive是一个从暗数据中提取价值的系统。像暗物质一样,暗数据是隐藏在文本,表格,图形和图像中的大量数据。它不存在结构,因此现有的软件基本上都不能处理。 DeepDive通过从非结构化信息(文本文档)创建结构化数据(SQL表)并将此类数据与现有结构化数据库集成,帮助提取暗数据。 DeepDive用于提取实体之间的复杂关系,并对涉及这些实体的事实进行推断。 DeepDive帮助一个进程处理各种各样的暗数据,并将结果放入数据库。对于该数据库中的数据,我们可以使用处理结构化数据的各种标准工具和软件;例如Tablaeu等可视化工具或Excel等分析工具。


DeepDive是什么?


DeepDive是一种新型数据管理系统,能够在单个系统中解决提取,集成和预测问题,从而允许用户快速构建复杂的端到端数据管道,例如暗数据BI(商业智能)系统。通过允许用户端到端构建他们的系统,DeepDive允许用户专注于他们的系统的部分,也就是最直接地提高应用程序质量的部分。相比之下,以前的基于管道的系统需要开发人员构建提取器,集成代码和其他组件,又无法明确他们的变化如何提高其数据产品的质量。这个简单的洞见是DeepDive系统如何在更短的时间内生成更高质量数据的关键。在许多领域中,没有机器学习专门知识的用户都可以使用DeepDive,从研究古生物学到基因组学,再到研究人口贩卖的。这里可以看到我们的演示程序(http://deepdive.stanford.edu/showcase/apps)


DeepDive是一个已训练系统,使用机器学习来处理各种形式的噪声和不精确。 DeepDive旨在使用户能够通过Mindtagger界面(http://deepdive.stanford.edu/labeling)获得的低级反馈,以及通过丰富的和规则的结构化领域知识,来轻松地训练系统。 DeepDive想要帮助没有机器学习专业知识的研究者们。 DeepDive的关键技术创新之一就是大规模解决统计推理问题的能力。


DeepDive与传统系统的区别在于:


  • DeepDive只要求开发人员考虑功能而不是算法。相比之下,其他机器学习系统需要开发人员考虑使用哪种聚类算法,哪种分类算法等。在DeepDive的基于联合推理的方法中,用户仅需指定必要的信号或特征。

  • DeepDive可以实现高质量的系统:PaleoDeepDive系统(http://www.plosone.org/article/info:doi/10.1371/journal.pone.0113523)在从科学领域中的提取复杂知识的任务中,完成质量明显高于人类志愿者。在实体关系提取竞赛(http://i.stanford.edu/hazy/papers/2014kbp-systemdescription.pdf)中表现优异。

  • DeepDive能意识到数据通常是嘈杂和不精确的:拼写错误的名字,不明确的自然语言,人类犯的错误。考虑到这些不精确性,DeepDive计算每个预测的校准概率(http://deepdive.stanford.edu/calibration)。例如,如果DeepDive产生一个概率为0.9的事实,则事实为90%可能为真。

  • DeepDive能够使用来自各种形式的大量数据。使用DeepDive构建的应用程序已从数百万个文档,网页,PDF,表和图形中提取数据。DeepDive允许开发人员通过编写简单的规则,使用他们对给定域的知识来辅助推理(学习)过程,提高结果的质量(http://deepdive.stanford.edu/writing-model-ddlog%EF%BC%89%20(http://deepdive.stanford.edu/writing-model-ddlog%EF%BC%89%E6%9D%A5%E6%8F%90%E9%AB%98%E7%BB%93%E6%9E%9C%E7%9A%84%E8%B4%A8%E9%87%8F%EF%BC%8C%E9%80%9A%E7%9F%A5%E6%8E%A8%E7%90%86%EF%BC%88%E5%AD%A6%E4%B9%A0%EF%BC%89%E8%BF%87%E7%A8%8B%E3%80%82)。DeepDive还可以考虑用户对预测的正确性的反馈以改进预测。

  • DeepDive能够使用数据“远距离”学习(http://deepdive.stanford.edu/distant_supervision)。相比之下,大多数机器学习系统需要对每个预测进行冗长的训练。事实上,许多DeepDive应用程序,特别是在早期阶段,根本不需要传统的训练数据!

  • DeepDive的秘密是一个可扩展的,高性能的推理和学习引擎。在过去几年中,我们一直致力于使基础算法尽可能快地运行。在这个项目中开创的技术是xu'du商业和开源工具的一部分,包括MADlib(http://madlib.net/),Impala(http://www.cloudera.com/content/cloudera/en/products-and-services%20(http://madlib.net/%EF%BC%89%EF%BC%8CImpala%EF%BC%88http://www.cloudera.com/content/cloudera/en/products-and-services)%20/cdh/impala.html),一个来自Oracle的产品(https://blogs.oracle.com/R/entry/low_rank_matrix_factorization_in),和低级技术,如Hogwild(http://i.stanford.edu/hazy/papers/hogwild-nips.pdf)! 他们也被包括在微软的Adam(http://www.wired.com/2014/07/microsoft-adam/)和其他主要的网络公司。有关更多详情,请查看我们的论文(http://deepdive.stanford.edu/papers)。


DeepDive能用来做什么?


DeepDive应用程序的示例在我们的展示页面(http://deepdive.stanford.edu/showcase/apps)中。


  • MEMEX(http://deepdive.stanford.edu/showcase/apps#memex)- 打击人口贩运,最近在“福布斯”上刊登(http://www.forbes.com/sites/thomasbrewster/2015/%20(http://www.forbes.com/sites/thomasbrewster/2015/%EF%BC%89)04/17%20/%20darpa-nasa-and-partners-show-off-memex),现在被执法机构积极使用。

  • PaleoDeepDive - (https://www.youtube.com/watch?v=Cj2-dQ2nwoY)质量高于人类志愿者的古生物学家的知识库。

  • GeoDeepDive - (https://www.youtube.com/watch?v=X8uhs28O3eA)从地质学杂志文章中提取暗数据。

  • Wisci - (https://www.youtube.com/watch?v=Q1IpE9_pBu4)使用结构化数据丰富维基百科。


这些示例在展示页面(http://deepdive.stanford.edu/showcase/apps)中有所描述。 DeepDive提供了部分这些示例的完整代码。 DeepDive目前用于其他领域,甚至有更多的合作者。请密切注意,并与我们联系以讨论有趣的项目。


文档地址:

GitHub:



热门文章推荐


实战|Python和R中SVM和参数调优的简明教程

资源|深度学习案例和实验分析视频和ITP课程编码

解析|数据分析和精确运算让深度学习如何做到“思考”?

《THE》重磅:从地平线报告看人工智能如何颠覆高等教育

Google X实验室 透露机器学习“热气球网络计划”

深度解析|XLA如何让TensorFlow的机器学习速度提升58倍?

最新|UFC教授齐国君:详解WGAN和LS-GAN的本质和联系?

重磅|Tesla CEO马斯克提出“改造人”计划 欲化解人工智能危机

污点|大数据告诉你情人节大家都在“干”什么?

应用|人工智能如何让一颗被冷冻了五年的头颅说话?




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存