其他

什么是AI数据库,为什么它值得我们关注

2017-11-11 ROB MARVIN AI前线
译者|薛命灯
编辑|Natalie
AI 前线导语: 人们不再像以前那样热议大数据,但数据始终是业务的核心,一种结合了高级数据分析技术和机器学习(或深度学习)的组合体——AI 数据库开始在市场上崭露头角。那么,AI 数据库到底是什么?它与传统的数据库有什么区别?AI 数据库的出现真的能够带来商业价值或者只不过是一场炒作?本文将跟大家一起探讨这些问题。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)



数据和商业智能是一枚硬币的正反面。数据存储、计算能力和分析技术的进步让大数据走向大众,你不需要成为数据库专家或数据科学家就能够从大量的数据集中挖掘洞见。虽然仍然有一定的学习曲线,但自助性的商业智能和数据可视化工具重新定义了业务从数据中获取洞见的方式。不过,从数据中挖掘分析结果的商业智能公司或数据库公司和为了训练机器学习和深度学习模型而建立起来的 AI 数据库还是有所区别的。

机器学习算法已经融入到了当今的软件系统当中。人工智能虚拟助手被用来改进用户体验,而在商业软件领域,类似 Salesforce Einstein 这样的系统已经成为企业客户关系管理系统(CRM)的智能基础。包括谷歌和微软在内的科技巨头在智能方面则更进一步,他们不仅在做研究,他们还通过人工智能重新改造技术。

通过强大的处理能力在存粹的海量数据上进行神经网络训练是机器学习和深度学习所面临的一个重大挑战,比如图像分类或自然语言处理(NLP)这类复杂的模式识别问题。因此,AI 数据库开始在市场上崭露头角,它提供了一种用于优化人工智能学习和训练过程的方式。我们与 GPU 加速关系型数据库厂商 Kinetica(Kinetica 已经为自己建立了一个 AI 数据库)和来自 PCMag 杂志的人工智能和数据库专家 Pam Baker 进行了对话,探讨什么是 AI 数据库以及它与传统的数据库有什么区别。更重要的是,我们请他们基于目前的市场热度来分析这项新兴的技术是否具有真正的商业价值。



什么是 AI 数据库?



人工智能领域发展得太快,以致于很难对术语做出很好的定义。你可能会听到人们不加区分地使用机器学习、深度学习和人工智能这些词汇,但其实它们都属于广义的人工智能。Baker 说,对于 AI 数据库有两种不同的定义,这取决于你在跟谁谈论这个话题:是务实的人还是异想天开的人。

Baker 说,“业界似乎已经达成了某种共识——AI 数据库应该能够处理基于自然语言的查询。人类不需要依赖关键字而是通过 NLP 从数据集中搜索信息。你或许会争辩说,IBM 的 Watson 已经能够支持自然语言查询,但前提是,它必须事先与数据打通,而且要事先选好数据。而我们现在所说的自然语言查询则更为宽泛。”

更为实际的定义应该是说使用专门的数据库来加速训练机器学习模型。 很多科技公司已经在开发专门的芯片用于缓解硬件的处理负载,因为不断有硬件厂商推出了基于人工智能的特性,而它们对计算能力有很高的要求。从数据方面来看,AI 数据库可以帮助我们处理与机器学习和深度学习的模型训练相关的数据量、速度及复杂的数据监管问题,从而节省时间、优化资源的使用。

Baker 解释说,“目前有多种策略可用于加速机器学习的模型训练,其中一种是将基础设施与负责编码的人工智能研究者分离开,然后通过自动化系统来处理基础设施和模型训练相关的问题。训练一个模型可能只要 30 天,甚至是 30 分钟,而不是 3 个月。”

Kinetica 实现了一个专门为机器学习和深度学习的模型训练优化过的集成式数据库平台。AI 数据库是由数据仓库、高级分析模块和可视化模块组成的内存数据库。Kinetica 公司的副总裁和首席软件工程师 Mate Radalj 解释说,AI 数据库应该能够在毫秒级并行摄入、挖掘、分析和可视化复杂的数据。目标是降低成本、带来新的利润和集成机器学习模型,这样业务人员就可以基于数据驱动更高效地做出决策。

Radalj 说,“AI 数据库是通用数据库的一个子集。AI 数据库现在很流行,但其他的很多解决方案使用了分布式组件,Spark、MapReduce 和 HDFS 来回地切换,就是不用内存数据库。这些分布式组件与我们的数据库不一样,我们的数据库从一开始就与单一平台的 CPU 和 GPU 深度集成。好处是我们在训练模型时可以更快地配置资源,而且使用更少的硬件资源,在相同的平台上可以快速地得出结果。”



AI 数据库是如何工作的?



现在已经有很多可用的 AI 数据库。微软的 Batch AI 为运行在 Azure GPU 上的模型训练提供了基于云的基础设施。微软还推出了 Azure 数据湖(data lake)产品,帮助业务人员和数据科学家在分布式环境里处理和分析数据。

另一个是 谷歌的 AutoML,它基本上重构了模型的训练方式。AutoML 基于特定的数据集生成新的神经网络架构,然后进行数千次的测试和迭代,进而得到一个更好的系统。事实上,相比人类研究员,谷歌的 AI 能够创建出更好的模型。

Baker 说,“AutoML 使用机器学习来生成机器学习的代码,几乎不需要人类的介入。从这里可以看出不同的厂商之间有着巨大的差别。他们有些试图把高级分析技术看成是机器学习,但其实它不是。 而有些所做的高级机器学习已经超出了业务人员能够理解的范围。”

于是 Kinetica 出现了。一个位于旧金山的初创公司,已经获得了 6300 万美元的风投,开发了一个高性能的 SQL 数据库,用于快速地摄取和分析数据。Radalj 把 Kinetica 描述成一个大规模并行处理的分布式数据库和计算平台。

那么 AI 数据库与传统的数据库有什么不同?Radalj 说,这要从三个方面来分析。

  • 加速数据摄取

  • 同位置(co-locality)的内存数据(跨数据库节点并行处理)

  • 数据科学家、软件工程师和数据库管理员可以在这个平台上更快地迭代和测试模型,并直接将结果应用于分析上

Radalj 深入解释了这三个核心因素,说明了 AI 数据库将如何带来可衡量的业务价值。他说,数据可用性和数据摄取是关键,因为处理实时数据流的能力让业务人员能够快速地基于 AI 驱动的洞见做出决策。

Radalj 说,“我们有一个客户想要每五分钟跟踪一次门店的销售速率,我们基于过去几个小时的历史数据做出预测,决定他们是否要补货还是要优化销售流程。但这要求每秒进行 600 到 1200 次数据库查询,我们的数据库完全可以满足这种摄取数据的要求。结果,这个系统给他们带来了更大的投资回报率”。

Baker 说,机器学习要求大量的数据,所以摄取速度对 AI 数据库来说是至关重要的。关于第二点“同位置的内存数据”,可能需要做更多的解释。内存数据库为了提高处理速度,将数据保存在内存里,而不是磁盘上。而如果数据库处于同一个位置,就不会造成 CPU 和 GPU 计算节点的分离。

因此,AI 数据库可以支持并行处理——也就是模仿人类的大脑同时处理多个任务。这样可以减少硬件的使用,避免 Radalj 所说的“数据传输”或者在不同的数据库组件之间来回发送数据。

Radalj 说,“有些解决方案使用了像 IBM Symphony 这样的编配器在各种组件之间调度任务,而 Kinetica 更强调使用同位置资源,最小化了数据传输场景。同位置的特点带来了超高的性能和吞吐量,特别是在大数据集上执行高并发的查询时更是能够体现这种优势”。

在数据库硬件方面,Kinetica 与 NVIDIA 合作,同时也在寻求与英特尔的合作。Radalj 说,Kinetica 时刻关注着新兴的 AI 硬件和云基础设施,比如谷歌的 Tensor Processing Unit(TPU)。

最后一点是关于统一的模型训练流程。AI 数据库的作用体现在为企业的机器学习和深度学习提供更快的数据摄取和处理,帮助他们实现更大的业务目标。Radalj 把 Kinetica 的 AI 数据库比作一个用于托管模型的“模型管道平台”。

所有这些综合起来,可以更快地测试和迭代出更准确的机器学习模型。Baker 说,统一的协作方式让工程师和研究员更快地训练机器学习和深度学习模型,而不是不断地重复执行训练过程。Radalj 说,他们的目标是创建出一个工作流,可以更快地生成模型,并立即将其应用到 BI 当中。

Radalj 说,“数据科学家、软件工程师和数据库管理员在同一个平台上工作,他们很清楚自己要做些什么。他们的目标并非只是运行机器学习和深度学习,而是使用它们生成的结果——把生成的变量应用在分析上,并使用输出进行打分或预测。”



炒作还是现实?



Kinetica 对 AI 数据库定义了一个基准价值——优化计算和数据库资源。AI 数据库可以帮我们创建出更好的模型,更快、更有效地训练模型,并建立起将 AI 应用于业务的有效流程。

Radalj 举了船队管理和运输公司的例子。在这里,AI 数据库可以实时地处理大量来自车队的信息,然后对这些地理位置信息进行建模,并结合数据分析技术进行线路优化。

Radalj 说,“配置、创建原型和测试变得更快了。数据越多越好,基于这些数据进行训练、测试、对比,从而得到最好的模型。神经网络之所以得以生存,是因为现今的数据比过去要多得多,而且我们也正在学习如何利用它”。

Kinetica 的 AI 数据库和模型管道平台对于不同的人来说可能有不同的意义。Baker 说,对于那些还在探索中的买家来说,他们面临的挑战是要搞清楚 AI 数据库厂商对他们来说意味着什么。

Baker 说,“就像业务概念一样,机器学习、深度学习也都具有很强的概念性。我们正在处理的技术问题都是可解决的,只是还没到解决它们的地步。我们不能说这是一个已经成熟的领域,因为确实不是。我认为,买家之所以会观望,是因为有些东西并不是机器学习,它们可能只是高级的分析技术”。

关于 AI 数据库是不是只是一种炒作,还是说它们代表了业务的发展方向,Baker 认为,两者兼有。 她说,人们已经不像以前那么热议大数据了,倒是出现了某种高级数据分析技术和机器学习(或深度学习)的组合体。不管是用于机器学习建模的数据库,还是人们梦想的自觉性人工智能,它们始终都离不开数据。

Baker 说,“数据一直会被用在业务上,数据是业务的核心。在科幻世界,人工智能是一种有自我意识的智能,那个时候机器人可能会占领世界。我不知道这个会不会发生,我们姑且把这个问题留给 Stephen Hawking 去回答吧”。

阅读原文

http://uk.pcmag.com/ibm-watson-analytics/91751/feature/ai-databases-what-they-are-and-why-your-business-should-care



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存