查看原文
其他

MapD开源GPU驱动的数据库:能够在一台多GPU服务器上针对数十亿个记录执行亚秒级查询

2017-05-09 Todd Mostak 云头条

自五年多以前在麻省理工学院(MIT)上数据库课程的同时开始开发MapD以来,我就一直梦想着让这个项目成为开源项目。因而,我们的公司今天宣布开源MapD Core数据库(https://www.mapd.com/products/core)及相关的可视化库,并立即生效,我感到非常高兴。


代码采用Apache 2.0许可证,现放在Github上(https://github.com/mapd)。它拥有你安装一套功能齐全的MapD Core数据库所需要的一切,能够在一台多GPU服务器上针对数十亿个记录执行亚秒级查询。我们的所有核心技术包含在今天发布的开源产品中,包括我们的分层缓存系统和低级虚拟机(LLVM)查询编译引擎。


航班数据集:在时间轴上刷新气泡图和行图


我们这么做首先是出于我们坚信开源软件具有强大的变革力量。无论是在Hadoop生态系统,还是在深度学习生态系统,开源都在带来巨大的创新,这是专有软件根本所无法企及的。


我本人一直期盼着这天早日到来。我的目标始终是让MapD向全世界开放,但是一开始我犹豫这么做,当时渴望代码库成熟起来。后来构建产品、扩大公司规模带来了一系列不同的优先事项。


然而,我在最初与恩颐投资公司(NEA)的格雷格·帕帕多普罗斯(Greg Papadopoulos)和弗里斯特·巴斯克特(Forest Baskett)见过几次面后,清楚地认识到:我们同样坚信开源具有颠覆现状的潜力,尤其是在数据分析领域。在我们最近融资2500万美元的B轮融资活动中,恩颐投资是领投方。我们特别指出,虽然GPU加速的机器学习在蚕食这个世界,但是在GPU上运行的分析堆栈却存在很大的缺口。几乎整个GPU机器学习和深度学习堆栈是开源,但是没有一个开源数据处理引擎与之相辅相成。这就是我们决意要填补的缺口。


Tweets数据集:刷新时间轴,并在显示行信息的Pointmap数据点上悬停


成为开源让我们得以与这个生态系统的其他成员整合起来,如果我们作为一种封闭系统,那是根本不可能实现的。因此,在宣布开源的同时,我们今天还激动地宣布与Continuum Analytics和H2O.ai一起成立GPU开放分析项目(GOAI)组织。我们共同宣布了第一个项目:GPU数据框(GDF)。数据框让用户得以在GPU进程之间高效地交换数据,没有拷贝数据或将数据转移到CPU带来的那种开销。我们希望,这个项目为在GPU上搞一条开放的端到端管道迈出坚实的一步。


我们在次日开源了下列产品:


MapD Core开源数据库――提供了采用Apache 2许可证的MapD Core数据库的源代码。代码提供了多GPU加速SQL查询所需要的一切。详见https://github.com/mapd/mapd-core。


MapD可视化库--MapD提供开源Javascript库,让用户可以构建自定义的、基于Web的可视化应用程序,MapD Core 数据库支持这类应用程序。库含有生成图表、交叉过滤数据以及管理MapD Core数据库连接的功能。图表和交叉过滤这两套库基于广受欢迎的DC.js Dimensional Charting项目。详见https://github.com/mapd/mapd-charting。


我们同时发布了MapD Analytics Platform企业版,这个版本包含MapD Core数据库、MapD Core GPU渲染引擎以及MapD Immerse可视化分析客户软件。它还包含开源版所没有的分布式横向扩展、高可用性(HA)、LDAP和ODBC等功能。我们的路线图包括额外的功能(尤其是安全方面的功能),将来会添加到企业版中。


我们还提供了供人下载的社区版二进制代码(https://www.mapd.com/products/downloads),包含MapD Core数据库、我们的GPU渲染引擎以及采用非商业学术许可证的MapD Immerse可视化分析客户软件。


前方的道路以及努力打造社区让我们极其激动和兴奋。我们设立了一个社区论坛(https://community.mapd.com/),这是我们迈出的第一步――我们想要听到大家的想法、评论和问题,无论是技术方面的还是其他方面的。


期待共同构建非常出色的产品。


相关阅读:

中高端IT圈人群,欢迎加入!

赏金制:欢迎来爆料!长期有效!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存