开源BI Metabase与Spark SQL的碰撞
Metabase是什么?
Metabase是一种简单,开源的,可供公司中的每个人提问并从数据中学习的商业智能工具(BI)。
另外,Metabase开发团队刚刚获得A轮800万美元投资,可见该项目多么受欢迎。
Metabase的功能
5 分钟可以安装好(不是玩笑)
可以让团队里的每个人自己问问题,不需要懂SQL
丰富美观的仪表盘,支持自动刷新和全屏
有供分析师和数据专家的SQL模式
为您的团队创建规范的过滤器和指标
通过设置定时任务发送数据倒Slack或者指定的Email地址
通过MetaBot可以在Slack上随时查看数据
通过重命名,注释和隐藏字段为您的团队提供人性化数据
支持的数据库
Postgres
MySQL
Druid
SQL Server
Redshift
MongoDB
Google BigQuery
SQLite
H2
Oracle
Vertica
Presto
Snowflake
Spark SQL
安装和运行Metabase
Metabase 支持多种安装和运行方式,
Running the Jar File
Running the Mac Application
Running on Docker
Running on AWS Elastic Beanstalk
Running on Heroku
Running on Cloud66
Running on Debian as a service
Running on Kubernetes
本文介绍下Windows下的最简单安装方法,
下载jar包,当前最新版本是v0.32.5,所以下载链接是http://downloads.metabase.com/v0.32.5/metabase.jar
下载安装JVM(Java 8或者更高版本,Oracle JDK或者OpenJDK都可以),因为Oracle JDK License的问题,这里我仍然推荐Amazon Corretto(https://docs.aws.amazon.com/zh_cn/corretto/latest/corretto-8-ug/downloads-list.html),
Amazon Corretto 是开放 Java 开发工具包 (OpenJDK) 的免费、多平台、生产就绪型分发版。Corretto 提供长期支持,其中包括性能增强和安全修复。Corretto 经认证与 Java SE 标准兼容,并在 Amazon 内部用于许多生产服务。借助 Corretto,您可以在 Amazon Linux 2、Windows 和 macOS 等操作系统上开发和运行 Java 应用程序。
运行
java -jar metabase.jar
http://localhost:3000
@rem 如果你想换个端口,比如8000
set MB_JETTY_PORT=8000
@rem 如果你希望别的机器也可以访问你的Metabase
set MB_JETTY_HOST=0.0.0.0
下面将介绍今天的重头戏,如何连接Spark SQL
下载Spark
运行Spark Thrift Server(具体参考我的另外一篇文章)
给Metabase配置Spark SQL支持
详细请见安装配置视屏