实战 | canal 实现Mysql到Elasticsearch实时增量同步

zhisheng 2021-09-05

The following article is from 铭毅天下 Author 铭毅天下

题记

关系型数据库Mysql/Oracle增量同步Elasticsearch是持续关注的问题，也是社区、QQ群等讨论最多的问题之一。问题包含但不限于： 1、Mysql如何同步到Elasticsearch? 2、Logstash、kafka_connector、canal选型有什么不同，如何取舍？ 3、能实现同步增删改查吗？ ..... 本文给出答案。

1、Canal同步

1.1 canal官方已支持Mysql同步ES6.X

同步原理，参见之前: 干货 | Debezium实现Mysql到Elasticsearch高效实时同步。

canal 1.1.1版本之后, 增加客户端数据落地的适配及启动功能。canal adapter 的 Elastic Search 版本支持6.x.x以上。需要借助adapter实现。

1.2 同步效果

1）已验证：仅支持增量同步，不支持全量已有数据同步。这点，canal的初衷订位就是“阿里巴巴mysql数据库binlog的增量订阅&消费组件”。

2）已验证：由于采用了binlog机制，Mysql中的新增、更新、删除操作，对应的Elasticsearch都能实时新增、更新、删除。

3）推荐使用场景 canal适用于对于Mysql和Elasticsearch数据实时增、删、改要求高的业务场景。实时场景要求不高的业务场景，logstashinputjdbc也能满足。

建议，做好选型甄别。

2、同步版本：

ES：6.6.1
Mysql: 5.7.25
canal：v1.1.3-alpha-2
canal-adapter:v1.1.3-alpha-2

canal下载地址：https://github.com/alibaba/canal/releases

3、同步步骤解读

3.1 启动canal，可作为常驻进程后台运行。

官网已有详细描述https://github.com/alibaba/canal/wiki/QuickStart，以下仅列举关键注意事项。

对应下载文件：canal.deployer-1.1.3-SNAPSHOT.tar.gz，可以实时关注最新版本。

3.1.1 启用binlog

canal的原理是基于mysql binlog技术，所以这里一定需要开启mysql的binlog写入功能，建议配置binlog模式为row.

[mysqld]
log-bin=mysql-bin #添加这一行就ok
binlog-format=ROW #选择row模式
server_id=1 #配置mysql replaction需要定义，不能和canal的slaveId重复

3.1.2 修改配置文件

vi conf/example/instance.properties

配置数据库基本信息。

3.1.3 启动canal

bin/startup.sh可通过日志排查错误。

3.2 配置ElasticSearch适配器，并实现同步。

官网已有详细描述：https://github.com/alibaba/canal/wiki/Sync-ES。以下仅针对部署遇到的坑做描述。

3.2.1 部署版本

anal.adapter-1.1.3-SNAPSHOT.tar.gz，如有更新，建议使用最新版本。

3.2.2 核心配置

[root@localhost es]# cat mytest_user.yml
dataSourceKey: defaultDS
destination: example
esMapping:
_index: baidu_index
_type: _doc
_id: _id
pk: id
sql: "select a.id as _id, a.title, a.url, a.publish_time, a.content,
from baidu_info as a"
# objFields:
# _labels: array:;
etlCondition: "where a.id >= 1"
commitBatch: 3000

实现目的：库表id字段作为Elasticsearch的_id，以期实现自增。

4、多表关联实现

建议参考官网：https://github.com/alibaba/canal/wiki/Sync-ES 支持：

一对一
一对多
多对多

5、坑

坑1：canal.adapter-1.1.2 启动失败

启动失败：https://github.com/alibaba/canal/issues/1513 该问题在1.1.3版本已经修复。

坑2：不支持全量同步

全量同步建议使用logstash或者其他工具:

坑3：必须先在ES创建好对应索引的Mapping

否则，会没有识别索引，会报写入错误。

坑4：多张表的同步如何实现？

在canal.adapter-1.1.3/conf/es的新增*.yml配置即可。也就是说，可以一张Mysql表一个配置文件。

坑5：空指针异常错误

解决方案：sql语句部分，指定对应库表id为ES中的_id，否则会报错。举例：

select sx_sid as _id, name from baidu_info

坑6：基于 row 模式的 binlog 会不会记录变更前、变更后的值呢？

INSERT:只有变更后的值。
UPDATE:包含了变更前、变更后的值。
DELETE:变更前的值

关于全量同步：https://github.com/alibaba/canal/issues/376

6 同步选型小结

以上不同选型各有利弊，建议 结合实际业务斟酌选择。欢迎留下你的同步实践方案和思考。

公众号(zhisheng)里回复面经、ES、Flink、 Spring、Java、JVM、Kafka、监控等关键字可以查看更多关键字对应的文章！

关注我

1、渣渣菜鸡为什么要看 ElasticSearch 源码？

2、渣渣菜鸡的 ElasticSearch 源码解析 —— 环境搭建

3、Elasticsearch 默认分词器

4、Elasticsearch 可用中分分词器

5、Elasticsearch 自定义分词器

6、全文搜索引擎 Elasticsearch 集群搭建入门教程

7、Elasticsearch 系列文章（三）：ElasticSearch 集群监控

8、Elasticsearch 系列文章（四）：ElasticSearch 单个节点监控

9、Elasticsearch 系列文章（五）：ELK 实时日志分析平台环境搭建

10、教你如何在 IDEA 远程 Debug ElasticSearch

11、渣渣菜鸡的 ElasticSearch 源码解析 —— 启动流程（上）

12、渣渣菜鸡的 ElasticSearch 源码解析 —— 启动流程（下）

13、ElasticSearch 最佳性能优化

14、干货 | Elasticsearch方案选型必须了解的10件事！

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

实战 | canal 实现Mysql到Elasticsearch实时增量同步

题记

1、Canal同步

1.1 canal官方已支持Mysql同步ES6.X

1.2 同步效果

2、同步版本：

3、同步步骤解读

3.1 启动canal，可作为常驻进程后台运行。

3.1.1 启用binlog

3.1.2 修改配置文件

3.1.3 启动canal

3.2 配置ElasticSearch适配器，并实现同步。

3.2.1 部署版本

3.2.2 核心配置

4、多表关联实现

5、坑

坑1：canal.adapter-1.1.2 启动失败

坑2：不支持全量同步

坑3：必须先在ES创建好对应索引的Mapping

坑4：多张表的同步如何实现？

坑5：空指针异常错误

6 同步选型小结

关注我

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

实战 | canal 实现Mysql到Elasticsearch实时增量同步

题记

1、Canal同步

1.1 canal官方已支持Mysql同步ES6.X

1.2 同步效果

2、同步版本：

3、同步步骤解读

3.1 启动canal，可作为常驻进程后台运行。

3.1.1 启用binlog

3.1.2 修改配置文件

3.1.3 启动canal

3.2 配置ElasticSearch适配器，并实现同步。

3.2.1 部署版本

3.2.2 核心配置

4、多表关联实现

5、坑

坑1：canal.adapter-1.1.2 启动失败

坑2：不支持全量同步

坑3：必须先在ES创建好对应索引的Mapping

坑4：多张表的同步如何实现？

坑5：空指针异常错误

6 同步选型小结

关注我

您可能也对以下帖子感兴趣