跳到主要内容

从其他 AP 系统迁移数据

本文介绍将其他 AP(分析型)系统中的数据迁移到 Apache Doris 的常见方式,帮助你根据源系统类型与现有技术栈选择合适的迁移路径。

迁移方式概览

根据源系统类型与可用工具,从其他 AP 系统迁移数据到 Doris 主要有以下三种方式:

迁移方式适用场景关键组件
Multi-Catalog + Insert Into源系统为 Hive、Iceberg、Hudi 等支持外部目录映射的系统Multi-Catalog、Insert Into
中间文件中转源系统支持导出为 CSV 等通用数据格式数据导出工具、Doris 文件导入
Connector 对接已有 Spark / Flink 作业,或需要程序化迁移Spark/Flink AP Connector、Doris Connector

迁移方式详解

方式一:通过 Multi-Catalog 映射为外表后导入

适用于 Hive、Iceberg、Hudi 等可被 Doris Multi-Catalog 识别的系统。

  • 在 Doris 中通过 Multi-Catalog 将源系统映射为外表
  • 使用 Insert Into 将外表数据写入 Doris 内表

方式二:通过中间文件中转

适用于源系统不便直接对接,但支持数据导出的场景。

  • 从原 AP 系统中将数据导出为 CSV 等通用数据格式
  • 再将导出的数据文件导入到 Doris

适用于已有 Spark / Flink 数据处理链路,或需要在迁移过程中进行清洗/转换的场景。

  • 使用 AP 系统对应的 Spark / Flink Connector 读取源数据
  • 使用 Doris Connector 将数据写入 Doris

FAQ

Q:如果我使用的 AP 系统不在上述列表中怎么办?

如果有其他迁移工具或方式可加入此列表,欢迎联系 dev@doris.apache.org

NOTE

如果有其他迁移工具可以加入此列表,可以联系 dev@doris.apache.org