跳到主要内容

容灾管理概览

Doris 提供完整的容灾管理能力,帮助用户应对硬件故障、软件错误、人为误操作等可能导致数据丢失的风险。通过 跨集群数据同步备份与恢复回收站恢复 三大功能的组合使用,可在不同故障粒度下保障数据的高可用性和可靠性。

适用场景

不同的容灾能力适用于不同的故障场景,建议根据业务需求组合使用:

容灾能力适用场景恢复粒度恢复速度典型用例
跨集群数据同步集群级/机房级/地域级故障集群、库、表秒级至分钟级(接近实时)异地多活、地域级容灾、读写分离
备份与恢复数据损坏、长期归档、迁移库、表、分区分钟级至小时级(取决于数据量)定期快照、跨集群迁移、合规归档
回收站恢复误删表/库等短期人为操作失误表、数据库秒级误删恢复、短期保留

能力对比

三种能力在数据保护强度、运维成本、依赖条件上各有侧重:

维度跨集群数据同步备份与恢复回收站恢复
数据时效性实时(含全量 + 增量)周期性快照删除瞬间保留
外部依赖需要额外的目标 Doris 集群需要对象存储或 HDFS 等远端存储无(集群内本地保留)
保留时长持续同步按备份策略保留可配置的保留期,到期自动清理
运维成本较高(双集群运维)中等(定期任务 + 存储成本)低(默认开启)

1. 跨集群数据同步

Doris 的跨集群数据同步(CCR,Cross-Cluster Replication)支持在不同 Doris 集群间进行数据的实时复制,确保重要数据分布在多个物理隔离的集群中,实现 地域级容灾

主要特性

  • 实时同步:支持全量和增量同步。全量同步在初始阶段复制所有数据;增量同步持续捕获并同步数据变更,包括数据变更(新增、修改、删除)和表结构变更(DDL)。
  • 数据一致性:通过日志机制(如 Binlog)记录数据变更,确保目标集群与源集群数据完全一致。
  • 地域级容灾:支持不同地理位置集群间的同步,当一个集群发生故障时,其他集群可以快速接管业务。
  • 多场景应用:适用于容灾备份、业务分离(如读写分离)、多活集群等场景。

应用场景示例

某公司在不同城市部署了两个 Doris 集群,A 集群为主集群,B 集群为备份集群。通过跨集群数据同步,当 A 集群因自然灾害中断服务时,B 集群可接管业务,最大限度减少停机时间。

详细使用方式请参见 跨集群同步概览快速开始使用手册

2. 备份与恢复

Doris 提供备份与恢复功能,用于定期保存数据快照,防止因意外事件导致的数据丢失,同时也可用于数据迁移与长期归档。

主要特性

  • 备份:支持对指定数据库、表或者分区进行全量备份,保存完整数据快照。
  • 恢复:支持从快照中恢复库、表或者分区。

应用场景示例

某公司定期对数据进行备份,并将备份文件存储在对象存储服务(如 Amazon S3)中。当误操作导致某张重要表被删除时,利用备份功能快速恢复丢失数据,确保业务正常运行。

详细使用方式请参见 数据备份数据恢复

3. 回收站恢复

Doris 提供回收站功能,为用户提供一种快速恢复最近删除数据的方法,减少因操作失误带来的影响。

主要特性

  • 临时删除:表或数据库被删除后会先移动到回收站,而不是立即永久删除。
  • 保留期:删除的数据在回收站中保留一段可配置的时间,用户可在此期间选择恢复。
  • 快速恢复:无需完整备份恢复,即可轻松从回收站找回误删的数据。
  • 数据安全:如果不需要恢复,回收站中的数据将在保留期后自动清理。

应用场景示例

某团队在例行操作中误删除了一张重要表,通过回收站功能,他们快速恢复了被删除的数据,避免了复杂的备份恢复流程,同时确保了业务的连续性。

详细使用方式请参见 回收站

常见问题

Q: 误删了一张表,应该使用哪种功能恢复?

优先使用回收站恢复,秒级完成且无需依赖外部存储;若已超过保留期,则使用备份与恢复从最近一次快照恢复。

Q: 跨集群同步与备份恢复可以替代彼此吗?

不能。跨集群同步面向实时容灾与高可用,备份恢复面向周期性快照和长期归档,建议组合使用以覆盖不同故障场景。

Q: 回收站中的数据会一直保留吗?

不会。删除的数据仅在可配置的保留期内保留,到期后自动清理。如需长期保留,请使用备份与恢复。

Q: 如何实现地域级容灾?

通过跨集群数据同步,在不同地域部署主备 Doris 集群,主集群故障时由备集群接管业务。

Q: 备份文件可以存放在哪里?

支持对象存储(如 Amazon S3)、HDFS 等远端存储,避免与源集群同点故障。