容灾管理概览
Doris 提供完整的容灾管理能力,帮助用户应对硬件故障、软件错误、人为误操作等可能导致数据丢失的风险。通过 跨集群数据同步、备份与恢复、回收站恢复 三大功能的组合使用,可在不同故障粒度下保障数据的高可用性和可靠性。
适用场景
不同的容灾能力适用于不同的故障场景,建议根据业务需求组合使用:
| 容灾能力 | 适用场景 | 恢复粒度 | 恢复速度 | 典型用例 |
|---|---|---|---|---|
| 跨集群数据同步 | 集群级/机房级/地域级故障 | 集群、库、表 | 秒级至分钟级(接近实时) | 异地多活、地域级容灾、读写分离 |
| 备份与恢复 | 数据损坏、长期归档、迁移 | 库、表、分区 | 分钟级至小时级(取决于数据量) | 定期快照、跨集群迁移、合规归档 |
| 回收站恢复 | 误删表/库等短期人为操作失误 | 表、数据库 | 秒级 | 误删恢复、短期保留 |
能力对比
三种能力在数据保护强度、运维成本、依赖条件上各有侧重:
| 维度 | 跨集群数据同步 | 备份与恢复 | 回收站恢复 |
|---|---|---|---|
| 数据时效性 | 实时(含全量 + 增量) | 周期性快照 | 删除瞬间保留 |
| 外部依赖 | 需要额外的目标 Doris 集群 | 需要对象存储或 HDFS 等远端存储 | 无(集群内本地保留) |
| 保留时长 | 持续同步 | 按备份策略保留 | 可配置的保留期,到期自动清理 |
| 运维成本 | 较高(双集群运维) | 中等(定期任务 + 存储成本) | 低(默认开启) |
1. 跨集群数据同步
Doris 的跨集群数据同步(CCR,Cross-Cluster Replication)支持在不同 Doris 集群间进行数据的实时复制,确保重要数据分布在多个物理隔离的集群中,实现 地域级容灾。
主要特性
- 实时同步:支持全量和增量同步。全量同步在初始阶段复制所有数据;增量同步持续捕获并同步数据变更,包括数据变更(新增、修改、删除)和表结构变更(DDL)。
- 数据一致性:通过日志机制(如 Binlog)记录数据变更,确保目标集群与源集群数据完全一致。
- 地域级容灾:支持不同地理位置集群间的同步,当一个集群发生故障时,其他集群可以快速接管业务。
- 多场景应用:适用于容灾备份、业务分离(如读写分离)、多活集群等场景。
应用场景示例
某公司在不同城市部署了两个 Doris 集群,A 集群为主集群,B 集群为备份集群。通过跨集群数据同步,当 A 集群因自然灾害中断服务时,B 集群可接管业务,最大限度减少停机时间。
详细使用方式请参见 跨集群同步概览、快速开始 与 使用手册。
2. 备份与恢复
Doris 提供备份与恢复功能,用于定期保存数据快照,防止因意外事件导致的数据丢失,同时也可用于数据迁移与长期归档。
主要特性
- 备份:支持对指定数据库、表或者分区进行全量备份,保存完整数据快照。
- 恢复:支持从快照中恢复库、表或者分区。
应用场景示例
某公司定期对数据进行备份,并将备份文件存储在对象存储服务(如 Amazon S3)中。当误操作导致某张重要表被删除时,利用备份功能快速恢复丢失数据,确保业务正常运行。
3. 回收站恢复
Doris 提供回收站功能,为用户提供一种快速恢复最近删除数据的方法,减少因操作失误带来的影响。
主要特性
- 临时删除:表或数据库被删除后会先移动到回收站,而不是立即永久删除。
- 保留期:删除的数据在回收站中保留一段可配置的时间,用户可在此期间选择恢复。
- 快速恢复:无需完整备份恢复,即可轻松从回收站找回误删的数据。
- 数据安全:如果不需要恢复,回收站中的数据将在保留期后自动清理。
应用场景示例
某团队在例行操作中误删除了一张重要表,通过回收站功能,他们快速恢复了被删除的数据,避免了复杂的备份恢复流程,同时确保了业务的连续性。
详细使用方式请参见 回收站。
常见问题
Q: 误删了一张表,应该使用哪种功能恢复?
优先使用回收站恢复,秒级完成且无需依赖外部存储;若已超过保留期,则使用备份与恢复从最近一次快照恢复。
Q: 跨集群同步与备份恢复可以替代彼此吗?
不能。跨集群同步面向实时容灾与高可用,备份恢复面向周期性快照和长期归档,建议组合使用以覆盖不同故障场景。
Q: 回收站中的数据会一直保留吗?
不会。删除的数据仅在可配置的保留期内保留,到期后自动清理。如需长期保留,请使用备份与恢复。
Q: 如何实现地域级容灾?
通过跨集群数据同步,在不同地域部署主备 Doris 集群,主集群故障时由备集群接管业务。
Q: 备份文件可以存放在哪里?
支持对象存储(如 Amazon S3)、HDFS 等远端存储,避免与源集群同点故障。