跳到主要内容

Tablet 本地调试

Doris 线上运行过程中,因为各种原因,可能出现各种各样的 bug。例如:副本不一致,数据存在版本 diff 等。

这时候需要将线上的 tablet 的副本数据拷贝到本地环境进行复现,然后进行问题定位。

1. 获取有问题的 Tablet 的信息

可以通过 BE 日志确认 tablet id,然后通过以下命令获取信息(假设 tablet id 为 10020)。

获取 tablet 所在的 DbId/TableId/PartitionId 等信息。

mysql> show tablet 10020\G
*************************** 1. row ***************************
DbName: default_cluster:db1
TableName: tbl1
PartitionName: tbl1
IndexName: tbl1
DbId: 10004
TableId: 10016
PartitionId: 10015
IndexId: 10017
IsSync: true
Order: 1
DetailCmd: SHOW PROC '/dbs/10004/10016/partitions/10015/10017/10020';

执行上一步中的 DetailCmd 获取 BackendId/SchemaHash 等信息。

mysql>  SHOW PROC '/dbs/10004/10016/partitions/10015/10017/10020'\G
*************************** 1. row ***************************
ReplicaId: 10021
BackendId: 10003
Version: 3
LstSuccessVersion: 3
LstFailedVersion: -1
LstFailedTime: NULL
SchemaHash: 785778507
LocalDataSize: 780
RemoteDataSize: 0
RowCount: 2
State: NORMAL
IsBad: false
VersionCount: 3
PathHash: 7390150550643804973
MetaUrl: http://192.168.10.1:8040/api/meta/header/10020
CompactionStatus: http://192.168.10.1:8040/api/compaction/show?tablet_id=10020

创建 tablet 快照并获取建表语句

mysql> admin copy tablet 10020 properties("backend_id" = "10003", "version" = "2")\G
*************************** 1. row ***************************
TabletId: 10020
BackendId: 10003
Ip: 192.168.10.1
Path: /path/to/be/storage/snapshot/20220830101353.2.3600
ExpirationMinutes: 60
CreateTableStmt: CREATE TABLE `tbl1` (
`k1` int(11) NULL,
`k2` int(11) NULL
) ENGINE=OLAP
DUPLICATE KEY(`k1`, `k2`)
DISTRIBUTED BY HASH(k1) BUCKETS 1
PROPERTIES (
"replication_num" = "1",
"version_info" = "2"
);

admin copy tablet 命令可以为指定的 tablet 生成对应副本和版本的快照文件。快照文件存储在 Ip 字段所示节点的 Path 目录下。

该目下会有一个 tablet id 命名的目录,将这个目录整体打包后备用。(注意,该目录最多保留 60 分钟,之后会自动删除)。

cd /path/to/be/storage/snapshot/20220830101353.2.3600
tar czf 10020.tar.gz 10020/

该命令还会同时生成这个 tablet 对应的建表语句。注意,这个建表语句并不是原始的建表语句,他的分桶数和副本数都是 1,并且指定了 versionInfo 字段。该建表语句是用于之后在本地加载 tablet 时使用的。

至此,我们已经获取到所有必要的信息,清单如下:

  1. 打包好的 tablet 数据,如 10020.tar.gz。

  2. 建表语句。

2. 本地加载 Tablet

  1. 搭建本地调试环境

    在本地部署一个单节点的 Doris 集群(1FE、1BE),部署版本和线上集群保持一致。如线上部署的版本是 DORIS-1.1.1, 本地环境也同样部署 DORIS-1.1.1 的版本。

  2. 建表

    使用上一步中得到的建表语句,在本地环境中创建一张表。

  3. 获取新建的表的 tablet 的信息

    因为新建表的分桶数和副本数都为 1,所以只会有一个一副本的 tablet:

    mysql> show tablets from tbl1\G
    *************************** 1. row ***************************
    TabletId: 10017
    ReplicaId: 10018
    BackendId: 10003
    SchemaHash: 44622287
    Version: 1
    LstSuccessVersion: 1
    LstFailedVersion: -1
    LstFailedTime: NULL
    LocalDataSize: 0
    RemoteDataSize: 0
    RowCount: 0
    State: NORMAL
    LstConsistencyCheckTime: NULL
    CheckVersion: -1
    VersionCount: -1
    PathHash: 7390150550643804973
    MetaUrl: http://192.168.10.1:8040/api/meta/header/10017
    CompactionStatus: http://192.168.10.1:8040/api/compaction/show?tablet_id=10017
    mysql> show tablet 10017\G
    *************************** 1. row ***************************
    DbName: default_cluster:db1
    TableName: tbl1
    PartitionName: tbl1
    IndexName: tbl1
    DbId: 10004
    TableId: 10015
    PartitionId: 10014
    IndexId: 10016
    IsSync: true
    Order: 0
    DetailCmd: SHOW PROC '/dbs/10004/10015/partitions/10014/10016/10017';

    这里我们要记录如下信息:

    • TableId

    • PartitionId

    • TabletId

    • SchemaHash

    同时,我们还需要到调试环境 BE 节点的数据目录下,确认新的 tablet 所在的 shard id:

    cd /path/to/storage/data/*/10017 && pwd

    这个命令会进入 10017 这个 tablet 所在目录并展示路径。这里我们会看到类似如下的路径:

    /path/to/storage/data/0/10017

    其中 0 既是 shard id。

  4. 修改 Tablet 数据

    解压第一步中获取到的 tablet 数据包。编辑器打开其中的 10017.hdr.json 文件,并修改以下字段为上一步中获取到的信息:

    "table_id":10015
    "partition_id":10014
    "tablet_id":10017
    "schema_hash":44622287
    "shard_id":0
  5. 加载新 tablet

    首先,停止调试环境的 BE 进程(./bin/stop_be.sh)。然后将 10017.hdr.json 文件同级目录所在的所有 .dat 文件,拷贝到 /path/to/storage/data/0/10017/44622287 目录下。这个目录既是在第 3 步中,我们获取到的调试环境 tablet 所在目录。10017/44622287 分别是 tablet id 和 schema hash。

    通过 meta_tool 工具删除原来的 tablet meta。该工具位于 be/lib 目录下。

    ./lib/meta_tool --root_path=/path/to/storage --operation=delete_meta --tablet_id=10017 --schema_hash=44622287

    其中 /path/to/storage 为 BE 的数据根目录。如删除成功,会出现 delete successfully 日志。

    通过 meta_tool 工具加载新的 tablet meta。

    ./lib/meta_tool --root_path=/path/to/storage --operation=load_meta --json_meta_path=/path/to/10017.hdr.json

    如加载成功,会出现 load successfully 日志。

  6. 验证

    重新启动调试环境的 BE 进程 (./bin/start_be.sh)。对表进行查询,如果正确,则可以查询出加载的 tablet 的数据,或复现线上问题。