跳到主要内容

Text/CSV/JSON

本文档用于介绍 Doris 的文本文件格式的读写支持情况。

Text/CSV

  • Catalog

    支持读取 org.apache.hadoop.mapred.TextInputFormat 格式的 Hive 表。

    支持读取 org.apache.hadoop.hive.serde2.OpenCSVSerde 格式的 Hive 表。(2.1.7 版本支持)

  • Table Valued Function

  • 导入

    导入功能支持的 Text/CSV 格式,详见导入相关文档。

  • 导出

    导出功能支持的 Text/CSV 格式,详见导出相关文档。

支持的压缩格式

  • umcomressed

  • gzip

  • deflate

  • bzip2

  • zstd

  • lz4

  • snappy

  • lzo

JSON

  • Catalog

    支持读取 org.apache.hive.hcatalog.data.JsonSerDe 格式的 Hive 表。(3.0.4 版本支持)

  • 导入

    导入功能支持的 JSON 格式,详见导入相关文档。

字符集

Doris 目前仅支持 UTF-8 编码的字符集。而某些数据,如 Hive Text 格式表中的数据会包含非 UFT-8 编码的内容,会导致读取失败,并报错:

Only support csv data in utf8 codec

此时,可以通过设置会话变量:

SET enable_text_validate_utf8 = false

来忽略 UFT-8 编码检查,以便能够读取这些内容。注意,这个参数仅用于忽略检查,非 UTF-8 编码的内容仍会显示为乱码。

此参数自 3.0.4 版本支持。