跳到主要内容

AWS Glue

本文档介绍通过 CREATE CATALOG 使用 AWS Glue Catalog 访问 Iceberg 表Hive 表 时的参数配置。

通用连接参数(适用于 Hive & Iceberg)

以下参数适用于 Iceberg Glue CatalogHive Glue Catalog

属性名称描述是否必须默认值
glue.regionAWS Glue 区域,例如:us-east-1
glue.endpointAWS Glue endpoint,例如:https://glue.us-east-1.amazonaws.com
glue.access_keyAWS Access Key ID
glue.secret_keyAWS Secret Access Key
glue.catalog_idGlue Catalog ID(尚未支持)
glue.role_arn用于访问 Glue 的 IAM Role ARN(尚未支持)
glue.external_id与 IAM Role 配合使用的 External ID(尚未支持)

Iceberg 表配置(使用 Glue Catalog)

配置示例:

CREATE CATALOG iceberg_glue_catalog WITH (
'type' = 'iceberg',
'iceberg.catalog.type' = 'glue',
'glue.region' = 'us-east-1',
'glue.endpoint' = 'https://glue.us-east-1.amazonaws.com',
'glue.access_key' = '<YOUR_ACCESS_KEY>',
'glue.secret_key' = '<YOUR_SECRET_KEY>'
);

三、Hive 表配置(使用 Glue 作为 HMS)

配置示例:

CREATE CATALOG hive_glue_catalog WITH (
'type' = 'hms',
'hive.metastore.type' = 'glue',
'glue.region' = 'us-east-1',
'glue.endpoint' = 'https://glue.us-east-1.amazonaws.com',
'glue.access_key' = 'YOUR_ACCESS_KEY',
'glue.secret_key' = 'YOUR_SECRET_KEY'
);

四、Hive Glue Catalog 专属参数

以下配置 仅适用于 Hive Glue Catalog,用于控制 Hive 使用 AWS Glue Metastore 客户端的行为。

Glue 客户端缓存参数(默认关闭

Glue 客户端提供元数据缓存(仅支持 Hive Glue):

- 表缓存(Table Metadata Cache)

参数名称描述默认值
aws.glue.cache.table.enable是否启用表缓存false
aws.glue.cache.table.size表缓存的最大条目数1000
aws.glue.cache.table.ttl-mins表缓存的存活时间(分钟)30

- 数据库缓存(Database Metadata Cache)

参数名称描述默认值
aws.glue.cache.db.enable是否启用数据库缓存false
aws.glue.cache.db.size数据库缓存的最大条目数1000
aws.glue.cache.db.ttl-mins数据库缓存的存活时间(分钟)30

参考:

注意事项

  • 如果你使用的是 Iceberg 表,只需关注 通用连接参数
  • 如果你使用的是 Hive 表 并将 Glue 作为 Hive Metastore,需额外配置 Hive Glue 专属参数。
  • 缓存机制目前仅在 Hive Glue 场景下有效,Iceberg Glue Catalog 不使用这些参数。