跳转至

7.2.7 Delta Lake Catalog

Delta Lake Catalog 通过 Trino Connector 兼容框架,使用 Delta Lake Connector 来访问 Delta Lake 表。

该功能自 Doris 3.0.1 版本开始支持。

Tip

这是一个实验功能。

1 使用须知

  1. 在使用 Trino Catalog 访问 Delta Lake 表之前,必须先编译 TrinoDelta Lake 插件,并将其放在指定目录下。具体操作步骤参考下文。

  2. 当前 Doris 适配 Trino 435 版本的插件,如果使用低于或高于 435 版本的 Trino 插件,可能会出现兼容性问题。

  3. 当前不支持 Delta LakeTime Travel 功能。

  4. 当前不支持查询 Delta Lakehistory 信息。

2 编译 Delta Lake Connector 插件

Tip

需要 JDK 17 版本。

Bash
1
2
3
4
5
git clone https://github.com/apache/Doris-thirdparty.git
cd Doris-thirdparty
git checkout trino-435
cd plugin/trino-delta-lake
mvn clean install -DskipTest

完成编译后,会在 trino/plugin/trino-delta-lake/target/ 下得到 trino-delta-lake-435 目录。

也可以直接下载预编译的 trino-delta-lake-435-20240724.tar.gz 并解压。

3 部署 Delta Lake Connector

trino-delta-lake-435/ 目录放到所有 FEBE 部署路径的 connectors/ 目录下。(如果没有,可以手动创建)。

Bash
1
2
3
4
5
├── bin
├── conf
├── connectors
   ├── trino-delta-lake-435
...

部署完成后,建议重启 FEBE 节点以确保 Connector 可以被正确加载。

4 创建 Delta Lake Catalog

SQL
1
2
3
4
5
6
7
create catalog delta_lake_catalog properties (
    "type"="trino-connector",
    "trino.connector.name"="delta_lake",
    "trino.hive.metastore"="thrift",
    "trino.hive.metastore.uri"= "thrift://ip:portrait ",
    "trino.hive.config.resources"="/path/to/core-site.xml,/path/to/hdfs-site.xml"
);

其中:以 trino. 为前缀的属性都是 trino 原生的属性,更多有关 Delta Lake 的属性可以参考 Trino 文档。

5 列类型映射

Delta Lake Trino Doris
BOOLEAN BOOLEAN BOOLEAN
INTEGER INTEGER INT
BYTE TINYINT TINYINT
SHORT SMALLINT SMALLINT
LONG BIGINT BIGINT
FLOAT REAL FLOAT
DOUBLE DOUBLE DOUBLE
DECIMAL(p,s) DECIMAL(p,s) DECIMAL(p,s)
STRING VARCHAR STRING
BINARY VARBINARY STRING
DATE DATE DATE
TIMESTAMPNTZ (TIMESTAMP_NTZ) TIMESTAMP(6) DATETIME
TIMESTAMP TIMESTAMP(3) WITH TIME ZONE DATETIME
ARRAY ARRAY ARRAY
MAP MAP MAP
STRUCT ROW STRUCT