跳到主要内容

Tableau

VeloDB 提供了一个官方的 Tableau Doris 连接器。 该连接器基于 MySQL JDBC Driver 实现访问数据。

该连接器通过 TDVT framework 测试,通过率为 100%。

通过这个连接器,Tableau 可以将 Apache Doris 数据库和表作为数据源进行集成。要启用此功能,请遵循下面的设置指南:

  • 安装 Tableau 和 Doris connector
  • 在 Tableau 中配置 Apache Doris 数据源
  • 在 Tableau 中构建可视化
  • 连接和使用技巧
  • 总结

安装 Tableau 和 Doris connector

  1. 下载并安装 Tableau desktop
  2. 获取 tableau-doris 自定义连接器 connector(doris_jdbc-***.taco)。
  3. 获取 MySQL JDBC (版本为 8.3.0)。
  4. Connector 和 JDBC 驱动放置路径 MacOS:
    • 参考此处路径:~/Documents/My Tableau Repository/Connectors,放置 doris_jdbc-latest.taco 自定义连接器文件(如果路径不存在,按需手动创建)。
    • JDBC 驱动 jar 包放置路径:~/Library/Tableau/Drivers Windows: 假定 tableau_path 为 windows 操作系统中 tableau 的安装目录, 一般默认为:tableau_path = C:\Program Files\Tableau
    • 参考此处路径:%tableau_path%``\Connectors\,放置 doris_jdbc-latest.taco 自定义连接器文件(如果路径不存在,按需手动创建)。
    • JDBC 驱动 jar 包放置路径:%tableau_path%\Drivers\

接下来,就可以在 Tableau 中配置一个 Doris 数据源并开始构建数据可视化!

在 Tableau 中配置 Doris 数据源

现在您已安装并设置了 JDBC 和 Connector 驱动程序,让我们来看一下如何在 Tableau 中定义一个连接到 Doris 中 tpch 数据库的数据源。

  1. 收集您的连接详细信息

要通过 JDBC 连接到 Apache Doris,您需要以下信息:

参数含义示例
Server数据库 host127.0.1.28
Port数据库 MySQL 端口9030
CatalogDoris Catalog,查询外表和数据湖时使用,在高级配置(Advanced)中设置internal
Database数据库名tpch
Authentication选择数据库访问权限方式,可选择:Username / Username and PasswordUsername and Password
Username用户名testuser
Password密码留空
Init SQL Statement初始化 SQL 语句select * from database.table
  1. 启动 Tableau。(如果您在放置 connector 之前已经在运行它,请重新启动。)
  2. 从左侧菜单中,点击 To a Server 部分下的 More。在可用连接器列表中搜索 Doris JDBC by VeloDB

  1. 点击 Doris by VeloDB ,将会弹出以下对话框:

  1. 按照对话框提示输入相应的连接信息。

  2. 可选进阶配置:

    • 可以在 Initial SQL 中输入预置 SQL 来定义数据源
    • 在 Advanced 中,可以使用 Catalog 来实现数据湖数据源的访问,默认值为 internal,
  3. 在上述输入框完成后,即可点击 Sign In 按钮,您应该会看到一个新的 Tableau 工作簿:

接下来,就可以在 Tableau 中构建一些可视化了!

在 Tableau 中构建可视化

我们选择 TPC-H 数据作为数据源,Doris TPC-H 数据源构建方式参考此文档

现在我们在 Tableau 中配置了 Doris 数据源,让我们可视化数据

  1. 将 customer 表 和 orders 表拖到工作簿中。并在下方为他们选定表关联字段 Custkey

  1. 将 nation 表拖到工作簿中 并 与 customer 表 选定表关联字段 Nationkey
  2. 现在您已经将 customer 表、 orders 表 和 nation 表关联为数据源,因此您可以利用此关系处理有关数据的问题。选择工作簿底部的 Sheet 1 选项卡,进入工作台。
  3. 假设您想知道每年的用户量汇总。将 OrderDate 从 orders 拖动到 Columns 区域(水平字段),然后将 customer(count) 从 customer 拖到 Rows。Tableau 将生成以下折线图:

一张简单的折线图就制作完成了,但该数据集是通过 tpch 脚本和默认规则自动生成的非实际数据,不具备参考性,旨在测试可用与否。

  1. 假设您想知道按地域(国别)和年份计算的平均订单金额(美元):
    • 点击 New Worksheet 选项卡创建新表
    • 将 Name 从 nation 表拖入 Rows
    • 将 OrderDate 从 orders 表 拖入 Columns

您应该会看到以下内容:

  1. 注意:Abc 值只是填充值,因为您未将聚合逻辑定义到该图标,因此需要您拖动度量到表格上。将 Totalprice 从 orders 表拖到表格中间。请注意默认的计算是对 Totalprices 进行 SUM:
  2. 点击 SUM 并将 Measure 更改为 Average
  3. 从同一下拉菜单中选择 Format Numbers 更改为 Currency (Standard)
  4. 得到一张符合预期的表格:

至此,已经成功将 Tableau 连接到 Apache Doris,并实现了数据分析和可视化看板制作。

连接和使用技巧

性能优化

  • 根据实际需求,合理创建 doris 库表,按时间分区分桶,可有效减少谓词过滤和大部分数据传输
  • 适当的数据预聚合,可以通过 Doris 侧创建物化视图的方式。
  • 设置合理的刷新计划,均衡刷新的计算资源消耗 和 看板数据时效性

安全配置

  • 建议使用 VPC 私有连接,避免公网访问引入安全风险。
  • 配置 安全组 限制访问。
  • 启用 SSL/TLS 连接等访问方式。
  • 细化 Doris 用户账号角色和访问权限,避免过度下放权限。

总结

这个连接器简化了通用 ODBC/JDBC 驱动程序的连接器 连接设置流程,为 Apache Doris 提供了更好兼容的连接器。如果您在使用连接器时遇到任何问题,请随时在 GitHub 联系我们。