レイクハウス概要
lakhouseは、データレイクとデータウェアハウスの利点を組み合わせた最新のビッグデータソリューションです。データレイクの低コストと高いスケーラビリティを、データウェアハウスの高性能と強力なデータガバナンス機能と統合し、ビッグデータ時代における様々なデータの効率的で安全かつ品質管理されたストレージと処理分析を可能にします。標準化されたオープンなデータ形式とメタデータ管理を通じて、リアルタイムと履歴データ、バッチ処理とストリーム処理を統合し、企業のビッグデータソリューションの新しい標準となりつつあります。
Doris Lakhouseソリューション
Dorisは、拡張可能なコネクターフレームワーク、コンピュートストレージ分離アーキテクチャ、高性能データ処理エンジン、およびデータエコシステムの開放性を通じて、ユーザーに優れたlakhouseソリューションを提供します。

柔軟なデータアクセス
Dorisは、拡張可能なコネクターフレームワークを通じて主要なデータシステムとデータ形式へのアクセスをサポートし、SQLベースの統合データ分析機能を提供します。これにより、ユーザーは既存のデータを移動することなく、クロスプラットフォームデータクエリと分析を簡単に実行できます。詳細については、カタログ 概要を参照してください。
データソースコネクター
Hive、Iceberg、Hudi、Paimon、またはJDBCプロトコルをサポートするデータベースシステムであっても、Dorisは簡単に接続し、効率的にデータにアクセスできます。
lakhouseシステムの場合、DorisはHive Metastore、AWS Glue、Unity カタログなどのメタデータサービスからデータテーブルの構造と分散情報を取得し、合理的なクエリプランニングを実行し、MPPアーキテクチャを活用した分散コンピューティングを行います。
詳細については、Iceberg カタログなどの各catalogドキュメントを参照してください。
拡張可能なコネクターフレームワーク
Dorisは、開発者が企業内の独自のデータソースに迅速に接続し、高速なデータ相互運用性を実現するための優れた拡張性フレームワークを提供します。
Dorisはカタログ、Database、tableの3レベルの標準を定義し、開発者が必要なデータソースレベルに簡単にマッピングできるようにします。Dorisはまた、メタデータサービスとストレージサービスアクセスのための標準インターフェースを提供し、開発者は対応するインターフェースを実装するだけでデータソース接続を完了できます。
DorisはTrino Connectorプラグインと互換性があり、TrinoプラグインパッケージをDorisクラスターに直接デプロイでき、最小限の設定で対応するデータソースにアクセスできます。DorisはすでにKudu、BigQuery、Delta Lakeなどのデータソースへの接続を完了しています。新しいプラグインを自分で適応させることも可能です。
便利なクロスソースデータ処理
Dorisは実行時に複数のデータcatalogの作成をサポートし、SQLを使用してこれらのデータソースに対して連合クエリを実行できます。例えば、ユーザーはHiveのファクトテーブルデータとMySQLのディメンションテーブルデータを関連付けてクエリできます:
SELECT h.id, m.name
FROM hive.db.hive_table h JOIN mysql.db.mysql_table m
ON h.id = m.id;
Dorisの組み込みjob scheduling機能と組み合わせることで、スケジュールされたタスクを作成してシステムの複雑さをさらに簡素化することもできます。例えば、ユーザーは上記のクエリの結果を1時間ごとに実行される定期タスクとして設定し、各結果をIcebergテーブルに書き込むことができます:
CREATE JOB schedule_load
ON SCHEDULE EVERY 1 HOUR DO
INSERT INTO iceberg.db.ice_table
SELECT h.id, m.name
FROM hive.db.hive_table h JOIN mysql.db.mysql_table m
ON h.id = m.id;
高性能データ処理
分析データウェアハウスとして、Dorisはlakehouseデータ処理と計算において数多くの最適化を行い、豊富なクエリ高速化機能を提供しています:
-
実行エンジン
Doris実行エンジンはMPP実行フレームワークとPipelineデータ処理モデルに基づいており、マルチマシン、マルチコア分散環境で大量データを高速処理することができます。完全ベクトル化された実行オペレータのおかげで、DorisはTPC-DSなどの標準ベンチマークデータセットにおいて計算性能で優位性を示しています。
-
クエリオプティマイザ
Dorisはクエリオプティマイザを通じて複雑なSQLリクエストを自動的に最適化および処理することができます。クエリオプティマイザは、複数テーブル結合、集約、ソート、ページネーションなどの様々な複雑なSQL演算子を深く最適化し、コストモデルと関係代数変換を完全活用して、より良い、または最適な論理的および物理的実行プランを自動的に取得し、SQL記述の難易度を大幅に削減し、使いやすさと性能を向上させます。
-
データキャッシュとIO最適化
外部データソースへのアクセスは通常ネットワークアクセスであり、高レイテンシと安定性の悪さを伴う可能性があります。Apache Dorisは豊富なキャッシュメカニズムを提供し、キャッシュタイプ、適時性、戦略において数多くの最適化を行い、メモリとローカル高速ディスクを完全活用してホットデータの分析性能を向上させます。さらに、Dorisは高スループット、低IOPS、高レイテンシなどのネットワークIO特性に対して的確な最適化を行い、ローカルデータに匹敵する外部データソースアクセス性能を提供します。
-
マテリアライズドビューと透過的高速化
Dorisは豊富なマテリアライズドビュー更新戦略を提供し、フルおよびパーティションレベルの増分更新をサポートして構築コストを削減し、適時性を向上させます。手動更新に加えて、Dorisはスケジュール更新とデータ駆動更新もサポートし、メンテナンスコストをさらに削減してデータ一貫性を向上させます。マテリアライズドビューには透過的高速化機能もあり、クエリオプティマイザが適切なマテリアライズドビューに自動的にルーティングして、シームレスなクエリ高速化を実現できます。さらに、Dorisのマテリアライズドビューは高性能ストレージ形式を使用し、カラムストレージ、圧縮、インテリジェントインデックス技術を通じて効率的なデータアクセス機能を提供し、データキャッシュの代替としてクエリ効率を向上させます。
以下に示すように、Icebergテーブル形式に基づく1TB TPCDSの標準テストセットにおいて、Dorisによる99クエリの全体実行はTrinoの1/3に過ぎません。

実際のユーザシナリオにおいて、Dorisはリソース使用量を半分にしながら、Prestoと比較して平均クエリレイテンシを20%、95パーセンタイルレイテンシを50%削減し、ユーザエクスペリエンスを向上させながらリソースコストを大幅に削減しています。

便利なサービス移行
複数データソースの統合とlakehouse変革の実現プロセスにおいて、システム間のSQL方言の構文と関数サポートの違いにより、SQLクエリをDorisに移行することは課題となります。適切な移行計画がなければ、ビジネス側は新しいシステムのSQL構文に適応するために大幅な修正が必要になる可能性があります。
モダンなデプロイメントアーキテクチャ
バージョン3.0以降、Dorisはクラウドネイティブなcompute-storage separation architectureをサポートしています。このアーキテクチャは、低コストと高い弾性により、リソース利用率を効果的に改善し、コンピュートとストレージの独立したスケーリングを可能にします。

上図は、Dorisのコンピュート・ストレージ分離のシステムアーキテクチャを示し、コンピュートとストレージを分離しています。コンピュートノードはもはやプライマリデータを格納せず、基盤の共有ストレージ層(HDFSとオブジェクトストレージ)が統一されたプライマリデータストレージ空間として機能し、コンピュートとストレージリソースの独立したスケーリングをサポートします。コンピュート・ストレージ分離アーキテクチャは、lakehouseソリューションに重要な利点をもたらします:
-
低コストストレージ: ストレージとコンピュートリソースは独立してスケールでき、企業はコンピュートリソースを増加させることなくストレージ容量を増加させることができます。さらに、クラウドオブジェクトストレージを使用することで、企業はより低いストレージコストとより高い可用性を享受でき、同時に比較的低い割合のホットデータのキャッシュにローカル高速ディスクを使用できます。
-
Single Source of Truth: すべてのデータは統一されたストレージ層に格納され、同じデータが異なるコンピュートクラスターによってアクセスおよび処理できるため、データの一貫性と整合性を確保し、データ同期と重複ストレージの複雑さを削減します。
-
ワークロード多様性: ユーザーは異なるワークロードのニーズに基づいてコンピュートリソースを動的に割り当て、バッチ処理、リアルタイム分析、機械学習など様々なアプリケーションシナリオをサポートできます。ストレージとコンピュートを分離することで、企業はリソース使用をより柔軟に最適化し、異なる負荷下での効率的な運用を確保できます。
さらに、ストレージ・コンピュート結合アーキテクチャ下では、elastic computing nodesを使用してlake warehouseデータクエリシナリオで弾性コンピュート機能を提供することも可能です。
オープン性
Dorisはオープンなlakeテーブル形式へのアクセスをサポートするだけでなく、自身が格納するデータに対しても良好なオープン性を持っています。DorisはオープンなストレージAPIを提供し、Arrow Flight SQLプロトコルに基づく高速データリンクを実装し、Arrow Flightの速度優位性とJDBC/ODBCの使いやすさを提供します。このインターフェースに基づいて、ユーザーはPython/Java/Spark/FlinkのABDCクライアントを使用してDorisに格納されたデータにアクセスできます。
オープンファイル形式と比較して、オープンストレージAPIは基盤ファイル形式の具体的な実装を抽象化し、Dorisが豊富なインデックスメカニズムなどのストレージ形式の高度な機能を通じてデータアクセスを高速化できるようにします。さらに、上位レイヤーのコンピュートエンジンは基盤ストレージ形式の変更や新機能に適応する必要がなく、サポートされているすべてのコンピュートエンジンが新機能から同時に恩恵を受けることができます。
Lakehouseベストプラクティス
lakehouseソリューションにおいて、Dorisは主にlakehouseクエリ高速化、マルチソース連携分析、lakehouseデータ処理に使用されます。
Lakehouseクエリ高速化
このシナリオでは、Dorisはコンピュートエンジンとして機能し、lakehouseデータのクエリ分析を高速化します。

キャッシュ高速化
HiveやIcebergなどのlakehouseシステムにおいて、ユーザーはローカルディスクキャッシュを設定できます。ローカルディスクキャッシュは、クエリで使用されるデータファイルをローカルキャッシュディレクトリに自動的に格納し、LRU戦略を使用してキャッシュエビクションを管理します。詳細については、Data Cacheドキュメントを参照してください。
マテリアライズドビューと透過的リライト
Dorisは外部データソース用のマテリアライズドビュー作成をサポートしています。マテリアライズドビューは、SQL定義文に基づいて事前計算された結果をDoris内部テーブル形式として格納します。さらに、DorisのクエリオプティマイザはSPJG(SELECT-PROJECT-JOIN-GROUP-BY)パターンに基づく透過的リライトアルゴリズムをサポートしています。このアルゴリズムはSQLの構造情報を分析し、透過的リライトに適したマテリアライズドビューを自動的に見つけ、クエリSQLに応答する最適なマテリアライズドビューを選択できます。
この機能は、実行時計算を削減することでクエリ性能を大幅に改善できます。また、ビジネスの認識なしに透過的リライトを通じてマテリアライズドビュー内のデータにアクセスすることも可能です。詳細については、Materialized Viewsドキュメントを参照してください。
マルチソース連携分析
Dorisは統一SQLクエリエンジンとして機能し、異なるデータソースを接続して連携分析を行い、データサイロの問題を解決できます。

ユーザーはDoris内で複数のcatalogを動的に作成して異なるデータソースに接続できます。SQL文を使用して、異なるデータソースからのデータに対して任意の結合クエリを実行できます。詳細については、Catalog Overviewを参照してください。
Lakehouseデータ処理
このシナリオでは、Dorisはデータ処理エンジンとして機能し、lakehouseデータを処理します。

タスクスケジューリング
DorisはJob Scheduler機能を導入し、効率的で柔軟なタスクスケジューリングを可能にし、外部システムへの依存を削減します。データソースコネクタと組み合わせることで、ユーザーは外部データの定期的な処理と格納を実現できます。詳細については、Job Schedulerを参照してください。
データモデリング
ユーザーは通常、生データを格納するためにデータレイクを使用し、その上で階層化されたデータ処理を実行して、異なるレイヤーのデータを異なるビジネスニーズに利用できるようにします。Dorisのマテリアライズドビュー機能は、外部データソース用のマテリアライズドビュー作成をサポートし、マテリアライズドビューに基づくさらなる処理をサポートして、システムの複雑さを削減し、データ処理効率を向上させます。
データライトバック
データライトバック機能は、Dorisのlakehouseデータ処理機能のクローズドループを形成します。ユーザーはDorisを通じて外部データソースに直接データベースとテーブルを作成し、データを書き込むことができます。現在、JDBC、Hive、Icebergデータソースがサポートされており、将来的にはより多くのデータソースが追加される予定です。詳細については、対応するデータソースのドキュメントを参照してください。