AI 概述

Apache Doris 是一款高性能、实时分析型数据库，深度融合文本搜索、向量搜索、AI 函数与 MCP 智能交互能力，构建从数据存储、检索到分析的完整 AI 数据栈，为 AI 应用提供一体化的数据基础设施。

下表列出常见 AI 场景与 Doris 提供的对应能力，帮助快速定位适合的方案。

我想做什么	对应场景	核心能力
让 AI Agent 实时查询业务数据	Agent Facing Analytics	MPP 架构、毫秒级查询、MCP Server
在同一份数据上同时做关键词、向量与聚合分析	混合检索与分析	倒排索引 + 向量索引 + SQL
加速 AI 训练数据准备与特征工程	Lakehouse for AI	湖仓一体、开放表格式、极速 SQL
构建企业知识库、智能客服	RAG 应用	高并发向量检索、混合检索
监控模型训练与推理服务	AI Observability	高吞吐写入、倒排索引、低存储成本
让搜索理解用户意图	语义搜索	HNSW/IVF、量化压缩、多模态扩展

Agent Facing Analytics

随着 AI Agent 技术兴起，越来越多的分析决策由 AI 自动完成，这要求数据平台具备极致的实时性与高并发能力。与传统"人工分析"不同，Agent Facing Analytics 需要在毫秒级完成数据查询和决策，支持海量 Agent 的并发访问。典型场景包括实时反欺诈检测、智能广告投放、个性化推荐等。

Doris 凭借高性能 MPP 架构，在面向 Agent 的分析场景中具备以下优势：

能力	指标	价值
数据延迟	亚秒级	实时摄入与更新，确保 Agent 决策基于最新数据
查询响应	平均 < 100 ms	满足 Agent 实时决策需求
并发能力	10,000+ QPS	轻松应对海量 Agent 并发查询
集成方式	原生 MCP Server	无缝对接 AI Agent，简化开发

Hybrid Search and Analytics Processing

Hybrid Search and Analytics Processing 架构示意图

半结构化、非结构化数据正成为数据分析的一等公民。客户评论、聊天记录、生产日志、车机信号等数据已深度融入业务决策流程。传统结构化分析方案需要融合全文检索与向量检索能力，在同一平台上既支持语义搜索，又能进行多维分析与聚合统计。典型场景包括：

客户洞察：结合评论文本检索与用户行为分析，精准定位客户需求和满意度趋势
智能制造：融合生产日志全文搜索、设备图像识别与 IoT 指标分析，实现故障预测与质量优化
车联网：综合车机信号数据分析、用户反馈文本挖掘与驾驶行为向量检索，提升智能座舱体验

基于 Doris 构建混合检索与分析应用的优势：

一体化架构：在单一平台统一处理结构化分析、全文检索与向量搜索，无需数据迁移和异构系统集成
混合查询性能：单条 SQL 同时执行向量相似度搜索、关键词过滤与聚合分析，查询性能优异
灵活 Schema 支持：VARIANT 类型原生支持动态 JSON 结构，Light Schema Change 秒级变更字段与索引
全栈优化：从倒排索引、向量索引到 MPP 执行引擎的端到端优化，兼顾检索精度与分析效率

Lakehouse for AI

AI 模型与应用开发需要从海量数据中准备训练集、进行特征工程、评估数据质量，传统架构往往需要在数据湖和分析引擎间频繁迁移数据。Lakehouse 架构将数据湖的开放存储与实时分析引擎深度融合，在统一平台上支撑数据准备、特征工程与模型评估的全流程，消除数据孤岛，加速 AI 开发迭代。

架构特性：

湖仓一体：基于开放湖表格式（如 Iceberg、Paimon 等）和 Catalog 构建开放湖仓，统一管理分析数据与 AI 数据
极速 SQL 引擎：Doris 作为实时分析引擎，支持交互式查询与轻量级 ETL，为数据准备和特征工程提供高效的 SQL 计算能力
无缝数据流转：直接读写数据湖，无需数据搬迁，存储层统一管理，计算层灵活加速

对 AI 全流程的加速：

大规模数据准备：从 PB 级数据湖中高效过滤、采样和清洗数据，快速构建高质量训练数据集
实时特征工程：在线进行特征提取、转换和聚合计算，为模型训练和推理提供实时特征服务
质量评估：对测试集和线上数据进行多维度快速分析，持续监控模型表现和数据漂移

RAG（Retrieval-Augmented Generation）

RAG 通过从外部知识库检索相关信息为大模型提供上下文，有效解决模型幻觉与知识时效性问题。向量引擎是 RAG 系统的核心组件，需要在海量知识库中快速召回最相关的文档片段，同时支持高并发的用户查询请求，确保应用响应体验。

典型应用：

企业知识库：基于内部文档、手册构建智能问答系统，员工通过自然语言快速获取准确答案
智能客服助手：结合产品知识库与历史案例，为客服人员或聊天机器人提供精准的回复建议
智能文档助手：在大规模文档集合中快速定位相关内容，辅助研究、写作与决策过程

Doris 构建 RAG 的优势：

高并发性能：分布式架构支持高并发向量检索，轻松应对大规模用户并发访问
混合检索能力：在单条 SQL 中同时执行向量相似度搜索与关键词过滤，兼顾语义召回和精确匹配
弹性扩展：随集群扩容线性提升检索性能，从百万到百亿级向量无缝平滑过渡
一体化方案：统一管理向量数据、原始文档与业务数据，简化 RAG 应用的数据架构

AI Observability

AI 模型训练迭代与应用运行过程中会产生海量日志、指标和追踪数据。为精准定位问题、持续优化性能，可观测性系统成为 AI 基础设施的关键一环。随着业务规模扩张，可观测平台面临 PB 级数据的高吞吐写入、毫秒级检索响应和成本控制的多重挑战。

典型用例：

模型训练监控：实时追踪训练指标、资源消耗，快速定位训练异常与性能瓶颈
推理服务追踪：记录每次推理请求的完整链路，分析延迟来源与错误模式
AI 应用日志分析：海量应用日志的全文检索与聚合分析，支持故障排查和行为洞察

Doris 构建 AI Observability 的优势：

维度	能力指标
写入性能	支持 PB 级/天（10 GB/s）持续写入，倒排索引加速日志检索，秒级响应
存储成本	压缩率 5:1 至 10:1，存储成本节省 50%-80%，支持冷数据低成本存储
Schema 灵活性	Light Schema Change 秒级变更字段，VARIANT 类型原生支持动态 JSON
生态兼容	兼容 OpenTelemetry、ELK 生态，对接 Grafana/Kibana 可视化工具

Semantic Search

语义搜索通过向量化技术捕捉文本深层含义，即使查询词与文档用词不同，也能召回语义相关的内容。这对跨语言检索、同义词识别、意图理解等场景至关重要，可显著提升搜索的召回率和用户体验。

典型用例：

企业文档检索：员工用自然语言描述问题，系统理解意图后从海量文档中召回语义相关的政策、流程与知识
电商商品搜索：用户输入"适合夏天穿的透气鞋子"，系统理解需求并召回相关产品，而非仅匹配关键词
内容推荐平台：基于文章、视频的语义相似度进行智能推荐，发现用户可能感兴趣但用词不同的内容

Doris 构建语义搜索的优势：

高性能向量检索：支持 HNSW 与 IVF 算法，亿级向量亚秒级响应，轻松应对大规模语义搜索需求
混合检索增强：单条 SQL 融合语义搜索与关键词过滤，在召回语义相关内容的同时确保必要词汇命中
多模态扩展：不仅支持文本语义搜索，还可扩展至图片、音频等多模态内容的语义检索
灵活量化优化：通过 SQ/PQ 量化技术，在保证检索精度的前提下大幅降低存储和计算成本

Agent Facing Analytics​

Hybrid Search and Analytics Processing​

Lakehouse for AI​

RAG（Retrieval-Augmented Generation）​

AI Observability​

Semantic Search​

相关文档​