Apache Doris 2026路线图：AI负载下的数据基础设施演进

2026-06-17阅读 0热度 0

数据基础设施

过去数年，数据基础设施的迭代始终聚焦于一个核心命题：如何更高效地完成数据分析？

然而，到了2026年，格局发生了根本性重塑。伴随AI应用井喷式增长，数据系统已不再局限于分析工具，而是逐步融入智能系统。数据不再仅供人工查询，正越来越多地被Agent调用、被模型理解、被系统实时消费。

面对这一变革，Apache Doris社区为2026年确立了全新年度主题：Scale Intelligence， Accelerate Insight。

如果说过去Doris专注于如何让分析速度更快，那么当前我们需要回答的是：当AI成为主流负载后，数据库究竟应演进为何种形态？

2025年：变革的萌芽

回顾2025年，Doris的演进路径已清晰预示了这一转折的到来。

过去一年，社区发布了两个关键版本——3.1与4.0，分别在数据分析能力与检索能力上实现了标志性突破。

在3.1版本中，重点夯实了半结构化数据分析场景与Lakehouse基础能力，并在大量生产环境中获得稳定验证。

在半结构化数据分析方面，围绕面向JSON的Variant类型，持续完善功能并优化性能，同时提升倒排索引与全文检索在空间利用率与可扩展性上的表现，并引入了更灵活的tokenizer插件机制。
在Lakehouse方向，增强了对Iceberg、Paimon等外部数据源的支持能力，物化视图与查询优化能力持续提升，同时优化了数据写入与更新性能。

实际上，在3.1版本中，大量精力投入了一个看似轻量的能力——JSON。最初主要服务于日志、事件等半结构化数据。但进入AI时代，这类结构不稳定、模式不固定的数据，正成为主流数据形态。

到了4.0版本，这一变化进一步加速。

相较于3.1，4.0的核心演进可概括为“混合检索与分析能力”的构建。越来越多的业务负载从结构化与半结构化数据，延伸至非结构化数据分析场景。从数据库视角看，这一转变对语义检索能力提出了更高要求。

以典型场景为例：企业现需对音频、视频、图像等非结构化数据进行embedding，将其转化为向量形式存储，并在此基础上实现语义检索。

基于这一趋势，Doris在4.0版本中正式引入Vector Search能力，从而实现在同一引擎内对结构化数据、半结构化数据以及向量数据进行统一检索。

正是这一变化，使Doris的定位发生了本质转变：从一个纯粹的分析型数据库，走向一个能在AI时代同时承载分析与检索的统一数据平台。

AI带来哪些机遇与挑战？

进入2026年，AI正从应用层快速渗透至数据基础设施层。

首先，数据形态发生显著变化。以Agent交互、模型输出与用户行为记录为代表的数据，大量以JSON形式存在，且在规模和结构上高度不确定。问题不再仅仅是“能否支持JSON”，而是：

在schema持续变化、列数不断膨胀的情况下，如何依然保持高效的存储与分析能力？

由此延伸出的是AI可观测性（AI Observability）问题。如今，围绕Agent行为日志展开分析，正在重塑传统以trace、logs、metrics为核心的分析方式，成为理解系统运行机制与识别行为模式的重要手段。

与此同时，AI数据还带来了更高并发与更强实时性的要求。单个Agent请求往往会触发大量底层访问，这显著拉高了系统对并发处理能力与响应时效的要求。未来的使用模式，将更强调快速反馈，而非长时间等待复杂推理过程完成。

此外，统一平台的重要性进一步提升。企业更倾向于在同一个数据基础上，同时支持分析、检索等多样化需求，从而降低系统复杂度并保证数据一致性。

2026年：从场景看演进

围绕这些变化，Doris在2026年的演进，可从四个关键场景来理解。

01 半结构化数据分析 & AI可观测性

AI应用带来的直接变化之一，是JSON这类半结构化数据的快速增长。关键在于：在深层嵌套结构、列数持续扩展的情况下，如何仍保持可接受的存储成本与查询性能。同时，随着Agent、LLM tracing等新型应用快速发展，围绕JSON日志的分析正逐步成为AI可观测性的重要组成部分。

技术路径上，将持续增强Variant Type，在兼顾灵活性的同时兼具列式存储性能；构建统一的可观测性数据底座，将trace、logs、metrics等统一纳入Doris，并与OpenTelemetry等生态深度集成。
具体实现上，将支持深层嵌套JSON结构，持续优化稀疏列与字符串列的高效存储机制，以提升存储效率与查询性能。

在此基础上，继续完善列式能力支持，比如部分列更新、索引能力及超宽表处理，进一步强化Variant类型在JSON与半结构化数据分析场景中的整体支撑能力。

在此背景下，AI可观测性也逐渐成为这一场景的重要延伸。此前，社区已通过一些实践，展示了如何借助Doris对类似OpenClaw这类黑盒系统的内部运行过程进行分析，并从中识别包括安全风险在内的多种行为模式，这正是AI可观测性的典型应用场景之一。

02 混合检索与分析（HSAP）

在AI场景中，检索范式正从单一模式走向融合。在混合检索出现之前，用户通常需要额外引入向量数据库或Elasticsearch等检索系统，来满足语义检索与全文检索需求。但问题是，这种割裂式架构存在明显局限：仅依赖向量检索时，精确匹配能力不足；仅依赖文本检索时，又难以覆盖语义相关但不包含关键词的内容。

基于这一背景，Doris在4.0版本中引入了混合检索能力，让用户能够通过一条SQL同时完成全文检索、语义打分与向量检索，兼顾关键词精确匹配与语义召回能力。

在2026年，混合检索与分析及相关能力将进一步增强：

持续增强语义检索与Vector Search，引入基于磁盘的ANN算法与数据结构，来支撑百亿级向量的高效存储与检索。
进一步融合向量能力与存储计算体系，包括在Merge-on-Write上构建可更新索引、优化索引优先访问路径，以及提升向量数据压缩与管理效率。
持续增强全局索引与延迟物化能力，以优化以TopN为主的语义检索查询，在减少数据访问量的同时显著提升性能。
探索开放湖格式上的向量能力建设，让用户在不迁移数据的前提下，即可在Iceberg、Paimon等数据湖之上实现高效的向量检索与分析，进一步打通湖仓一体化生态。

03 多模态场景 & AI SQL

作为以SQL为核心的数据库系统，Doris最初面向结构化数据设计。但随着AI应用的发展，多模态需求快速增长，推动着它在这个方向上持续演进。

Doris在这一方向的核心目标，是降低数据处理门槛并统一处理流程：

AI SQL与Python UDF结合，形成覆盖数据预处理、特征提取、向量构建与分析的一体化能力体系，支撑更完整的多模态数据处理链路。
引入File数据类型，这个数据类型在不同执行环境下可具备不同语义。比如在SQL中用于访问文件元数据，在AI SQL或Python UDF中则可直接处理文件内容，从而支持embedding与内容分析。

通过逐步完善这些能力，Doris希望能在多模态场景下，依托统一的数据平台，为用户提供从数据接入、处理到分析的端到端能力支持。

04 面向Agent的分析能力

当数据库的主要调用方从人转向Agent，交互方式也随之发生了改变。如果仍仅依赖Text-to-SQL，面对复杂场景时往往力不从心，因为Agent在缺乏语义信息时很难稳定生成正确的查询。

因此，Doris在2026年将重点建设：

加强语义层建设，包括数据标签体系与元数据开放API，来支持构建更灵活、可控的语义层，并提升Agent交互质量。
持续推进Data Agent集成，让数据库具备面向Agent的原生服务能力，从而支持更自然的交互与更准确的结果返回。
完善元数据API，强化对外部Catalog的集成能力，以对接统一的数据管理、权限与语义体系，为Agent提供一致、可靠的数据理解基础。

2026年：从能力看演进

上述场景的落地，归根结底依赖于底层能力的持续演进。

01 查询引擎：能力、性能与稳定性提升

在2026年，查询引擎的演进将围绕三个核心目标展开。

能力完善。提供更丰富且兼容性更强的SQL语法与函数支持，包括ASOF Join、Recursive CTE、UNNEST等；持续推进语法简化与兼容性增强，降低Lakehouse场景下的迁移成本；MERGE INTO能力增强，支持在单条SQL或一个事务内完成更完整的CDC流程。
性能优化。强化Condition Cache，缓存Block级的过滤结果，从而降低运行时计算开销；重构ZoneMap（智能索引）表达式，提升数据过滤效率；提升复杂列场景（比如JSON）的列裁剪能力，支撑高并发场景下的稳定性能表现。
大规模任务的执行能力与稳定性提升，也就是“Run Big， Run Stable”。优化Spill-to-Disk与Global Buffer Mgmt内存管理能力，让系统在资源受限的情况下仍然能够稳定执行大规模任务。

同时，持续完善查询的可观测性，让用户在调度平台与交互式查询场景中，能够直观地理解执行状态。

02 存储引擎：规模、缓存与弹性优化

在存储层面，主要围绕规模（Scale）、缓存（Cache）与弹性（Elasticity）三个核心方向展开。

在规模方面，重点解决超宽表场景与大规模Tablet带来的元数据与管理问题。比如JSON经过Variant子列抽取后，列数可能会扩展到数千甚至上万列，类似的问题在Parquet等列式系统中同样存在。
在缓存方面，持续优化Smart Caching，加强跨计算组缓存预热、细粒度缓存策略以及分布式共享缓存能力；缓存策略也将支持基于时间范围、表级或分区级定义缓存策略，或者对特定热点分区进行定向预热。
在弹性方面，结合云基础设施优化动态伸缩能力，提升扩缩容效率、优化多计算组读写分离，并通过元数据持久化与本地缓存机制加快节点启动过程，降低切换带来的性能影响。

总体来看，存储层的演进，一方面要面向更大规模与更复杂的数据结构，另一方面则要在存算分离架构下，提供更加稳定、高效的实时服务能力。

03 开放数据湖：读写能力与统一治理

在开放数据湖方向，随着Lakehouse架构逐步成为主流，Iceberg、Paimon等开放湖格式也在持续演进。2026年，Doris将围绕读（Read）、写（Write）与治理（Govern）三个核心维度展开能力建设。

查询能力：在不迁移数据的前提下，让湖表查询性能尽可能接近内表。优化在Iceberg、Paimon等湖表上的实时查询能力，增强Parquet Page Cache与本地File Block Cache，并将Condition Cache扩展至湖表场景，同时通过Distributed Planning优化超大规模湖表的元数据规划与解析。
湖表管理能力：支持Iceberg与Paimon的完整生命周期管理，包括DDL与DML（Update、Delete、Merge Into）。同时持续跟进生态演进，比如Iceberg V3的行级血缘与Paimon的索引能力。
生态接入能力：一方面，深化与Flink的集成，推进Streaming Lakehouse；另一方面，扩展Arrow Flight能力，并引入基于Arrow Flight的Catalog，降低多数据源的接入成本，拓展数据访问边界。
统一治理能力：加强与各类Catalog服务的深度集成，包括支持第三方认证接入、兼容Iceberg与Paimon的REST Catalog标准，以及完善自身元数据Open API能力。让Doris能够无缝融入现有的数据治理体系。

结束语

数据形态正从结构化走向JSON、向量与多模态，数据使用方式也从面向人扩展到面向Agent。数据库面对的，不再是单一的分析负载，而是分析、检索与AI Agent并存的复合负载。

Apache Doris在2026年的规划，核心不再只是提升分析性能，而是响应AI时代数据基础设施的根本变化。

Scale Intelligence， Accelerate Insight，不仅是年度主题，也定义了Doris在AI时代的演进方向。