Apache Doris 2026路线图:AI负载下的数据基础设施演进
过去数年,数据基础设施的迭代始终聚焦于一个核心命题:如何更高效地完成数据分析?
然而,到了2026年,格局发生了根本性重塑。伴随AI应用井喷式增长,数据系统已不再局限于分析工具,而是逐步融入智能系统。数据不再仅供人工查询,正越来越多地被Agent调用、被模型理解、被系统实时消费。
面对这一变革,Apache Doris社区为2026年确立了全新年度主题:Scale Intelligence, Accelerate Insight。
如果说过去Doris专注于如何让分析速度更快,那么当前我们需要回答的是:当AI成为主流负载后,数据库究竟应演进为何种形态?
2025年:变革的萌芽
回顾2025年,Doris的演进路径已清晰预示了这一转折的到来。
过去一年,社区发布了两个关键版本——3.1与4.0,分别在数据分析能力与检索能力上实现了标志性突破。
在3.1版本中,重点夯实了半结构化数据分析场景与Lakehouse基础能力,并在大量生产环境中获得稳定验证。
- 在半结构化数据分析方面,围绕面向JSON的Variant类型,持续完善功能并优化性能,同时提升倒排索引与全文检索在空间利用率与可扩展性上的表现,并引入了更灵活的tokenizer插件机制。
- 在Lakehouse方向,增强了对Iceberg、Paimon等外部数据源的支持能力,物化视图与查询优化能力持续提升,同时优化了数据写入与更新性能。
实际上,在3.1版本中,大量精力投入了一个看似轻量的能力——JSON。最初主要服务于日志、事件等半结构化数据。但进入AI时代,这类结构不稳定、模式不固定的数据,正成为主流数据形态。
到了4.0版本,这一变化进一步加速。
相较于3.1,4.0的核心演进可概括为“混合检索与分析能力”的构建。越来越多的业务负载从结构化与半结构化数据,延伸至非结构化数据分析场景。从数据库视角看,这一转变对语义检索能力提出了更高要求。
以典型场景为例:企业现需对音频、视频、图像等非结构化数据进行embedding,将其转化为向量形式存储,并在此基础上实现语义检索。
基于这一趋势,Doris在4.0版本中正式引入Vector Search能力,从而实现在同一引擎内对结构化数据、半结构化数据以及向量数据进行统一检索。
正是这一变化,使Doris的定位发生了本质转变:从一个纯粹的分析型数据库,走向一个能在AI时代同时承载分析与检索的统一数据平台。
AI带来哪些机遇与挑战?
进入2026年,AI正从应用层快速渗透至数据基础设施层。
首先,数据形态发生显著变化。以Agent交互、模型输出与用户行为记录为代表的数据,大量以JSON形式存在,且在规模和结构上高度不确定。问题不再仅仅是“能否支持JSON”,而是:
在schema持续变化、列数不断膨胀的情况下,如何依然保持高效的存储与分析能力?
由此延伸出的是AI可观测性(AI Observability)问题。如今,围绕Agent行为日志展开分析,正在重塑传统以trace、logs、metrics为核心的分析方式,成为理解系统运行机制与识别行为模式的重要手段。
与此同时,AI数据还带来了更高并发与更强实时性的要求。单个Agent请求往往会触发大量底层访问,这显著拉高了系统对并发处理能力与响应时效的要求。未来的使用模式,将更强调快速反馈,而非长时间等待复杂推理过程完成。
此外,统一平台的重要性进一步提升。企业更倾向于在同一个数据基础上,同时支持分析、检索等多样化需求,从而降低系统复杂度并保证数据一致性。
2026年:从场景看演进
围绕这些变化,Doris在2026年的演进,可从四个关键场景来理解。
01 半结构化数据分析 & AI可观测性
AI应用带来的直接变化之一,是JSON这类半结构化数据的快速增长。关键在于:在深层嵌套结构、列数持续扩展的情况下,如何仍保持可接受的存储成本与查询性能。同时,随着Agent、LLM tracing等新型应用快速发展,围绕JSON日志的分析正逐步成为AI可观测性的重要组成部分。
- 技术路径上,将持续增强Variant Type,在兼顾灵活性的同时兼具列式存储性能;构建统一的可观测性数据底座,将trace、logs、metrics等统一纳入Doris,并与OpenTelemetry等生态深度集成。
- 具体实现上,将支持深层嵌套JSON结构,持续优化稀疏列与字符串列的高效存储机制,以提升存储效率与查询性能。
在此基础上,继续完善列式能力支持,比如部分列更新、索引能力及超宽表处理,进一步强化Variant类型在JSON与半结构化数据分析场景中的整体支撑能力。
在此背景下,AI可观测性也逐渐成为这一场景的重要延伸。此前,社区已通过一些实践,展示了如何借助Doris对类似OpenClaw这类黑盒系统的内部运行过程进行分析,并从中识别包括安全风险在内的多种行为模式,这正是AI可观测性的典型应用场景之一。
02 混合检索与分析(HSAP)
在AI场景中,检索范式正从单一模式走向融合。在混合检索出现之前,用户通常需要额外引入向量数据库或Elasticsearch等检索系统,来满足语义检索与全文检索需求。但问题是,这种割裂式架构存在明显局限:仅依赖向量检索时,精确匹配能力不足;仅依赖文本检索时,又难以覆盖语义相关但不包含关键词的内容。
基于这一背景,Doris在4.0版本中引入了混合检索能力,让用户能够通过一条SQL同时完成全文检索、语义打分与向量检索,兼顾关键词精确匹配与语义召回能力。
在2026年,混合检索与分析及相关能力将进一步增强:
- 持续增强语义检索与Vector Search,引入基于磁盘的ANN算法与数据结构,来支撑百亿级向量的高效存储与检索。
- 进一步融合向量能力与存储计算体系,包括在Merge-on-Write上构建可更新索引、优化索引优先访问路径,以及提升向量数据压缩与管理效率。
- 持续增强全局索引与延迟物化能力,以优化以TopN为主的语义检索查询,在减少数据访问量的同时显著提升性能。
- 探索开放湖格式上的向量能力建设,让用户在不迁移数据的前提下,即可在Iceberg、Paimon等数据湖之上实现高效的向量检索与分析,进一步打通湖仓一体化生态。
03 多模态场景 & AI SQL
作为以SQL为核心的数据库系统,Doris最初面向结构化数据设计。但随着AI应用的发展,多模态需求快速增长,推动着它在这个方向上持续演进。
Doris在这一方向的核心目标,是降低数据处理门槛并统一处理流程:
- AI SQL与Python UDF结合,形成覆盖数据预处理、特征提取、向量构建与分析的一体化能力体系,支撑更完整的多模态数据处理链路。
- 引入File数据类型,这个数据类型在不同执行环境下可具备不同语义。比如在SQL中用于访问文件元数据,在AI SQL或Python UDF中则可直接处理文件内容,从而支持embedding与内容分析。
通过逐步完善这些能力,Doris希望能在多模态场景下,依托统一的数据平台,为用户提供从数据接入、处理到分析的端到端能力支持。
04 面向Agent的分析能力
当数据库的主要调用方从人转向Agent,交互方式也随之发生了改变。如果仍仅依赖Text-to-SQL,面对复杂场景时往往力不从心,因为Agent在缺乏语义信息时很难稳定生成正确的查询。
因此,Doris在2026年将重点建设:
- 加强语义层建设,包括数据标签体系与元数据开放API,来支持构建更灵活、可控的语义层,并提升Agent交互质量。
- 持续推进Data Agent集成,让数据库具备面向Agent的原生服务能力,从而支持更自然的交互与更准确的结果返回。
- 完善元数据API,强化对外部Catalog的集成能力,以对接统一的数据管理、权限与语义体系,为Agent提供一致、可靠的数据理解基础。
2026年:从能力看演进
上述场景的落地,归根结底依赖于底层能力的持续演进。
01 查询引擎:能力、性能与稳定性提升
在2026年,查询引擎的演进将围绕三个核心目标展开。
- 能力完善。提供更丰富且兼容性更强的SQL语法与函数支持,包括ASOF Join、Recursive CTE、UNNEST等;持续推进语法简化与兼容性增强,降低Lakehouse场景下的迁移成本;MERGE INTO能力增强,支持在单条SQL或一个事务内完成更完整的CDC流程。
- 性能优化。强化Condition Cache,缓存Block级的过滤结果,从而降低运行时计算开销;重构ZoneMap(智能索引)表达式,提升数据过滤效率;提升复杂列场景(比如JSON)的列裁剪能力,支撑高并发场景下的稳定性能表现。
- 大规模任务的执行能力与稳定性提升,也就是“Run Big, Run Stable”。优化Spill-to-Disk与Global Buffer Mgmt内存管理能力,让系统在资源受限的情况下仍然能够稳定执行大规模任务。
同时,持续完善查询的可观测性,让用户在调度平台与交互式查询场景中,能够直观地理解执行状态。
02 存储引擎:规模、缓存与弹性优化
在存储层面,主要围绕规模(Scale)、缓存(Cache)与弹性(Elasticity)三个核心方向展开。
- 在规模方面,重点解决超宽表场景与大规模Tablet带来的元数据与管理问题。比如JSON经过Variant子列抽取后,列数可能会扩展到数千甚至上万列,类似的问题在Parquet等列式系统中同样存在。
- 在缓存方面,持续优化Smart Caching,加强跨计算组缓存预热、细粒度缓存策略以及分布式共享缓存能力;缓存策略也将支持基于时间范围、表级或分区级定义缓存策略,或者对特定热点分区进行定向预热。
- 在弹性方面,结合云基础设施优化动态伸缩能力,提升扩缩容效率、优化多计算组读写分离,并通过元数据持久化与本地缓存机制加快节点启动过程,降低切换带来的性能影响。
总体来看,存储层的演进,一方面要面向更大规模与更复杂的数据结构,另一方面则要在存算分离架构下,提供更加稳定、高效的实时服务能力。
03 开放数据湖:读写能力与统一治理
在开放数据湖方向,随着Lakehouse架构逐步成为主流,Iceberg、Paimon等开放湖格式也在持续演进。2026年,Doris将围绕读(Read)、写(Write)与治理(Govern)三个核心维度展开能力建设。
- 查询能力:在不迁移数据的前提下,让湖表查询性能尽可能接近内表。优化在Iceberg、Paimon等湖表上的实时查询能力,增强Parquet Page Cache与本地File Block Cache,并将Condition Cache扩展至湖表场景,同时通过Distributed Planning优化超大规模湖表的元数据规划与解析。
- 湖表管理能力:支持Iceberg与Paimon的完整生命周期管理,包括DDL与DML(Update、Delete、Merge Into)。同时持续跟进生态演进,比如Iceberg V3的行级血缘与Paimon的索引能力。
- 生态接入能力:一方面,深化与Flink的集成,推进Streaming Lakehouse;另一方面,扩展Arrow Flight能力,并引入基于Arrow Flight的Catalog,降低多数据源的接入成本,拓展数据访问边界。
- 统一治理能力:加强与各类Catalog服务的深度集成,包括支持第三方认证接入、兼容Iceberg与Paimon的REST Catalog标准,以及完善自身元数据Open API能力。让Doris能够无缝融入现有的数据治理体系。
结束语
数据形态正从结构化走向JSON、向量与多模态,数据使用方式也从面向人扩展到面向Agent。数据库面对的,不再是单一的分析负载,而是分析、检索与AI Agent并存的复合负载。
Apache Doris在2026年的规划,核心不再只是提升分析性能,而是响应AI时代数据基础设施的根本变化。
Scale Intelligence, Accelerate Insight,不仅是年度主题,也定义了Doris在AI时代的演进方向。
