在数据与人工智能加速融合的时代,单一的数据仓库或数据湖已无法满足企业构建智能化应用的需求。Lakehouse(湖仓一体)架构正成为新一代数据平台的主流范式,而作为这一概念的提出者和领导者,Databricks的每一次重大更新都深刻影响着行业走向。近期,Databricks Lakehouse平台最新动态清晰地揭示了一个核心趋势:平台的核心正从“数据”转向“智能”,致力于在统一的开放数据基础上,无缝集成数据工程、数据分析与机器学习,构建端到端的数据与AI闭环。本文,鳄鱼java技术团队将深入剖析这些最新动态背后的技术内涵、战略意图以及对未来数据架构的深远影响。
一、 核心转变:从统一数据到统一数据与AI

早期的Databricks Lakehouse主要解决了数据孤岛问题,通过开放格式(Delta Lake)实现了事务一致性、数据治理与BI分析、机器学习等多工作负载的统一。然而,随着生成式AI的爆发,数据平台面临新挑战:如何高效管理非结构化数据?如何让AI模型便捷地利用企业私有数据?最新的平台演进正是对此的回应。其核心转变在于:将Lakehouse从一个强大的数据处理平台,升级为一个原生的AI开发与部署平台。这并非简单地在旁边增加一个AI工具,而是将向量检索、模型训练、特征管理、模型服务等能力深度集成到数据存储和计算引擎中。例如,新推出的“Databricks AI”系列功能,正是这一战略的集中体现,旨在让每一个数据团队都能在其熟悉的数据平台上,以数据为中心开发和运营AI应用。
二、 数据层进化:Delta Lake 3.0与Universal Format
数据层是Lakehouse的基石。近期最重磅的更新无疑是Delta Lake 3.0及其核心特性——Universal Format(统一格式)。这解决了长久以来的一个痛点:不同的计算引擎(如Spark、Flink、Presto/Trino)读写Delta表时,需要依赖各自独立的、版本可能冲突的Delta Lake连接器库,导致兼容性管理和升级异常复杂。
Universal Format通过将元数据操作完全标准化为纯SQL(基于Apache Spark™ 3.5),实现了开放性与兼容性的飞跃。现在,任何支持Apache Spark™ 3.5 SQL的引擎,无需引入专有的Delta Lake JAR包,即可直接读写Delta表。根据鳄鱼java的测试与社区反馈,这一改进极大简化了多引擎共存环境下的运维,并使得像Flink这样的流处理引擎能够更原生、更稳定地将数据写入Delta Lake,强化了实时数据入湖的能力。这标志着Lakehouse的“开放”承诺进入了新阶段。
三、 AI原生集成:向量搜索、MLflow 2.0与AI助手
这是本次Databricks Lakehouse平台最新动态中最引人注目的部分。平台正从多个维度拥抱AI:
1. 向量数据库与搜索能力内置:Databricks推出了原生的向量搜索功能。用户可以直接在Delta Lake表中创建向量索引,将文本、图像等非结构化数据嵌入为向量并与业务数据统一存储。随后,可通过简单的SQL语义执行高效的相似性搜索(Similarity Search)。这意味着,构建RAG(检索增强生成)应用时,无需再将数据导出到专用的向量数据库,消除了数据移动和一致性问题,真正实现了“数据与AI在同一处”。
2. MLflow 2.0与特征平台强化:MLflow作为机器学习生命周期管理的标准工具,升级至2.0版本,更深度集成到平台内部。重点强化了特征工程与治理,提供了统一的特征存储(Feature Store)视图,使得特征的定义、计算、发布和在线服务链路更加自动化。这对于确保训练与推理特征的一致性、加速模型迭代至关重要。
3. 智能助手与AI驱动的开发体验:Databricks推出了“LakehouseIQ”和集成在笔记本环境中的AI助手。它能够理解企业独特的业务术语、数据模式和代码库,为分析师和数据科学家提供基于上下文的智能SQL编写、代码解释和故障排查帮助。这不仅是效率工具,更是降低AI应用开发门槛的关键一步。
四、 统一治理与安全的新维度
随着数据和AI工作负载的融合,治理与安全面临新挑战。Databricks的最新更新在统一治理方面持续加码:
• 行级、列级安全与数据屏蔽的深化:对于存储敏感数据的表,可以在Delta Lake层面实施更精细的动态访问控制。结合Unity Catalog(统一目录),可以实现跨Workspace、跨云的数据资产发现、权限管理和审计,且这些策略对SQL、机器学习模型和AI应用的访问均能生效。
• 针对AI模型的治理:Unity Catalog开始扩展其治理范围,不仅管理数据表,也开始管理ML模型、特征表和AI端点。这意味着,企业可以对谁可以训练模型、谁可以部署模型、哪些数据用于训练等进行全链路审计和策略控制,满足日益严格的AI伦理与合规要求。
五、 计算引擎与开发者体验的提升
在基础计算能力与开发者体验上,平台也有务实改进:
• Photon引擎的全面普及与优化:Databricks自研的Photon向量化引擎,作为Spark的高性能替代,现已支持更广泛的SQL和数据处理算子。在鳄鱼java参考的TPC-DS基准测试中,搭载Photon的查询性能相比开源Spark有数倍提升,特别是在复杂聚合和连接操作上。这直接提升了数据分析和ETL作业的效率,降低了成本。
• Serverless计算模型的扩展:除了传统的SQL仓库和数据处理集群,Serverless模式正扩展至机器学习模型训练和服务。这使得数据科学家无需管理底层基础设施,即可按需启动GPU训练集群或模型服务端点,进一步简化了AI工作负载的运维。
• 增强的协作与CI/CD:通过Databricks Asset Bundles(DABs),平台提供了声明式的项目部署框架,使得数据管道、笔记本、仪表板和机器学习模型的版本控制、环境配置和持续部署能够像软件工程一样规范,这是企业级大规模协作的基石。
六、 总结与展望:Lakehouse定义下一代数据智能平台
纵观这一系列Databricks Lakehouse平台最新动态,我们可以清晰地看到,Lakehouse的内涵正在快速扩展。它不再仅仅是“数据仓库+数据湖”的简单合并,而是演进为一个以开放数据格式为核心,深度融合数据处理、分析和人工智能的“数据智能平台”。其终极目标是打破数据团队与AI团队之间的壁垒,让基于高质量数据的智能应用开发变得像编写SQL查询一样自然。
对于技术决策者而言,这些动态提供了明确的未来架构指引。它引发我们深思:在规划企业数据与AI战略时,我们是继续维护多个割裂的系统(数仓、数据湖、向量数据库、ML平台),还是应该积极拥抱这种一体化的平台范式,以降低系统复杂性、加速价值产出?Databricks的路径表明,开放、统一和智能融合是应对数据爆炸与AI普及挑战的关键答案。你的数据平台,准备好迎接这场从“数据处理”到“数据智能”的质变了吗?
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。





