实时大数据系统是未来基石，蚂蚁金服首席架构师何昌华详解

2026-06-14阅读 0热度 0

蚂蚁金服

5月6日，蚂蚁金服副CTO胡喜正式宣布开源机器学习工具SQLFlow。他的判断很直接：未来三年，AI能力会成为每一位技术人员的基本能力。而开源的初衷，就是让技术人员调用AI能像写SQL一样简单。

蚂蚁金服副CTO胡喜宣布开源SQLFlow 人工智能技术虽然拥趸众多，但门槛极高，这并非新鲜事——就像早期的JavaScript、Swift一样，它们不缺关注，缺的是“普适性”。AI的核心领域是机器学习，而要真正深入掌握它，需要高等数学、统计学、概率论、编程等极其丰富的知识储备。除此之外，还得在其他领域保持很高的认知水平。这些苛刻的要求，让绝大多数技术人员望而却步，也直接制约了整个人工智能产业的发展。 SQLFlow的出现，正是为了打破这个僵局。它把艰深的AI和简单的SQL嫁接到一起，大大降低了数据工程师使用AI技术的门槛。胡喜说得很清楚：“开源SQLFlow，是希望通过技术的简化革命，让机器学习的能力掌握在业务专家手中，从而推动更多AI应用场景被发现和创造。” 而研发SQLFlow的，是蚂蚁金服计算存储首席架构师何昌华带领的AI Infra团队。

何昌华斯坦福博士毕业，先在Google总部工作了7年，拿过公司最高技术奖项；之后又在独角兽Airbnb待了2年，负责后台系统的应用架构。2017年5月，他正式加盟蚂蚁金服，担任计算存储首席架构师。在蚂蚁金服，何昌华的核心工作是开发新一代计算引擎，搭建金融型数据智能平台。而SQLFlow，就是这个计算引擎主线上结出的果实之一。不过，对何昌华来说，世界正在发生巨变。他还要带队去探索一些没人做成的事情——比如，全实时的大数据智能系统。

未来技术基石

大数据的概念，最早来自搜索引擎行业。搜索引擎面对的是人类在互联网上留下的海量数据，数据量的增长几乎是指数级的。2010年底，谷歌宣布新一代搜索引擎“咖啡因”正式上线。这项技术的革命性在于：任何时刻，世界上任何网页发生变化，都可以实时添加到索引中，用户也能实时搜到。这彻底解决了传统搜索引擎的延时问题。何昌华当时正是咖啡因开发团队的核心技术负责人之一。他解释：“咖啡因实现的最核心功能，就是实时。” 而现在，他在蚂蚁金服的目标同样是搭建一个“完全实时”的大数据处理系统，或者说大数据智能平台。因为线下生活场景的多样性和复杂性，这比构建实时搜索更有挑战性。他认为，这将成为未来技术的基石。对于计算机来说，“实时”意味着从发出请求到返回响应之间的延迟要尽可能小；对于大数据处理系统来说，这还意味着从数据生产到消费的延迟也要尽可能低。所有这一切，都指向计算速度和能力的提升。此前常用的大数据计算模型MapReduce，对数据的处理是“分片式”的。数据的片与片之间有边界，这种批处理模式不可避免地会带来延时问题。以搜索场景为例：如果以天为时间单位对数据进行批处理，就意味着今天更新的网页，用户明天才能搜到。调高处理频率可以部分解决问题——一天两次、一天四次、两小时一次……虽然能逐步接近“准实时”，但成本也会急剧上升。要实现真正的实时，就必须打破批处理的边界。让数据处理的过程像水流一样，随来随算，随时反馈。这也是后来流式计算引擎蓬勃发展的原因。而在何昌华看来，除了“快”，“实时系统”还有两层重要含义。第一，是OLTP（联机事务处理）和OLAP（联机分析处理）的融合。传统观念里，OLTP对实时性要求高，OLAP对时效性的要求不那么高。举例来说，用支付宝进行一笔交易，需要即时查询和增删记录，这由OLTP处理；而对用户行为特征的数据分析，则由OLAP处理。但现在，随着业务场景需求不断变化，OLAP的时效性要求也越来越高。比如互联网金融中的风控场景，需要在完成一笔交易的极短时间内，通过分析用户特征数据判断风险——这要求OLAP也能实时反馈，且反馈结果能马上在线访问。第二，是智能和数据系统的融合。人工智能和机器学习是大数据应用最热门的领域。目前绝大多数公司的做法，是把数仓和机器学习平台分开：从数仓取一批数据，放到机器学习平台上去训练模型。但随着业务场景的复杂化和多样化，这种模式逐渐暴露问题——模型能否实时更新，能否用更实时的数据来训练模型，直接影响了应对复杂场景的能力。

“数据实时流入、实时训练模型，模型实时上线决策并反馈数据——这一条线如果能完全打通，对业务将产生不可估量的价值。”何昌华这样描述。数据、计算、智能——所有这一切，构成了何昌华设想中的“高效率的大数据底盘”。一个融合的实时数据智能平台，或者叫“Big Data Base”，就像曾经数据库成为无数场景的数据底盘一样。如今，不仅是蚂蚁金服或阿里巴巴，在各行各业中，数据驱动的业务都越来越多。但大数据开发的门槛很高，如果每一项业务都从底层做起，将会非常耗时耗力。如何才能让做业务的人有更多精力专注于业务本身？何昌华认为，这就是“Big Data Base”的使命，也是“基石”的含义。

离真正的智能有多远？

降低数据和智能的门槛，这是何昌华对新引擎和数据智能平台的期望。目前，他带领团队开发的金融型多模融合计算引擎，已经实现了流计算与图计算、流计算与机器学习的融合打通，距离他设想中的“大融合”越来越近了。

何昌华透露团队的目标，就是让业务变得“极简”。他甚至勾画了一幅很科幻的未来场景：你写一个功能交给引擎，引擎会决定调用多少资源去计算，你无需关心计算过程，结果会在最短时间内反馈给你。当你构想出一种新型业务，数据智能平台会自动判断需要哪些数据、采用哪种模型、如何上线、如何运营流量。这些流程，都可以智能化地自动完成。这样一套融合多种能力的实时数据智能平台，目前世界上还没有哪家公司能完全研发出来。何昌华谨慎而满怀信心地展望：“我们也是在探索。如果完全实现了探索目标，我们就将真正站到全世界领先的位置。”

无人之境

世界瞬息万变。数据作为物理世界的镜像，理论上是无穷无尽的，问题只在于人类有没有办法去记录和采集它们。互联网和移动互联网的普及，让人类行为数据的采集成本大大降低；IoT传感器设备的普及，让工业生产和社会生活中的数据也能大量沉淀下来。因此，过去二十年中，数据总量出现了爆炸性增长。在整个世界发生数字化巨变的同时，我们的生活也在悄然改变。基于数据应用的发展，我们享受到了一二十年之前无法想象的便捷——电商、O2O、移动支付、智能家居…… 但在何昌华看来，数字化还处在非常初级的阶段——本质上还是在把线下的数据搬到线上。真正需要思考的问题是：未来当高度数据化的社会到来时，我们拥有什么样的能力去处理和应用海量数据？这关系到我们能否基于数据做到更多的事，催生出更高的智能，进而推动人类社会向下一阶段发展。

这就是他回国加入蚂蚁金服所要寻找的答案。在这场全新的探索中，与海量数据打交道是必修课。因此，何昌华反复强调计算能力的重要性：大数据、人工智能、深度学习……无不需要强大的计算能力，否则，前进的每一步都寸步难行。人工智能的发展趋势，就是用更大、更高、更海量的计算，来模拟人的能力。“真正的人工智能 = 数据 × 100倍的计算”，谷歌最新AI模型的算力投入，换算下来相当于数百块GPU持续计算一整年。何昌华和团队倾力开发的新一代计算引擎和数据智能平台，本质上就是高效计算能力和强大数据处理能力的综合载体。它自蚂蚁金服海量的业务场景和数据中诞生，初衷是支撑蚂蚁金服的各项业务。但随着技术逐步成熟，它也可以具备多场景下的通用性。金融属性带来的高可用性和高安全性，让它能广泛用于其他行业，应对生活服务场景更是不在话下。这项工作的意义，往大了说，是在推动社会变革。听上去是个宏大的命题，但它并非那么高高在上。“每一项技术都必有它的落脚点。具体到蚂蚁金服，这些技术与数亿人的日常生活紧密相连。”每天，当何昌华掏出手机用支付宝结账付款时，都能直观感受到自己的工作成果——就像他在谷歌工作时，每天也都会使用搜索功能一样：“自己做出的成果，自己每天都在使用，非常切实地感觉到技术对生活的改变。” 在通往理想的征程中，他既站在技术的最前沿，也身处最为日常的场景中。而这二者，本就密不可分。

实时大数据系统是未来基石，蚂蚁金服首席架构师何昌华详解

未来技术基石

离真正的智能有多远？

无人之境

相关阅读

最新教程

最新资讯