MWC 2024:高通推出全新 AI Hub,助力 AI 推理速度最高提升 4 倍
2024 年世界移动通信大会已经拉开序幕
今年的MWC,5G和AI依然是舞台中央无可争议的主角。各大厂商的动向,也清晰地指向了同一个方向:如何让AI更快、更高效地落地到我们手边的设备里。这不,高通就在本届MWC的发布活动中,正式推出了一个关键工具——全新的高通AI Hub。它的目标很明确:成为开发者的资源中枢,让大家能更轻松地基于骁龙或高通平台,打造出下一代AI应用。
那么,这个AI Hub具体能做什么?简单说,它提供了一个经过全面优化的AI模型库,覆盖了从传统AI模型到当下火热的生成式AI模型。开发者想要在某个骁龙或高通平台上部署AI功能,过程被大大简化了:只需要在Hub里选定所需的模型、确定自己使用的开发框架,再指明目标平台——比如某一款特定型号的手机或硬件,剩下的事就可以交给AI Hub。它能够针对这个具体的应用和平台组合,交付一个深度优化后的模型。对于开发者而言,仅需几行代码就能获取并集成模型,开发门槛和周期都将显著降低。
目前,高通AI Hub计划支持超过75个AI模型。重点在于“优化”二字。经过这套流程处理的模型,在终端设备上运行AI推理的速度,据说最高可以提升4倍。这不仅仅是速度的飞跃,优化还带来了实实在在的能效提升——模型对内存带宽和存储空间的占用减少了,这意味着设备续航更持久,发热也可能得到更好控制。
这些优化后的模型,将会在高通AI Hub、以及开发者熟悉的HuggingFace和GitHub平台上同步提供。目的只有一个:让开发者能够以最便捷的方式,将这些强大的AI模型整合进自己的工作流。
除了AI Hub这项平台服务,高通在现场的演示也同样颇具看点。他们展示了全球首个在搭载第三代骁龙8的安卓手机上运行的多模态大模型。这个参数量超过70亿的模型,能够同时处理文本、语音和图像输入,并在此基础上与用户进行多轮对话,展示了强大的端侧AI交互潜力。
与此同时,在搭载全新骁龙X Elite平台的Windows PC上,另一个多模态AI演示登场了。这是全球首个在Windows PC上运行的音频推理多模态大模型。它的能力很有趣:能够识别并理解环境中的各种声音,无论是鸟鸣、音乐还是家里的异常响动,然后基于这些声音信息与用户对话,提供相应的帮助。
举个例子,当你告诉它正在听的音乐类型和风格时,它不仅可能为你讲解这首音乐的历史背景,还能推荐相似风格的作品,甚至可以通过对话指令来调节周围播放的音乐。所有这些复杂的交互,其核心模型都经过精心优化,在确保出色性能的同时追求最高能效,并且完全在终端侧运行。这带来的好处显而易见:增强了用户隐私、提升了响应可靠性、便于实现个性化体验,同时也免去了云端计算的成本。
还有一项技术值得关注,那就是高通首个在安卓手机上运行的LoRA模型演示。LoRA技术的妙处在于,它能在不改动底层大模型本身的前提下,通过附加一个很小的适配器(大小仅约为原模型的2%),来调整或定制模型的生成行为。这为实现个性化AI提供了一条高效路径。
演示中,模型能够根据不同用户的个人偏好或艺术风格,生成高质量的自定义图像。当然,这项技术的应用远不止于图像生成,它同样可以应用于大语言模型等多种生成式AI场景,堪称是低成本实现AI个性化定制的高效方式。

