时间:26-04-22
北京时间今天凌晨,谷歌扔出了一枚重磅技术冲击波——全新的 Gemini Embedding 2 模型正式发布。这可不是一次简单的迭代,它是谷歌首个原生的多模态嵌入模型。简单来说,从此以后,文字、图像、视频乃至整个文档,都能被它映射到同一个“理解空间”里,让机器用一种前所未有的统一视角来“看”世界。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这里需要先分清一个概念:嵌入模型和咱们常聊的生成式模型(比如 Gemini 3)走的不是一条路。生成式模型负责“创造”,而嵌入模型的核心任务是“理解”。它的工作,是把一段文本、一张图片或一段视频,转换成机器更容易读取和分析的数学形式(通常是向量)。
那么,这种转换有什么实际价值呢?关键在于语义。通过语义搜索、分类和聚类这些方式,嵌入模型能够捕捉到信息之间深层次的含义关联。因此,它提供的结果往往比传统的关键词匹配更精准,也更贴合上下文,真正从“匹配词汇”升级到了“理解意图”。
回顾谷歌的嵌入模型发展,早期的版本其实只支持文本处理。而这次的 Gemini Embedding 2,堪称一次全方位的“感官开放”。它一举支持了文本、图像、视频、音频和文档五种模态,并且能在超过100种语言中识别用户的语义意图,野心不小。
当然,能力越大,处理起来也越需要清晰的规则。不同数据类型的处理限制如下:
文本:上下文窗口最高支持8192个tokens。
图像:每次请求最多处理6张,支持 PNG 和 JPEG 格式。
视频:输入视频最长120秒,支持 MP4 和 MOV 格式。
音频:一个亮点是,它可以直接处理原始音频数据,省去了先转录成文字的麻烦步骤。
文档:最多可支持6页的 PDF 文件。
谷歌在官方博客中特别强调,新模型的目标是双重的:一是简化那些原本复杂的多模态数据处理流程;二是全面增强各类应用的多模态理解能力。哪些应用会因此受益?范围很广,从当前火热的检索增强生成(RAG)、更智能的语义搜索,到细致的情感分析和大规模数据聚类,都能看到它的用武之地。
更妙的是,这个模型还支持在一次请求中接收混合输入,比如“图像+文本”。这意味着它能同时分析不同媒体类型之间的关系,而不是孤立地看待它们。这无疑是向真正的跨模态理解迈出了一大步。
举个具体的例子吧。在法律领域的诉讼取证阶段,面对海量的证据材料(包括合同文本、监控视频、沟通录音),法律专业人士如何快速定位关键证据?Gemini 嵌入模型就能大显身手。测试结果显示,在数百万条记录的数据库中进行搜索时,多模态嵌入技术能显著提升检索的精度和召回率,同时让图像与视频的搜索效果也上了一个台阶。
目前,Gemini Embeddings 2(具体型号为 gemini-embedding-2-preview)已经通过 Gemini API 和 Vertex AI 平台开放了公开预览。值得注意的是,原先的纯文本嵌入模型 gemini-embedding-001 并未退役,它将继续服务于那些只需要处理文本的轻量级应用场景。谷歌这次是扩展了能力边界,而非简单地替换,策略相当清晰。