抖音副总裁李亮:希望用更低成本推动 AI 技术普惠和应用发展
字节跳动发布豆包视觉理解模型,千tokens输入定价仅3厘
火山引擎Force大会上传来一个重磅消息:字节跳动正式推出了豆包视觉理解模型,旨在为企业提供强大的多模态大模型能力。最引人注目的无疑是其定价策略——千tokens输入价格仅为3厘。换算一下,一元钱就能处理多达284张720P的图片。官方给出的数据更是直白:这个价格,比行业普遍水平足足便宜了85%。
这样的定价,难免让人联想到“价格战”。但抖音集团副总裁李亮随后的发文,给出了另一番解读。他强调,这绝非简单的市场策略。
- 这不是价格战。豆包大模型通过技术创新来降低成本,在算法、软件工程和硬件方案上做了非常多优化,3 厘 / 千 tokens 的定价也有可观的毛利。而且这是一步到位的透明价格,并不是“刊例价 + 折扣”的玩法。我们希望用更低成本推动 AI 技术普惠和应用发展,就像谭待说的:‘好的模型就是要让每一家企业都用得起。’
话说回来,降低成本只是故事的一面。本次大会的另一个焦点,是豆包3D生成模型的正式亮相。这个模型可不止是生成静态图像那么简单。当它与火山引擎的数字孪生平台veOmniverse结合时,就组成了一套智能工具箱——从智能训练、数据合成到数字资产制作,都能一气呵成。官方将其定位为“一套支持AIGC创作的物理世界仿真模拟器”,野心可见一斑。
与此同时,豆包大模型家族的其他成员也迎来了重要升级:
- 豆包通用模型 pro:性能上已全面对齐GPT-4o,但使用价格仅为后者的八分之一;
- 音乐模型:生成长度实现突破,现在可以生成完整的3分钟音乐作品;
- 文生图模型 2.1 版本:能力更加细腻精准,不仅能准确生成汉字,还能实现“一句话P图”的便捷操作,目前已经接入即梦AI和豆包App。
这一系列动作下来,信号已经相当明确:通过极致的技术优化压低成本,再以一步到位的低价推动技术落地。AI这场牌局,玩法正在悄然改变。
