对 Agentic AI 的支撑,快成这家大厂的OKR了

发布时间:2025-06-12 21:41  浏览量:1

作者 | 骆驼

我一直认为,火山引擎是一家比较有气质的云计算企业——思维新颖,动作很快,且打法总是直来直去。

比如说,从 2024 年年底至今,火山引擎已经将 AI 云原生的框架刷新了三次——从以 GPU 为核心,到以模型为核心,再到今天,以 Agentic AI 为核心。在 6 月 11 日的 Force 原动力大会上,火山引擎总裁谭待聊到,在不同的时代里,技术主体也在发生变化,PC 时代的主体是 web,移动时代是 APP,AI 时代是 Agent。

主体发生变化,连带对基础模型和基础设施的选型标准,也会发生变化。但火山的策略非常偏“直给型”——在火山看来,在提供更详细的网络、存储、算力技术参数前,应该先把基础模型的性能提上去,价格降下来。

豆包大模型,又更新了

在沙丘智库对《Practices for Governing Agentic AI Systems》的解读中,Agentic AI 的代理能力被划分为四个维度:

目标复杂性: 目标复杂性是指 AI 系统的目标对于人类来说实现起来的挑战程度,以及系统能够实现的目标范围有多广。

环境复杂性: 环境复杂性是指 AI 系统实现目标时所处环境的复杂程度。

适应性: 适应性是指 AI 系统在面对新的或意外情况时的适应和反应能力。

独立执行: 独立执行是指 AI 系统在实现其目标时,能够在多大程度上可靠地运作,而不需要人类的干预或监督。

相对应的,谭待认为,能够解决以上问题的基础模型,至少要具备三个方向的突出能力:

深度思考

多模态

工具使用

相应地,豆包系列大模型本次的更新重点,是 doubao-seed-1.6,doubao-seed-1.6-thinking 和 doubao-seed-1.6-flash 三个模型。

Doubao-Seed-1.6 是一款功能全面的综合模型,它提供了关闭深度思考、开启深度思考和自适应思考三种模式供用户灵活选择。支持深度思考、多模态理解和图形界面操作等能力。该模型也是国内首个支持 256K 上下文长度的综合模型。

Doubao-Seed-1.6-thinking 有着更强的深度思考能力,在编码、数学、逻辑推理等领域上具备出色的表现,同样支持 256K 长上下文处理。

Doubao-Deed-1.6-flash 服务于对延迟要求更高、对成本更敏感的客户。 模型的 per token 延迟低至 10ms,在如此出色的延迟之下,flash 模型依然具备了强大的视觉理解能力。

从官方数据来看,豆包 1.6 系列的更新并没有做到全部测试的“屠榜”,但在 Agentic AI 方面,位于第一梯队。比如,doubao-seed-1.6-thinking 在 GPQA Diamond(推理能力)和 MultiChallenge(指令执行)榜单上表现都很不错,超越了 DeepSeek-R1-0528。有媒体称,用 doubao-seed-1.6-thinking 针对高考数学全国卷学做了单科评测,豆包 1.6 成绩是 144 分,是国内第一。

此外,基于豆包 1.6 系列模型,豆包 APP 可以实现“边想边搜”和“DeepResearch”。前者的意思是,豆包 1.6 可以结合思维链,进行多轮搜索,使得到的结果质量更高,而不是像过往的推理模型一样,一次性将所有的联网搜索任务执行完;后者则是单独服务于深度研究场景,可以更便捷地给出研究成果。

就深度思考这一维度而言,豆包 1.6 问题不大。

关于多模态和工具使用能力,豆包 1.6 系列的能力也比较强。1.6 系列模型支持了豆包 APP 最新的实时视频通话功能,在企业侧可应用于电商商品审核、自动驾驶标注、安全巡检等场景。1.6 系列模型对 GUI 的操作也十分精准——如果基于豆包 1.6 部署和运行 AI Agent,那么 AI 完全可以代替对不同的网站进行精准检索、信息收集,任务交付的质量更接近真人。

豆包在多模态领域的更新不止于此,最新的豆包视频生成模型 Seedance 1.0 pro 也同时发布了。官方称,Artificial Analysis 最新结果显示,豆包视频生成模型在文生视频、图生视频两个维度超越了业界诸多主流模型,登顶全球竞技场第一。

性能提升了,价格却降低了,低到了一个令人惊讶的区间。

行业的普遍情况是,使用同一个模型完成通用问答任务、推理任务、多模态任务,Token 的价格是不一样的。谭待表示,影响模型成本的关键是输入、输出长度,因此从豆包 1.6 系列开始,无论是推理任务还是多模态任务,价格统一。

豆包 1.6 官方给出的价格是,输入上,每百万 Token 0.8 元到 2.4 元;输出上,每百万 Token 8 元 到 24 元。因输入、输出区间 Token 多寡不同,价格会在几个档位间进行浮动。

这意味着,在输入输出占比为 3:1 的情况下,每百万 Tokens 的综合成本只有 2.6 元,对比豆包 1.5 深度思考模型和 DeepSeek R1 下降了 63%。如果输入在 32K Tokens 以内,输出在 200 Tokens 以内,此价格还会进一步降低,为 0.8 元 / 百万 Tokens(输入)、2 元 / 百万 Tokens(输出)。

按照 OpenAI 和国内主流模型的 Token 换算规则,一百万 Token 大致相当于 150 万汉字左右,也就是说,花上二三十块钱,几乎就能生成一本完整的网络小说,或者重整中小型公司的整个知识库。

考虑到当前 Agentic AI 类任务的输出结果,非常多样化,除视频生成模型外,实时语音模型、语音播客模型也迎来全面更新。

把品类丰富好,性能提升到位,价格降到足够低,火山将这条优化思路,执行的非常彻底。

如何保障 AI Agent 落地生产环境?

当然,仅仅更新基础模型,绝不是火山引擎的风格。在 Force 原动力大会的开场致辞中,梁汝波提到,做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。而火山引擎本质还是一家云计算公司,要保障客户的 AI Agent 可以平滑地落地生产环境。

火山是通过 Agent 开发平台、数据、AI 基础设施、安全等几个不同的维度来做技术保障的。

对于 Agent 开发平台而言,火山的产品体系是国内最完备的——最上层有 TRAE 作为 AI IDE,火山方舟、HiAgent、扣子、PromptPilot 可以在各个维度提供 AI Agent 的构建服务。在数据问题上,为了支撑 AI Agent 落地,火山给出的建议是建设多模态数据湖,造好 AI 时代的数据新基建。火山引擎数智平台负责人郭东东指出,在迈向 AI Agents 的进程中,数据领域呈现出两大趋势。其一,非结构化数据的占比越来越高。尤其是在多模态技术兴起后,如何从非结构化数据中深度洞察有价值的信息,成为关键问题。其二,结构化与非结构化数据会融合,即多模态数据的融合将成为主流趋势。这也是为什么,企业需注意重构大数据基础设施。

AI 基础设施是由 AgentKit(Agent 套件)、TrainingKit(训练套件)、ServingKit(推理套件)构成的 AI 基础设施套件三角,这部分对业务的提速和降本最为直接。

AgentKit 是火山引擎面向企业级 AI Agent(智能体)开发与部署推出的全栈解决方案,目标是降低企业构建自主决策型 AI Agent 的门槛,提升任务执行的可靠性和效率。目前,AgentKit 支持 Tool Use(工具调用协议)和 MCP Servers(Model-Centric Platform,连接模型与外部服务的协议),可无缝接入超过 200 个 MCP 工具生态。

对 MCP 工具生态的评估,当下还存在很大不确定性——有人称其为 GenAI 时代的“Type-C”,有人认为 MCP 不过企业宣传自身 SDK 的借口,价值不大。但 MCP 之于工具生态的价值,与其和云服务的结合程度呈正相关。火山引擎智能算法负责人、火山方舟负责人吴迪表示,火山引擎的 MCP Servers 已经与 AI 原生 IDE Trae、 方舟体验中心、 Coze 打通。与云的链接,是火山 MCP 服务的重要特色。 开发者可以通过 MCP,控制火山引擎的云服务组件, 便捷地完成计算、网络、存储等环境部署。 更快的把一个创意,变成一个成熟的产品。

TrainingKit 则是火山引擎训练套件,是面向机器学习应用开发者的企业级云原生平台,提供开发机、自定义任务、实验管理等丰富的建模调试工具以及多框架高性能推理服务。其核心评估指标是 MFU(Model Flops Utilization)训练算力实际利用率,MFU 越高,GPU 空闲时间越低。TrainingKit 将 MFU 提升了 60%,意味着可使 GPU 集群接近理论的算力峰值。

至于 ServingKit,目标是为企业提供从模型部署、推理优化到运维观测的一站式解决方案。套件内涉及多项服务,包括镜像服务、算子加速器、AI 网关等等。因为推理和视觉理解过程中的算力消耗巨大,所以 Serving Kit 可帮助用户降低成本,满足不同生态下的推理性价比需求。根据官方数据,ServingKit 可以帮助将 TTFT 降低 60%、TPS 吞吐提升 3x,可以显著改善推理业务用户体验。

我们可以换个角度看待 AgentKit、TrainingKit、ServingKit,它们对应着企业在部署 AI 业务时,所重点考察的三个维度效率、成本和体验。今天,在帮助企业加速 AI Agent 落地时,效率、成本、体验三角,甚至已经成为最主要的采购和选型框架。

在六月的 Force 大会上,还有一个明确的信号被透露出来:安全话题被重点提及,说明产业落地 AI Agent 已经快速跨过了早期的观望和调研阶段,开始实际的项目实施和落地。火山引擎认为,安全是一切 Agent 运行的基础,所以一口气发布了两款 AI 安全产品:一是 AICC 密态计算,保障推理链路 100% 不留痕、不泄露;二是大模型应用防火墙,日均拦截数十亿次恶意攻击。

整体看下来,火山引擎恐怕是第一个以 Agentic AI 重构全套基础设施的云计算企业,势必也将对行业部署 AI Agent 的思路产生非常大的影响。云计算行业其实有更重要的命题需要求解:Agentic AI 的商业价值,最终取决于其嵌入现实生产系统的深度,AI 产业正从“技术驱动”转向“需求驱动”的新周期。谁能将 AI Agent 从 Demo 转化为企业的“数字生产力”,谁就能在智能化转型中掌握更多定义行业规则的话语权。

今日好文推荐

游戏教父 John Carmack:LLM 不是游戏的未来

12年首次大改!真有人喜欢苹果的“液态玻璃”吗?至少Flutter 开发者的噩梦开始了

TypeScript“杀疯了”!60% 到 70% YC 创企用它构建 AI Agent,赶超 Python 有戏?

“不是 Cursor 不够强,是 Claude Code 太猛了” !创始人详解Claude Code如何改写编程方式

6 月 27~28 日的 AICon 北京站将继续聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent 构建、多模态应用、大模型推理性能优化、数据智能实践、AI 产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索 AI 应用的无限可能!