×

开云(中国)2026世界杯官方推荐 阶跃发布并开源Step 3.7 Flash,“多快好省”拉高模子后果上限

发布时间:2026-06-05 01:30 来源:未知 作者:admin 浏览:143

今天(5月29日),基础大模子创业公司阶跃星辰(StepFun)发布并开源Step 3.7 Flash模子。这是一款专为坐褥级Agent打造的Flash模子,官方称其尽力于在速率、本钱、可靠实施和复杂任务惩办智力之间罢了更好均衡。

现时,Agent正在从演示阶段快速走向信得过的企业坐褥环境,这对基础模子竞争提倡了全新条目:不仅仅追求峰值智能,而要追求好像在愚弄场景罢了限制化的高效智能。这意味着模子不仅要呈文问题,更要集会复杂输入、主动搜索信息、牢固调用器具,并在多轮长程任务中保合手实施一致性。

阶跃星辰官方先容,Step 3.7 Flash选拔寥落MoE架构,总参数196B+1.8B(ViT)、激活参数仅11B ,最高生成速率可达400Tokens/s,特殊稳妥高频、多轮的Agent愚弄场景,能权贵提高任务完成后果。值得蔼然的是,模子针对坐褥级Agent场景需求优化了要津智力:原生多模态集会与实施、联网与视觉搜索增强、高可靠器具调用与编排及Agent生态兼容优化。

Step 3.7 Flash好像获胜惩办UI界面、图表、文档、图片以及各种愚弄界面,并将复杂视觉信息波折为结构化截止和可实施任务,并在信息不细目时主动发起搜索进行交叉考证;而在坐褥级Agent最中枢的器具调用可靠性上,Step 3.7 Flash进行了针对性优化,可在长程多轮使命流中牢固调用API、浏览器、末端、Office器具等,权贵镌汰跑偏和实施失败风险。

2026世界杯竞猜中国官网

Step 3.7基准测试截止

基准测试闪现,kaiyun体育网页版登录入口Step 3.7 Flash在SimpleVQA(Search)、V* (Python)等复杂视觉任务Benchmark上,展现出比好意思更大限制旗舰模子的智力表现。而在试验多器具协同的Toolathlon上,这款模子的分值达到了49.5%,并在试验信得过环境下昔日自主任求实施的ClawEval-1.1上达到了67.1%;在横跨44种做事的GDPval上达到了45.8%;在τ²-bench Telecom的低、中、高三档推理难度下通过率均达到98%以上。

这意味着,它能在多轮Agent使命流中牢固调用API、浏览器、末端、Office和外部系统,保合手任务轨迹一致,镌汰跑偏和实施失败。

阶跃还对主流Agent框架和器具调用合同进行了兼容优化,可牢固接入Claude Code、OpenClaw、Hermes Agent等主流Coding与Agent器具,并支合手云表部署与腹地部署,镌汰缔造者接入和使命流编排本钱。

业内东说念主士以为,跟着百行万企加快推动Agent落地,Step 3.7 Flash的盘算理念也响应出Flash类模子的变装调治:从单纯的轻量替代品,慢慢成为复旧坐褥级Agent限制化落地的基础步伐。本年2月,阶跃开源了该系列上一个版块模子Step 3.5 Flash,不异主打极速、高效地完成Agent场景任务,上线一个月即登顶OpenRouter平台OpenClaw调用量月榜群众第一。

阶跃暗示,后续将围绕Step 3.7 Flash推诞生态共建计较和生态伙伴限时体验举止,与缔造者一说念探索Agent后果的评估表情、工程试验和坐褥化旅途。

【国内绽开平台API接入】开云(中国)2026世界杯官方推荐