开云app在线体育官网

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

开云 豆包大模子眷属首款全模态泄漏模子:字节进步Doubao-Seed-2.0-lite升级

发布日期:2026-05-07 17:12    点击次数:57

开云 豆包大模子眷属首款全模态泄漏模子:字节进步Doubao-Seed-2.0-lite升级

IT之家 5 月 6 日音书,据字节进步旗下火山引擎官方音书,今天,Doubao-Seed-2.0-lite 升级新版块,这是豆包大模子眷属首款全模态泄漏模子,赞成视频、图像、音频、文本原生支持泄漏,Agent、Coding 与 GUI 能力同步升级。在同等算力资本下,是企业大范畴、批量化部署全模态推理任务的更优性价比选拔。

Doubao-Seed-2.0-lite 全新版块已在火山方舟上线。

IT之家附官方致密先容如下:

全模态泄漏:

不啻看懂图文,更能听懂全国

新版块的 Doubao-Seed-2.0-lite 不息在视觉泄漏能力上大幅擢升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表露大幅特地 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身泄漏(ERQA)等关键边界达到 SOTA 水平,更顺应企业在高价值场景范畴化部署。

加粗示意最优弃世,下划线示意次优弃世,下同

融入语音泄漏后,新版块的 Doubao-Seed-2.0-lite 可同期泄漏多种输入模态,并完成跨模态纠合推理,径直处置必须“音画联接”才能判断的复杂业务需求。

在视频泄漏场景下,模子随机纠合分析视频中的画面与音频信息,精确辨析视频中的视听一致性,判断“看到的”与“听到的”是否一致。

同期赞成凭据当然言语教导,在视频中精确定位特定事件发生的期间点;更能跨越多个期间段索取关键陈迹,握续跟踪东谈主物与事件发展,并基于画面进行多步逻辑推理,复原事件联系与活动条理。

OmniVideoBench&WorldSense弃世基于 Gemini-3.1-Pro 测得

在音频上,模子赞成 19 个语种的精确语音转写、中英文与其他 14 个语种互译,还能深度捕捉语音中的姿首变化、环境配景声与音乐细节,输出更好意思满、更接近东谈主类判辨的语义信息。凭据公开评测集,Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频泄漏基准上优于 Gemini-3.1-Pro。

↑ 示意数值越高越优,↓ 示意数值越低越优

Agent 和 Coding 能力升级:

长任务更踏实,胜任前后端深度建筑

Doubao-Seed-2.0-lite 对多轮、多步、多拘谨的用户教导罢免度权贵擢升;不息增强任务反念念推理与多 Agent 协同转机能力,让 Agent 在长程任务中自我拆解、自我校验,不偏题、不遗漏。

Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架,强化深度搜索与 Skill 动态调用,可边施行、边千里淀训戒,越用越聪惠。

模子的 Coding 能力全面障翳前端页面、3D 场景与游戏建筑,寄托居品在视觉好意思不雅度与工程好意思满度上进一步擢升,胜任从原型到上线的前后端深度建筑。

GUI 能力交融:

界面泄漏与操作施行一体化

基于升级的 GUI 能力,开云app在线体育Doubao-Seed-2.0-lite 将“看懂界面”与“入手操作”买通为一条闭环:既能精确识别按钮、菜单、表单、弹窗等界面元素过头状况,也能踏实完成点击、输入、右键、转化、拖拽等 Browser Use 与 Computer Use 操作。

从读懂一张网页,到跨诈欺、跨窗口连络施行一整套业务经由,让 Agent 真确具备“端到端把活干完”的寄托力。

Gemini-3.1-pro 弃世由腹地复现取得,其他模子评测数据开始于官方技能讲演与基准榜单

新版块模子正在解锁更多新场景

全模态泄漏联接握续增强的 Agent、Coding 和 GUI 能力,不错匡助各边界企业用户解锁更多交易化诈欺场景。

以电竞游戏场景为例,鄙人面的 AI 电竞种植比赛例子中,模子纠合分析比赛画面与语音教导,围绕准星、身法、谈具、经济、对枪、声息反映等游戏中的多维信息作念切片点评;基于视频深度解构能力,跨越整场比赛的多个回合跟踪统一选手的走位与决议轨迹,赛青年景高光 / 演叨图谱与期间轴复盘。

依托 Agent Harness 框架,模子可连络施行跨越 25 小时的长程任务,像真东谈主种植一样精确指出玩家的擢升提倡。

此外,AI 电竞种植的整套交互界面也由 Doubao-Seed-2.0-lite 模子径直生成 —— 从战况图谱到期间轴复盘卡片,排版整洁、层级显著,视觉好意思不雅度与工程好意思满度均达到可上线的水准。

在在线种植场景中,用户也不错在 ArkClaw 中调用该模子,完成高效互助。模子定时稽查英语课堂教诲摄像,识别视频中本分和学生的教诲和学习状况、白话发音与姿首变化,发送给班主任和教诲组长;随后调用模子 Coding 能力,还能自动生成包括课堂亮点、学生表露高光时刻等可视化课堂表露讲演,发送给学生家长。

在国外电商运营场景中,在 Hermes Agent 中,基于模子出色的 GUI 能力,自主掀开浏览器,在国外电商平台上搜索英、法、西、德等多言语的口红爆款视频,一键下载至腹地,拆解口播、 BGM、分镜与案牍成分,并回写 Skill 库;随后调用视频生成能力,生成适用于国外引申的多言语版视频,并自动登录电商平台发布,施行过程遏抑进化 Skills。

此外,Doubao-Seed-2.0-mini 全新版也已同步上线,相通赞成全模态泄漏,对比上一版块,念念考长度大幅缩小开云,Tokens 效果更高。

金沙电玩城app官方下载




Copyright © 1998-2026 开云app在线体育官网™版权所有

备案号 备案号: 

技术支持:® RSS地图 HTML地图