迪士尼彩乐园3手机版豆包1.5 Pro重磅更新！7倍MoE性能杠杆，“不使用任何其他模子数据”

这场战争由于双方实力差距太大，加上美国将体系化和信息化作战模式玩得炉火纯青，最终只打了43天就宣告结束。而海湾战争也开创了现代化战争的时代，因为在这场战争中，美军投入了大量的现代化武器装备，那么，你知道美军总共花费了多少军费吗？

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

春节前这一波大模子荒诞加更，字节也发轫了，最新登场的是豆包全新基础模子——

Doubao-1.5-pro。

豆包“演技精熟”的真东谈主级语音对话功能刚刷屏，仅隔一天，背后基础模子字节也给抖落出来了。

先玩赏一波此豆包的献艺：

以下视频起头于

豆包大模子团队

基础模子登场，背后团队不仅放出细节满满的本领博客，还躬行给划了重心：

张开剩余94%

MoE架构，仅用较小激活参数，就能达到宇宙一流模子性能，性能杠杆达到7倍

数据坐蓐体系高度自主，不使用任何其他模子数据

多模态才能全面进步

MoE架构，仅用较小激活参数，就能达到宇宙一流模子性能，性能杠杆达到7倍

数据坐蓐体系高度自主，不使用任何其他模子数据

多模态才能全面进步

更妙的是，Doubao-1.5-pro官宣即上线，火山方舟体验网址同步盛开，同期也在豆包APP灰度上线。

这还等什么，固然是第一时候上手实测啦。

就着本领博客，我们也来扒一扒背后更多本领细节，沿途往下看~

实测豆包1.5系列

Talk is cheap，show me the product。

官方提到，Doubao-1.5-pro模子概述才能有权贵增强，在学问、代码、推理、汉文等多个巨擘测评基准上都达到SOTA。

那么启航点，来看刻下大模子圈最卷的推理才能。

推理才能实测

先浅陋来谈逻辑判断题，望望Doubao-1.5-pro能不行接住。

某校食堂发生了沿途严重的食品中毒事故，对于事故的原因，有如下四种说法：

甲：事故是由食品过时引起的

乙：如若事故是由食品过时引起的，那么食堂不竭方面一定存在着监管不到位的夸口

丙：事故照实是由食品过时引起，但食堂不竭方面并不存在监管不到位的夸口

丁：事故不是由食品过时引起的，但食堂不竭方面存在监管不到位的夸口

如若上述四种说法中唯有一种是真是，由此不错推出

A. 乙为真，且食堂存在监管不到位的夸口

B. 乙为真，但食堂莫得存在监管不到位的夸口

C. 甲为真

D. 丙为真

某校食堂发生了沿途严重的食品中毒事故，对于事故的原因，有如下四种说法：

甲：事故是由食品过时引起的

乙：如若事故是由食品过时引起的，那么食堂不竭方面一定存在着监管不到位的夸口

丙：事故照实是由食品过时引起，但食堂不竭方面并不存在监管不到位的夸口

丁：事故不是由食品过时引起的，但食堂不竭方面存在监管不到位的夸口

如若上述四种说法中唯有一种是真是，由此不错推出

A. 乙为真，且食堂存在监管不到位的夸口

B. 乙为真，但食堂莫得存在监管不到位的夸口

C. 甲为真

D. 丙为真

Doubao-1.5-pro的恢复是酱婶的：

想路梳理得终点了了，谜底亦然准确的。

加大极少难度，给豆包上点狡计量，收尾又会怎样？

一个外星东谈主来到地球后，第一天有相等的可能弃取以下四件事中的一件完成:

1、自我废弃;

2、分裂成两个外星东谈主;

3、分裂成三个外星东谈主;

4、什么都不作念。

尔后每天，每个外星东谈主均会作念一次弃取，且相互之间互相寂静，求地球上最终莫得外星东谈主的概率

一个外星东谈主来到地球后，第一天有相等的可能弃取以下四件事中的一件完成:

1、自我废弃;

2、分裂成两个外星东谈主;

3、分裂成三个外星东谈主;

4、什么都不作念。

尔后每天，每个外星东谈主均会作念一次弃取，且相互之间互相寂静，求地球上最终莫得外星东谈主的概率

来看Doubao-1.5-pro的粗心：

交流的指示词下，Claude 3.5 Sonnet一通输出，却在临了给谜底的时候翻车了：

这一题，Doubao-1.5-pro也顺利过关。

值得一提的是，豆包大模子团队提到，Doubao-1.5-pro还经过了视觉、语音等多模态才能的“特训”。那么临了，我们再加试一谈图片推理题：

看来跟豆包用颜料包聊天，是不成问题了（doge）。

代码才能实测

测完推理才能，再来望望表率员们最蔼然的代码才能。

第一题，来个其时被o1-pro顺利拒却恢复的离谱需求：

只用HTML代码复刻经典游戏《废弃战士》。

Doubao-1.5-pro也清晰：这分离理。

尽管如斯，Doubao-1.5-pro如故试图安闲我们“五彩斑斓的黑”的需求，主动提议治理决策：

不错使用HTML勾通CSS和Java来创建一个简化的、具有《废弃战士》格调元素的小游戏示例。

发轫这些代码，就能得到一个浅陋的射击小游戏界面，尽管厚爱要跑起来还需要微调细节，但大体框架并莫得什么问题。

端到端语音功能

语音多模态方面，在Doubao-1.5-pro的加持下，豆包APP照旧全量上线了新版及时语音对话功能。

于是，我们让豆包学华妃娘娘的口吻，送了一波新春道贺：

这效法才能和领路才能，你给打几分？

未使用任何其他模子蒸馏数据

一波实测下来，豆包大模子1.5 Pro不愧是压轴出场的变装，概述才能莫得让大家伙儿失望。

而多个公开评测基准上的亮眼得益，也从更客不雅的角度体现了Doubao-1.5-pro刻下的身位。

不错看到，Doubao-1.5-pro照旧达到业界最初水平，在汉文才能上，更是逾越了GPT-4o和Claude 3.5 Sonnet等海外大模子。

另外，迪士尼彩乐园在视觉和语音等多模态才能上，Doubao-1.5-pro相通获取了亮眼的得益。

比如在视觉推理任务中，Doubao-1.5-pro的推崇不逊色于GPT-4o：

值得关注的是，这一次模子上新，豆包大模子团队也在官方博客中释出了更多本领细节。

接下来，我们就来划拉划拉重心。

性能杠杆进步至7倍

从Tokens使用量来看，截止12月中旬，豆包大模子的日均Tokens使用量照旧逾越4万亿，印证了Doubao API和豆包居品的海量推理需求。

为此，豆包团队从预历练阶段就相持历练-推理一体瞎想，以平衡模子性能和推理本钱。

具体而言，Doubao-1.5-pro遴选寥落MoE架构，团队通过对寥落度Scaling Law的盘算，详情了性能和遵守比拟平衡的寥落比例，并左证MoE Scaling Law详情小参数目激活的模子就能达到宇宙一流模子的性能。

在预历练阶段，仅用较小参数激活的MoE模子，性能即可逾越Llama3.1-405B等超大繁多预历练模子。

同期，在完全交流的部分历练数据（9T tokens）对比考证下，激活参数仅为1/7繁多模子参数目的MoE模子，推崇逾越了繁多模子，性能杠杆进步可达7倍。

此前，业界在这一新能杠杆上的广泛水平为不到3倍。比如IBM的Grantie系列模子中，800M激活的MoE模子性能不错接近2B总参数的繁多模子，性能比值约为2.5倍。

高效后历练进程

在近来大模子们集会元气心灵卷的PostTraining上，豆包大模子团队构建了一套高度自主的数据坐蓐体系。

其中最值得关注的极少是：不使用任何其他模子的蒸馏数据，确保数据起头的寂静性和可靠性。

SFT阶段，团队开发了一套算法驱动的历练数据优化系统，涵盖历练数据种种性优化，以及精准东谈主题匹配功能，并勾通模子自演进（Self-evolve）本领，进步数据标注的种种性和难度，造成了模子性能进步的良性轮回。

奖励模子（Reward Model）部分，团队开辟了包含prompt散布优化、response筛选、多轮迭代和active learning的圆善数据坐蓐pipeline。

在此基础之上，为了杀青模子在数学、编程、学问、对话等多维度才能的平衡进步，团队通过深度交融Verlfier和奖励模子，构建了长入的Reward框架。

此外，基于梯度筛选和迭代过滤本领，豆包大模子团队用25%的数据，大概达到近似全量的历练遵守。

强化学习（RL）阶段，团队攻克了价值函数历练难点，杀青了token-wise富厚建模，在高难度任务上的性能进步逾越10个完全点。并通过对比学习表率，灵验进步了模子推崇，权贵缓解了reward hacking问题。在数据、算法、模子层面全面杀青了 Scaling 。

字节最擅长的AB Test教学也被引入了豆包大模子的Post-Training全进程。基于豆包的大领域用户反映，研发团队构建了从问题发现、数据挖掘、东谈主机勾通标注到快速迭代的闭环优化系统，以让用户数据飞轮能持续作用于模子本色使用体验的进步。

One More Thing

另外，豆包官方还低调融会了一嘴“深度想考花样”的音信。

研发团队在完全不使用其他模子数据的条目下，通过RL算法龙套和工程优化，充分阐明test time scaling的算力上风，照旧杀青了豆包深度想考模子。

团队清晰，跟着RL的持续，模子才能还在接续进步中：

在这一过程中，我们也看到了推理才能在不同领域的泛化，智能的鸿沟正在被迟缓拓宽。

如斯说来，下一个版块的豆包更新，不错期待起来了。

豆包的远谋

回归一下豆包1.5背后的本领想路，有两个关键词浮出水面：高效，以及“不走捷径”。

遴选顶级模子蒸馏数据，在业内照旧是心照不宣的秘诀，连C端用户，也对A模子口吐“我是B模子”之语见怪不怪。

OpenAI CEO奥特曼我方曾经清晰，复刻o1并莫得杀青o1自己那么难：

一方面，是在本领改进角度上，从0到1远比从1到100穷困得多。

另一方面，多数的学术论文和产业施行已教学证，蒸馏顶级模子数据对于历练基础模子而言，不错说是一条“捷径”。

固然，这条捷径上也并非莫得坑。

启航点是数据安全问题。

蒸馏其他模子的数据，对于模子开发者而言，自然存在不可控的风险。西宾模子的偏见、无理以及版权问题等，都可能会被传递给学生模子。

另外，这一本领决策也可能戒指模子的性能上限。

近期就有一线大模子创业者抒发了访佛不雅点：如若一定要把模子去对都一个别的模子，比如GPT的收尾，会有一些才能受限。

如斯看来，此番豆包公开强调“不使用任何其他模子数据”，背后融会出的是国内第一梯队大模子居品更长期的布局想路：

不走捷径，确保数据起头的寂静性、可靠性、可控性。在追求更高智能的恒久龙套的过程中，把主动权更多地把捏在我方手中。

刻下，这种自主本领、恒久意见的想路，也正在阛阓上得到正反映：

火山引擎Tokens日均滥用量的月均复合增长率逾越60%，2024年12月日均Tokens阛阓份额占比已超50%，坐上大模子商用年度头把交椅。

体验地址：

https://www.volcengine.com/

— 完—迪士尼彩乐园3手机版

发布于：北京市

迪士尼彩乐园3手机版豆包1.5 Pro重磅更新！7倍MoE性能杠杆，“不使用任何其他模子数据”

电话咨询

迪士尼彩乐园三邀请码

迪士尼彩乐园

迪士尼彩乐园3手机版 豆包1.5 Pro重磅更新！7倍MoE性能杠杆，“不使用任何其他模子数据”

电话咨询

迪士尼彩乐园三邀请码

迪士尼彩乐园

迪士尼彩乐园3手机版豆包1.5 Pro重磅更新！7倍MoE性能杠杆，“不使用任何其他模子数据”