这场战争由于双方实力差距太大,加上美国将体系化和信息化作战模式玩得炉火纯青,最终只打了43天就宣告结束。而海湾战争也开创了现代化战争的时代,因为在这场战争中,美军投入了大量的现代化武器装备,那么,你知道美军总共花费了多少军费吗?

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

春节前这一波大模子荒诞加更,字节也发轫了,最新登场的是豆包全新基础模子——

Doubao-1.5-pro。

豆包“演技精熟”的真东谈主级语音对话功能刚刷屏,仅隔一天,背后基础模子字节也给抖落出来了。

先玩赏一波此豆包的献艺:

以下视频起头于

豆包大模子团队

基础模子登场,背后团队不仅放出细节满满的本领博客,还躬行给划了重心:

张开剩余94%

MoE架构,仅用较小激活参数,就能达到宇宙一流模子性能,性能杠杆达到7倍

数据坐蓐体系高度自主,不使用任何其他模子数据

多模态才能全面进步

MoE架构,仅用较小激活参数,就能达到宇宙一流模子性能,性能杠杆达到7倍

数据坐蓐体系高度自主,不使用任何其他模子数据

多模态才能全面进步

更妙的是,Doubao-1.5-pro官宣即上线,火山方舟体验网址同步盛开,同期也在豆包APP灰度上线。

这还等什么,固然是第一时候上手实测啦。

就着本领博客,我们也来扒一扒背后更多本领细节,沿途往下看~

实测豆包1.5系列

Talk is cheap,show me the product。

官方提到,Doubao-1.5-pro模子概述才能有权贵增强,在学问、代码、推理、汉文等多个巨擘测评基准上都达到SOTA。

那么启航点,来看刻下大模子圈最卷的推理才能。

推理才能实测

先浅陋来谈逻辑判断题,望望Doubao-1.5-pro能不行接住。

某校食堂发生了沿途严重的食品中毒事故,对于事故的原因,有如下四种说法:

甲:事故是由食品过时引起的

乙:如若事故是由食品过时引起的,那么食堂不竭方面一定存在着监管不到位的夸口

丙:事故照实是由食品过时引起,但食堂不竭方面并不存在监管不到位的夸口

丁:事故不是由食品过时引起的,但食堂不竭方面存在监管不到位的夸口

如若上述四种说法中唯有一种是真是,由此不错推出

A. 乙为真,且食堂存在监管不到位的夸口

B. 乙为真,但食堂莫得存在监管不到位的夸口

C. 甲为真

D. 丙为真

某校食堂发生了沿途严重的食品中毒事故,对于事故的原因,有如下四种说法:

甲:事故是由食品过时引起的

乙:如若事故是由食品过时引起的,那么食堂不竭方面一定存在着监管不到位的夸口

丙:事故照实是由食品过时引起,但食堂不竭方面并不存在监管不到位的夸口

丁:事故不是由食品过时引起的,但食堂不竭方面存在监管不到位的夸口

如若上述四种说法中唯有一种是真是,由此不错推出

A. 乙为真,且食堂存在监管不到位的夸口

B. 乙为真,但食堂莫得存在监管不到位的夸口

C. 甲为真

D. 丙为真

Doubao-1.5-pro的恢复是酱婶的:

想路梳理得终点了了,谜底亦然准确的。

加大极少难度,给豆包上点狡计量,收尾又会怎样?

一个外星东谈主来到地球后,第一天有相等的可能弃取以下四件事中的一件完成:

1、自我废弃;

2、分裂成两个外星东谈主;

3、分裂成三个外星东谈主;

4、什么都不作念。

尔后每天,每个外星东谈主均会作念一次弃取,且相互之间互相寂静,求地球上最终莫得外星东谈主的概率

一个外星东谈主来到地球后,第一天有相等的可能弃取以下四件事中的一件完成:

1、自我废弃;

2、分裂成两个外星东谈主;

3、分裂成三个外星东谈主;

4、什么都不作念。

尔后每天,每个外星东谈主均会作念一次弃取,且相互之间互相寂静,求地球上最终莫得外星东谈主的概率

来看Doubao-1.5-pro的粗心:

交流的指示词下,Claude 3.5 Sonnet一通输出,却在临了给谜底的时候翻车了:

这一题,Doubao-1.5-pro也顺利过关。

值得一提的是,豆包大模子团队提到,Doubao-1.5-pro还经过了视觉、语音等多模态才能的“特训”。那么临了,我们再加试一谈图片推理题:

看来跟豆包用颜料包聊天,是不成问题了(doge)。

代码才能实测

测完推理才能,再来望望表率员们最蔼然的代码才能。

第一题,来个其时被o1-pro顺利拒却恢复的离谱需求:

只用HTML代码复刻经典游戏《废弃战士》。

只用HTML代码复刻经典游戏《废弃战士》。

Doubao-1.5-pro也清晰:这分离理。

尽管如斯,Doubao-1.5-pro如故试图安闲我们“五彩斑斓的黑”的需求,主动提议治理决策:

不错使用HTML勾通CSS和Java来创建一个简化的、具有《废弃战士》格调元素的小游戏示例。

不错使用HTML勾通CSS和Java来创建一个简化的、具有《废弃战士》格调元素的小游戏示例。

发轫这些代码,就能得到一个浅陋的射击小游戏界面,尽管厚爱要跑起来还需要微调细节,但大体框架并莫得什么问题。

端到端语音功能

语音多模态方面,在Doubao-1.5-pro的加持下,豆包APP照旧全量上线了新版及时语音对话功能。

于是,我们让豆包学华妃娘娘的口吻,送了一波新春道贺:

这效法才能和领路才能,你给打几分?

未使用任何其他模子蒸馏数据

一波实测下来,豆包大模子1.5 Pro不愧是压轴出场的变装,概述才能莫得让大家伙儿失望。

而多个公开评测基准上的亮眼得益,也从更客不雅的角度体现了Doubao-1.5-pro刻下的身位。

不错看到,Doubao-1.5-pro照旧达到业界最初水平,在汉文才能上,更是逾越了GPT-4o和Claude 3.5 Sonnet等海外大模子。

另外,迪士尼彩乐园在视觉和语音等多模态才能上,Doubao-1.5-pro相通获取了亮眼的得益。

比如在视觉推理任务中,Doubao-1.5-pro的推崇不逊色于GPT-4o:

值得关注的是,这一次模子上新,豆包大模子团队也在官方博客中释出了更多本领细节。

接下来,我们就来划拉划拉重心。

性能杠杆进步至7倍

从Tokens使用量来看,截止12月中旬,豆包大模子的日均Tokens使用量照旧逾越4万亿,印证了Doubao API和豆包居品的海量推理需求。

为此,豆包团队从预历练阶段就相持历练-推理一体瞎想,以平衡模子性能和推理本钱。

具体而言,Doubao-1.5-pro遴选寥落MoE架构,团队通过对寥落度Scaling Law的盘算,详情了性能和遵守比拟平衡的寥落比例,并左证MoE Scaling Law详情小参数目激活的模子就能达到宇宙一流模子的性能。

在预历练阶段,仅用较小参数激活的MoE模子,性能即可逾越Llama3.1-405B等超大繁多预历练模子。

同期,在完全交流的部分历练数据(9T tokens)对比考证下,激活参数仅为1/7繁多模子参数目的MoE模子,推崇逾越了繁多模子,性能杠杆进步可达7倍。

此前,业界在这一新能杠杆上的广泛水平为不到3倍。比如IBM的Grantie系列模子中,800M激活的MoE模子性能不错接近2B总参数的繁多模子,性能比值约为2.5倍。

高效后历练进程

在近来大模子们集会元气心灵卷的PostTraining上,豆包大模子团队构建了一套高度自主的数据坐蓐体系。

其中最值得关注的极少是:不使用任何其他模子的蒸馏数据,确保数据起头的寂静性和可靠性。

SFT阶段,团队开发了一套算法驱动的历练数据优化系统,涵盖历练数据种种性优化,以及精准东谈主题匹配功能,并勾通模子自演进(Self-evolve)本领,进步数据标注的种种性和难度,造成了模子性能进步的良性轮回。

奖励模子(Reward Model)部分,团队开辟了包含prompt散布优化、response筛选、多轮迭代和active learning的圆善数据坐蓐pipeline。

在此基础之上,为了杀青模子在数学、编程、学问、对话等多维度才能的平衡进步,团队通过深度交融Verlfier和奖励模子,构建了长入的Reward框架。

此外,基于梯度筛选和迭代过滤本领,豆包大模子团队用25%的数据,大概达到近似全量的历练遵守。

强化学习(RL)阶段,团队攻克了价值函数历练难点,杀青了token-wise富厚建模,在高难度任务上的性能进步逾越10个完全点。并通过对比学习表率,灵验进步了模子推崇,权贵缓解了reward hacking问题。在数据、算法、模子层面全面杀青了 Scaling 。

字节最擅长的AB Test教学也被引入了豆包大模子的Post-Training全进程。基于豆包的大领域用户反映,研发团队构建了从问题发现、数据挖掘、东谈主机勾通标注到快速迭代的闭环优化系统,以让用户数据飞轮能持续作用于模子本色使用体验的进步。

One More Thing

另外,豆包官方还低调融会了一嘴“深度想考花样”的音信。

研发团队在完全不使用其他模子数据的条目下,通过RL算法龙套和工程优化,充分阐明test time scaling的算力上风,照旧杀青了豆包深度想考模子。

团队清晰,跟着RL的持续,模子才能还在接续进步中:

在这一过程中,我们也看到了推理才能在不同领域的泛化,智能的鸿沟正在被迟缓拓宽。

在这一过程中,我们也看到了推理才能在不同领域的泛化,智能的鸿沟正在被迟缓拓宽。

如斯说来,下一个版块的豆包更新,不错期待起来了。

豆包的远谋

回归一下豆包1.5背后的本领想路,有两个关键词浮出水面:高效,以及“不走捷径”。

遴选顶级模子蒸馏数据,在业内照旧是心照不宣的秘诀,连C端用户,也对A模子口吐“我是B模子”之语见怪不怪。

OpenAI CEO奥特曼我方曾经清晰,复刻o1并莫得杀青o1自己那么难:

一方面,是在本领改进角度上,从0到1远比从1到100穷困得多。

另一方面,多数的学术论文和产业施行已教学证,蒸馏顶级模子数据对于历练基础模子而言,不错说是一条“捷径”。

固然,这条捷径上也并非莫得坑。

启航点是数据安全问题。

蒸馏其他模子的数据,对于模子开发者而言,自然存在不可控的风险。西宾模子的偏见、无理以及版权问题等,都可能会被传递给学生模子。

另外,这一本领决策也可能戒指模子的性能上限。

近期就有一线大模子创业者抒发了访佛不雅点:如若一定要把模子去对都一个别的模子,比如GPT的收尾,会有一些才能受限。

如斯看来,此番豆包公开强调“不使用任何其他模子数据”,背后融会出的是国内第一梯队大模子居品更长期的布局想路:

不走捷径,确保数据起头的寂静性、可靠性、可控性。在追求更高智能的恒久龙套的过程中,把主动权更多地把捏在我方手中。

刻下,这种自主本领、恒久意见的想路,也正在阛阓上得到正反映:

火山引擎Tokens日均滥用量的月均复合增长率逾越60%,2024年12月日均Tokens阛阓份额占比已超50%,坐上大模子商用年度头把交椅。

体验地址:

https://www.volcengine.com/

— 完—迪士尼彩乐园3手机版

发布于:北京市