迪士尼彩乐园可靠吗 马斯克20万块GPU真金不怕火出Grok-3,暴击DeepSeek R1数学屠榜!豪恣复仇OpenAI

新智元报说念迪士尼彩乐园可靠吗
裁剪:裁剪部 HNYZ
【新智元导读】马斯克口中全宇宙最灵巧大模子Grok-3,终于颤动登场!20万块GPU训出的模子,实属大家初次。尽然,Grok-3已火速屠榜多个排名榜,打败o3-mini(high)和DeepSeek-R1。
东说念主类史上首个在20万块GPU上训出的模子终于问世!
刚刚,马斯克带队三位xAI成员在线开启直播,官宣Grok-3全家桶——
Grok-3(Beta)、Grok-3 mini 首个推理模子Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:打败o3-mini/DeepSeek-R1,解锁推理时想象 首个AI智能体「DeepSearch」:联网深入搜索

一股OpenAI发布会的滋味扑面而来
据先容,三代Grok的测验想象量竟是Grok-2的10倍,那么实质发达又若何?


宇宙最大超算集群Colossus已有20万块GPU:10万块GPU同步测验(第一阶段用时122天搭建);20万GPU(第二阶段用时92天)
在多项基准测试中,Grok-3在数学(AIME 2024)、科常识答(GPQA)、编码(LCB)上刷新SOTA,大幅杰出DeepSeek-V3、Gemini-2 Pro、GPT-4o。
Grok-3 mini的性能基本上耕作或比好意思其他闭源/开源模子。
Grok-3的数学才略十分惊东说念主,险些能完成大部分好意思国数学专科才略测试的题目。

更令东说念主惊喜的是,Grok-3这次还带来了推理模子——Grok-3 Reasoning,在复兴问题时会展示出念念维经过。
插足聊天进口,径直遴荐「Think」口头,即可开启魔法。
此外,还有「Big Brain」口头、智能体「深度搜索」(Deep Search)口头同步上线。

几天前,马斯克曾在预报中放出豪言,「这是地球上最灵巧的AI」,此言不虚。

总爱搞点事情的奥特曼,顷刻间说GPT-4.5让我方深入感受到AGI,顷刻间又要开源模子全网投票。

以致有网友建议,不如咱就7:30pm发布GPT-4.5吧!奥特曼:这不太好吧。
奥特曼的这番言论,摆明了是要淆乱军心。据传言,Grok-3发布这一历史性时刻,OpenAI全员不雅战。

OpenAI前脚发布的o3-mini刚刚打败了R1,如今又被Grok-3追回。不知今晚,GPT-4.5会不会莅临?
暴击o3-mini、DeepSeek-R1,解锁测试时想象
有东说念主说,Grok-3是终极的Scaling Law测试,如今看来,事实如斯。

从2023年Grok-1初次面世,到Grok-1.5,再到Grok-2牢固迭代,模子推感性能速即飙升的同期,还吞吃了多量的算力。


Grok-3家眷,更是将「测试时想象」施展到了极致。10万块H100超算,训出的野兽险些无「模」能敌。
它成为首个Elo评分玩忽1400的模子,在统统分类测试中位列第一。

在多项基准测试中,推理模子Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上,性能均大幅杰出o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking。
不错说,迄今放胆最强「推理模子」,全部败给了Grok-3 Reasoning,不错说,它是名副其实的「宇宙上最灵巧的模子」。
团队示意,允许Grok去进行更万古候的念念考和推理。

在最新的数学基准AIME 2025上,Grok-3两款新模子性能相通刷新SOTA,分辨拿下了93和90分。

趁机提一句,Grok-3念念维链和o3-mini套路一样——留意被偷家xAI遮盖了部分念念考经过。

接下来,让咱们一睹Grok-3纷乱的推理才略。
高档推理Think
最初是一个天际飞船任务,生成一个地球放射、火星着陆以及下一次放射窗口复返地球的动画3D代码。
提神,这个问题的难点在于,经过中触及到了多量数学和物理模子的想象。在此之前,团队从未试过让大模子去想象航天的放射窗口。
在「Think」口头下,不错看到Grok的念念维陈迹,以致不错进去望望Grok在处分问题时到底在想什么。


Grok 3很快生成了完竣可运行的3D动画。在代码中,Grok-3数值上求解了开普勒定律。
中国自古就有“人杰地灵”的说法,认为杰出的人出生或到过的地方,就会有“灵气”。运8飞机的诞生地汉中,无疑是一个“人杰地灵”的地方。

下图是3D动画的画面,直不雅展示了任务经过中,太阳、地球、火星和飞船之间的位置干系。
以致,宇航员不错据此径直算出出舱时候和距离。这上头有地球-火星走动的变嫌旅途,这种穿越每26个月发生一次。接下来,咱们当今正处于一个过渡窗口期。
操办者经过搜检后清翠示意:Grok-3给的谜底完全正确!
临了马斯克揭开谜底:其实,这便是SpaceX果然的探索轨说念。他充满信心性示意,两年内,地球和火星就会被联接在沿路。
很快有网友驳斥,「不错证实,Grok-3强得离谱!」
与之相对比的是,o1、o1-pro、o3-mini(high)十足在这个问题上栽了:生成一段代码,完了从地球放射、登陆火星,然后鄙人一个放射窗口复返地球的3D动画。
「它们生成的代码能跑是能跑,但很横祸,飞船压根就没聚集过头星,更别说回想了。」该网友示意。

然后团队又让Grok-3制作一个游戏。条目是结合俄罗斯方块和相持迷阵两个游戏的搀杂体。
「昭着,若是你让AI去创作一款像俄罗斯方块这样的游戏,互联网上有好多例子,或者访佛相持迷阵的游戏。它不错复制它们。」演示东说念主员示意。
是以,现场他们让Grok-3制作了一个结合了俄罗斯方块和相持迷阵两个游戏的搀杂体,这次他们使用了「Big Brain」口头,不错使用更多想象才略的一种口头。
Grok-3随后开动使用python编写代码,不错看出它调用了pygame、random和time这3个库来完成游戏的编写。

代码完成后,Grok-3生成的俄罗斯方块和相持迷阵两个游戏的搀杂体得胜运行,诚然游戏逻辑有些神圣,然则界面挺好意思不雅。
「咱们在x.ai准备好缔造一个游戏使命室了吗?」演示东说念主员清翠地说说念,「是的,是以咱们正在x.ai启动一个东说念主工智能游戏使命室。」
在此经过中,操办者们商讨说念:最佳的AI模子,必须像东说念主类一样念念考,会去想统统可能的对策息争法,会自我月旦、回溯,还会从第一性旨趣去念念考。
以致,Grok能够了解我方的逻辑和推理经过中的一些诞妄场地,迪士尼彩乐园有反水么更正我方的缺欠,将一些数学推理经过主见化,而履行生存中,也恰是这些问题的蔓延。
操办者示意,果然令东说念主郁勃的便是,不错用Grok-3去完成履行宇宙中的任务,比如打造一辆特斯拉,或者去放射火箭。
这恰是Grok团队刻下正在念念考的问题。
深度搜索DeepSearch
没预见,这一次马斯克还带来了Grok-3首个智能体——DeepSearch。

DeepSearch是Grok的第一代智能体,能够在互联网上进行更深入的搜索。
它允许用户对互联网和X平台进行全面搜索。该口头分析多量信息,并通过快速高效的搜索经过提供防卫、合理的谜底。
此外,它的信息检索经过对用户愈加透明。你不错径直告诉它只使用来自X的内容,它会尽量遵命这个条目,因此可控性更强,也更智能。

咱们不错问DeepSearch智能体:下一次星舰放射是什么时候?
不错看到,在左边,它展示出了搜索和推理的经过,而在右边,则展示出了深度念念考经过,以及模子正在浏览什么样的网址和网页。
最终,智能体给出了谜底:25年2月24日。

游戏玩家还不错发问:在Poe 2中最硬核的宗派是什么?
除了给出谜底——真金不怕火狱师召唤流除外,智能体还在复兴中给出了若何得回更多刀兵的攻略。

因此,比起当今平时的搜索引擎,使用Grok智能体能知人善察更多的时候。
Grok团队示意,从此,梗概统统实习生齐要休闲了,咱们需要的只是向大模子下任务。每个月花40好意思元,就能带来数十亿好意思元的酬劳。
马斯克:一周内统统功能上线,几个月内全面开源
是以,Grok-3到底什么时候通达?
对此,马斯克示意,订阅Premium Plus的X用户当今依然不错用上了。
而Grok赤诚粉丝则不错单独订阅SuperGrok,从而解锁深度搜索和念念考模子等先进功能,并成为早体验新特质的那一波。
全新网址是grok.com,另外App Store里也不错下载了。
马斯克强调,最新版块一定是网页版,App Store里是比拟逾期的。
刻下,Grok-3每天齐在更新推理功能,马斯克放话说:一周内,Grok的统统功能齐将上线!


传送门:https://grok.com/
Q&A
什么时候出语音助手版?会花一周时候。
Grok-3 API什么时候上线?几周内。
Grok 3语音口头是原生的,如故文本转语音?它是Grok-3的一个变体,能判辨你说的话,况且径直生成音频。
Grok-3能否将音频转录成文本?没问题。这个声息模子不单是是语音转笔墨那么浅陋,它还具备对话牵挂功能,能难忘和你之前的交互记载。
马斯克示意,几个月之后会对Grok-3进行全面的开源。
Grok-3最令东说念主郁勃的部分是什么?测验模子,以及百分百的逻辑推理,齐是最难的部分,就像你需要遍地随时想象天地的最新进展。
若何想象这样一个史上最难推理模子?操办者示意,咱们花了24个月去打磨这个模子,礼服它在逻辑推理上有了最新进展,同期他们使用了一个消除工场,数据中心之是以落地在孟菲斯,是因为既需要算力,又需要动力功能,需要1/4吉瓦来向GPU供能,同期还需要冷却体式。
此前,从莫得东说念主真着实数据中心完了过液冷,但Grok团队作念到了!
为了进一步对数据中心供能,咱们使用了特斯拉的Megapacks,况且重新想象了建筑物的动力供给。最终说明:团队的想象是灵验的!
而且,经过中还需要把不同想象机联结在沿路,分享信息。在此经过中,团队会看到模子之间供给不屈衡的情况。
一方面,是对建筑供能和节能的重新想象;另一方面,团队想象了大模子,想象了全新的算法经过。
操办者示意,不知说念其他大模子是否也像Grok-3一样,需要如斯多的东说念主力和物力。
天然,团队也但愿在接下来,减少模子的能耗,把数据中心的耗能从1/4吉瓦裁汰下来,梗概需要重新想象,让它成为宇宙上着力最高的数据中心。
AI大牛高度好评:Grok-3确立惊东说念主
提前拿到内测阅历后,AI大佬Karpathy张开了一番评测,分享的感悟比一篇著作还要长。
总结来说,Grok-3推理模子最耕作,处分了卡坦岛(Settler's of Catan)辛苦。上传GPT-2论文后,Grok-3完成了浅陋的查找问题。
它莫得处分黎曼假定辛苦,仅是说「这是一个伟大未处分的辛苦」。
在体验「深度搜索」功能时,结合了念念考+深度操办的才略,能对需要操办、查找的问题提供高质料复兴,并给出参考联结。
临了,Karpathy给出的评价是,「Grok-3 + Thinking发达似乎达到了与o1 Pro(每月200好意思元)特别的水平,况且略优于DeepSeek-R1和Gemini 2.0 Flash Thinking」。
大致一年前,xAI团队从0开动的,这样短时候内就达到了顶尖水平,这是前所未有的惊东说念主确立。

Grok-3相通通过了物理模拟测试,成果堪比o3-mini。

xAI联创相通示意,「咱们改造模子和系统的速率,比任何单一的里程碑齐更迫切。Grok-3说明了咱们能够在19个月内从零起步达到了发轫进的水平」。

此外,xAI工程师还曝出了行将上线的「高档语音口头」

Grok-3横空出世,再次把xAI带回到宇宙第一梯队。
用马斯克的一句话作念个总结——要判断哪家公司会在工夫竞争中胜出,你只需要温雅其变嫌速率的一阶导数和二阶导数。

xAI团队成功的这一刻,值得被记载。

奥特曼的AGI也准备就绪。

参考良友:
https://x.com/i/broadcasts/1gqGvjeBljOGB