迪士尼彩乐园可靠吗马斯克20万块GPU真金不怕火出Grok-3，暴击DeepSeek R1数学屠榜！豪恣复仇OpenAI

发布日期：2024-01-03 点击次数：164

新智元报说念迪士尼彩乐园可靠吗

裁剪：裁剪部 HNYZ

【新智元导读】马斯克口中全宇宙最灵巧大模子Grok-3，终于颤动登场！20万块GPU训出的模子，实属大家初次。尽然，Grok-3已火速屠榜多个排名榜，打败o3-mini（high）和DeepSeek-R1。

东说念主类史上首个在20万块GPU上训出的模子终于问世！

刚刚，马斯克带队三位xAI成员在线开启直播，官宣Grok-3全家桶——

Grok-3（Beta）、Grok-3 mini 首个推理模子Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning：打败o3-mini/DeepSeek-R1，解锁推理时想象首个AI智能体「DeepSearch」：联网深入搜索

一股OpenAI发布会的滋味扑面而来

据先容，三代Grok的测验想象量竟是Grok-2的10倍，那么实质发达又若何？

宇宙最大超算集群Colossus已有20万块GPU：10万块GPU同步测验（第一阶段用时122天搭建）；20万GPU（第二阶段用时92天）

在多项基准测试中，Grok-3在数学（AIME 2024）、科常识答（GPQA）、编码（LCB）上刷新SOTA，大幅杰出DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的性能基本上耕作或比好意思其他闭源/开源模子。

Grok-3的数学才略十分惊东说念主，险些能完成大部分好意思国数学专科才略测试的题目。

更令东说念主惊喜的是，Grok-3这次还带来了推理模子——Grok-3 Reasoning，在复兴问题时会展示出念念维经过。

插足聊天进口，径直遴荐「Think」口头，即可开启魔法。

此外，还有「Big Brain」口头、智能体「深度搜索」（Deep Search）口头同步上线。

几天前，马斯克曾在预报中放出豪言，「这是地球上最灵巧的AI」，此言不虚。

总爱搞点事情的奥特曼，顷刻间说GPT-4.5让我方深入感受到AGI，顷刻间又要开源模子全网投票。

以致有网友建议，不如咱就7:30pm发布GPT-4.5吧！奥特曼：这不太好吧。

奥特曼的这番言论，摆明了是要淆乱军心。据传言，Grok-3发布这一历史性时刻，OpenAI全员不雅战。

OpenAI前脚发布的o3-mini刚刚打败了R1，如今又被Grok-3追回。不知今晚，GPT-4.5会不会莅临？

暴击o3-mini、DeepSeek-R1，解锁测试时想象

有东说念主说，Grok-3是终极的Scaling Law测试，如今看来，事实如斯。

从2023年Grok-1初次面世，到Grok-1.5，再到Grok-2牢固迭代，模子推感性能速即飙升的同期，还吞吃了多量的算力。

Grok-3家眷，更是将「测试时想象」施展到了极致。10万块H100超算，训出的野兽险些无「模」能敌。

它成为首个Elo评分玩忽1400的模子，在统统分类测试中位列第一。

在多项基准测试中，推理模子Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上，性能均大幅杰出o3-mini（high）、o1、DeepSeek-R1，还有Gemi-2 Flash Thinking。

不错说，迄今放胆最强「推理模子」，全部败给了Grok-3 Reasoning，不错说，它是名副其实的「宇宙上最灵巧的模子」。

团队示意，允许Grok去进行更万古候的念念考和推理。

在最新的数学基准AIME 2025上，Grok-3两款新模子性能相通刷新SOTA，分辨拿下了93和90分。

趁机提一句，Grok-3念念维链和o3-mini套路一样——留意被偷家xAI遮盖了部分念念考经过。

接下来，让咱们一睹Grok-3纷乱的推理才略。

高档推理Think

最初是一个天际飞船任务，生成一个地球放射、火星着陆以及下一次放射窗口复返地球的动画3D代码。

提神，这个问题的难点在于，经过中触及到了多量数学和物理模子的想象。在此之前，团队从未试过让大模子去想象航天的放射窗口。

在「Think」口头下，不错看到Grok的念念维陈迹，以致不错进去望望Grok在处分问题时到底在想什么。

Grok 3很快生成了完竣可运行的3D动画。在代码中，Grok-3数值上求解了开普勒定律。

中国自古就有“人杰地灵”的说法，认为杰出的人出生或到过的地方，就会有“灵气”。运8飞机的诞生地汉中，无疑是一个“人杰地灵”的地方。

下图是3D动画的画面，直不雅展示了任务经过中，太阳、地球、火星和飞船之间的位置干系。

以致，宇航员不错据此径直算出出舱时候和距离。这上头有地球-火星走动的变嫌旅途，这种穿越每26个月发生一次。接下来，咱们当今正处于一个过渡窗口期。

操办者经过搜检后清翠示意：Grok-3给的谜底完全正确！

临了马斯克揭开谜底：其实，这便是SpaceX果然的探索轨说念。他充满信心性示意，两年内，地球和火星就会被联接在沿路。

很快有网友驳斥，「不错证实，Grok-3强得离谱！」

与之相对比的是，o1、o1-pro、o3-mini（high）十足在这个问题上栽了：生成一段代码，完了从地球放射、登陆火星，然后鄙人一个放射窗口复返地球的3D动画。

「它们生成的代码能跑是能跑，但很横祸，飞船压根就没聚集过头星，更别说回想了。」该网友示意。

然后团队又让Grok-3制作一个游戏。条目是结合俄罗斯方块和相持迷阵两个游戏的搀杂体。

「昭着，若是你让AI去创作一款像俄罗斯方块这样的游戏，互联网上有好多例子，或者访佛相持迷阵的游戏。它不错复制它们。」演示东说念主员示意。

是以，现场他们让Grok-3制作了一个结合了俄罗斯方块和相持迷阵两个游戏的搀杂体，这次他们使用了「Big Brain」口头，不错使用更多想象才略的一种口头。

Grok-3随后开动使用python编写代码，不错看出它调用了pygame、random和time这3个库来完成游戏的编写。

代码完成后，Grok-3生成的俄罗斯方块和相持迷阵两个游戏的搀杂体得胜运行，诚然游戏逻辑有些神圣，然则界面挺好意思不雅。

「咱们在x.ai准备好缔造一个游戏使命室了吗？」演示东说念主员清翠地说说念，「是的，是以咱们正在x.ai启动一个东说念主工智能游戏使命室。」

在此经过中，操办者们商讨说念：最佳的AI模子，必须像东说念主类一样念念考，会去想统统可能的对策息争法，会自我月旦、回溯，还会从第一性旨趣去念念考。

以致，Grok能够了解我方的逻辑和推理经过中的一些诞妄场地，迪士尼彩乐园有反水么更正我方的缺欠，将一些数学推理经过主见化，而履行生存中，也恰是这些问题的蔓延。

操办者示意，果然令东说念主郁勃的便是，不错用Grok-3去完成履行宇宙中的任务，比如打造一辆特斯拉，或者去放射火箭。

这恰是Grok团队刻下正在念念考的问题。

深度搜索DeepSearch

没预见，这一次马斯克还带来了Grok-3首个智能体——DeepSearch。

DeepSearch是Grok的第一代智能体，能够在互联网上进行更深入的搜索。

它允许用户对互联网和X平台进行全面搜索。该口头分析多量信息，并通过快速高效的搜索经过提供防卫、合理的谜底。

此外，它的信息检索经过对用户愈加透明。你不错径直告诉它只使用来自X的内容，它会尽量遵命这个条目，因此可控性更强，也更智能。

咱们不错问DeepSearch智能体：下一次星舰放射是什么时候？

不错看到，在左边，它展示出了搜索和推理的经过，而在右边，则展示出了深度念念考经过，以及模子正在浏览什么样的网址和网页。

最终，智能体给出了谜底：25年2月24日。

游戏玩家还不错发问：在Poe 2中最硬核的宗派是什么？

除了给出谜底——真金不怕火狱师召唤流除外，智能体还在复兴中给出了若何得回更多刀兵的攻略。

因此，比起当今平时的搜索引擎，使用Grok智能体能知人善察更多的时候。

Grok团队示意，从此，梗概统统实习生齐要休闲了，咱们需要的只是向大模子下任务。每个月花40好意思元，就能带来数十亿好意思元的酬劳。

马斯克：一周内统统功能上线，几个月内全面开源

是以，Grok-3到底什么时候通达？

对此，马斯克示意，订阅Premium Plus的X用户当今依然不错用上了。

而Grok赤诚粉丝则不错单独订阅SuperGrok，从而解锁深度搜索和念念考模子等先进功能，并成为早体验新特质的那一波。

全新网址是grok.com，另外App Store里也不错下载了。

马斯克强调，最新版块一定是网页版，App Store里是比拟逾期的。

刻下，Grok-3每天齐在更新推理功能，马斯克放话说：一周内，Grok的统统功能齐将上线！

传送门：https://grok.com/

Q&A

什么时候出语音助手版？会花一周时候。

Grok-3 API什么时候上线？几周内。

Grok 3语音口头是原生的，如故文本转语音？它是Grok-3的一个变体，能判辨你说的话，况且径直生成音频。

Grok-3能否将音频转录成文本？没问题。这个声息模子不单是是语音转笔墨那么浅陋，它还具备对话牵挂功能，能难忘和你之前的交互记载。

马斯克示意，几个月之后会对Grok-3进行全面的开源。

Grok-3最令东说念主郁勃的部分是什么？测验模子，以及百分百的逻辑推理，齐是最难的部分，就像你需要遍地随时想象天地的最新进展。

若何想象这样一个史上最难推理模子？操办者示意，咱们花了24个月去打磨这个模子，礼服它在逻辑推理上有了最新进展，同期他们使用了一个消除工场，数据中心之是以落地在孟菲斯，是因为既需要算力，又需要动力功能，需要1/4吉瓦来向GPU供能，同期还需要冷却体式。

此前，从莫得东说念主真着实数据中心完了过液冷，但Grok团队作念到了！

为了进一步对数据中心供能，咱们使用了特斯拉的Megapacks，况且重新想象了建筑物的动力供给。最终说明：团队的想象是灵验的！

而且，经过中还需要把不同想象机联结在沿路，分享信息。在此经过中，团队会看到模子之间供给不屈衡的情况。

一方面，是对建筑供能和节能的重新想象；另一方面，团队想象了大模子，想象了全新的算法经过。

操办者示意，不知说念其他大模子是否也像Grok-3一样，需要如斯多的东说念主力和物力。

天然，团队也但愿在接下来，减少模子的能耗，把数据中心的耗能从1/4吉瓦裁汰下来，梗概需要重新想象，让它成为宇宙上着力最高的数据中心。

AI大牛高度好评：Grok-3确立惊东说念主

提前拿到内测阅历后，AI大佬Karpathy张开了一番评测，分享的感悟比一篇著作还要长。

总结来说，Grok-3推理模子最耕作，处分了卡坦岛（Settler's of Catan）辛苦。上传GPT-2论文后，Grok-3完成了浅陋的查找问题。

它莫得处分黎曼假定辛苦，仅是说「这是一个伟大未处分的辛苦」。

在体验「深度搜索」功能时，结合了念念考+深度操办的才略，能对需要操办、查找的问题提供高质料复兴，并给出参考联结。

临了，Karpathy给出的评价是，「Grok-3 + Thinking发达似乎达到了与o1 Pro（每月200好意思元）特别的水平，况且略优于DeepSeek-R1和Gemini 2.0 Flash Thinking」。

大致一年前，xAI团队从0开动的，这样短时候内就达到了顶尖水平，这是前所未有的惊东说念主确立。

Grok-3相通通过了物理模拟测试，成果堪比o3-mini。

xAI联创相通示意，「咱们改造模子和系统的速率，比任何单一的里程碑齐更迫切。Grok-3说明了咱们能够在19个月内从零起步达到了发轫进的水平」。

此外，xAI工程师还曝出了行将上线的「高档语音口头」

Grok-3横空出世，再次把xAI带回到宇宙第一梯队。

用马斯克的一句话作念个总结——要判断哪家公司会在工夫竞争中胜出，你只需要温雅其变嫌速率的一阶导数和二阶导数。

xAI团队成功的这一刻，值得被记载。

奥特曼的AGI也准备就绪。

参考良友：

https://x.com/i/broadcasts/1gqGvjeBljOGB

马斯真金不怕火迪士尼彩乐园可靠吗 GPU 20万块

上一篇：迪士尼彩乐园靠谱不邮报：沙特财团行将来访，纽卡可能本月决定新建或立异球场

下一篇：迪士尼乐园时时彩《哪吒2》也挡不住《唐探1900》，徐峥失去王宝强的代价很大

最新资讯