下载迪士尼彩乐园 “GPU 赛说念押注失败！”

发布日期：2024-08-03 13:41 点击次数：133

下载迪士尼彩乐园

行为一家提供边际算计和云基础设施办事的公司，Fly.io 让全球应用要领的启动和贬责变得愈加冒昧。独创东说念主 Kurt Mackey 的方针是与 AWS、Azure 和 GCP 等大云办事提供商竞争。几年前，Fly.io 对 GPU 的需求进行了斗胆押注，认为曩昔缔造应用的公司齐会需要 GPU，于是推出了 Fly Machines——大略在亚秒级速率启动和罢手的假造机。然而，三年后的今天，Fly.io 承认他们的判断不实。Kurt Mackey 详备发扬了这也曾过和劝诫。

原文相接：https://fly.io/blog/wrong-about-gpu/

作家 | Kurt Mackey 责编 | 苏宓

出品 | CSDN（ID：CSDNnews）

咱们正在使用我方的硬件构建一个人人云。为此，咱们筹集了资金，况兼作念了一些投资。而这么作念的原因之一即是：为了让咱们的客户大略使用 GPU。苟简来说，GPU 关于加快 AI/机器学习（ML）任务很垂死。但是经逾期分后咱们发现：GPU 诚然很垂死，但实质上它的应用还没达到咱们思象的程度。

几年前，咱们作念了一个投资押下赌注，认为向互联网用户提供应用要领的公司可能需要 GPU，以此用来加快 AI 和机器学习任务。基于此，咱们缔造了 Fly GPU Machine。

什么是 Fly GPU Machine？

Fly Machine 其实即是在咱们全球的裸金属办事器上运行的假造机，内部是一个 Docker/OCI 容器。而 GPU Machine 则是在 Fly Machine 的基础上，加入了一个硬件映射的 Nvidia GPU，能让它更快地奉行 CUDA 算计。

跟行业其他公司一样，咱们判断 AI 和机器学习会变得荒谬垂死，甚而可能低估了它的影响力。不外，咱们作念的这个产物似乎没能全齐顺应当下的需求。也即是说，这个投资咫尺看起来没那么收货。

如果你正在使用 Fly GPU Machine，别追思，咱们不会把它们取消掉。但如果你在等咱们推出更强劲的版块，可能得再等一段时分。

缔造这个产物花了什么代价？

GPU Machine 对咱们来说不是一个小神色。Fly Machine 运行在一个荒谬小的假造化贬责要领上（时时是 Firecracker，但 GPU Machine 使用的是 Intel 的 Cloud Hypervisor，它是一个雷同的 Rust 代码库，援救 PCI 透传）。Nvidia 的生态系统并不专门为援救这种微型假造机贬责要领计算。

GPU 让咱们的安全团队荒谬焦躁。GPU硬件的特质是：它波及普遍的内存数据传输（甚而不是双向的：在常见树立下，GPU 之间是互叠加信的），而且算计经过不错由最终用户戒指，这些操作齐在咱们时时的安全范围以外。

为了镌汰风险，咱们作念了几个比拟贵的方法。咱们将 GPU 部署在专用的办事器硬件上，确保 GPU 和非 GPU 责任负载不会羼杂。因此，Fly Machine 被安排在 GPU Machine 上的惟一原因是它需要为 Nvidia GPU 分拨 PCI BDF，而每台机器上可用的数目是有限的。是以这些办事器的应用率比正常办事器低，因此在资本效益上远不如咱们的正常办事器。

咱们还进行了一些大型的安全评估，找了两家公司（Atredis 和 Tetrel）来查验咱们的 GPU 部署。这些评估用度不低，而且花了不少时分。

虽然安全不是咱们面对的最大资本问题，但它曲折带来了一些隐性资本。

咱们本不错按照 Nvidia 的提议，快速部署 GPU。Nvidia 提议用法式的 K8s 集群来贬责 GPU 任务。如果按照这种形状操作，咱们就能径直使用 Nvidia 的驱动要领了。

另外，咱们也不错使用传统的假造化贬责要领，Nvidia 保举用 VMware。不外，咱们也不错用 QEMU（另一种假造化用具），它很生动，但 Fly Machine 的核豪情念即是它们大略在毫秒级别启动。如果走 Nvidia 的“快捷旅途”，咱们无法提供理思的缔造者体验。

最终，咱们虚耗了数月时分尝试（并最终未能得手）让 Nvidia 的主机驱动要领正常责任，以便将假造化的 GPU 映射到 Intel Cloud Hypervisor。有一段时分，咱们通过十六进制裁剪阻塞源代码驱动要领，让它们误以为咱们的假造化贬责要领是 QEMU。

我省略情这一切临了是否真实特意旨。市蚁合有一部分咱们从未能的确探索的限度，因为 Nvidia 的驱动援救让咱们无法灵验地应用 GPU。若是莫得这些问题，咱们本不错为缔造者提供一个荒谬低廉的采取，而缔造者齐可爱“低廉”，但我无法解释这些客户是否的确存在。

另一方面，咱们依然情愿会为 GPU 责任负载提供 Fly Machine 的缔造者体验（Fly Machine DX）。除了 PCI/IOMMU 的问题，单纯让通盘硬件 GPU 在 Fly Machine 上运行就已经是一个挑战。咱们需要大略启动并装置正确 Nvidia 驱动要领的 Fly Machines；咱们的期间栈假定客户的 OCI 容器险些全齐界说了机器的根文献系统。为了竣事这少许，咱们在 flyd 更正器中作念了许多工程化调养。而且险些扫数东说念主使用 GPU 时，齐需要高效地获取包含模子权重的大文献，这亦然个诡秘！

临了，天然，咱们买了许多GPU，花了许多钱。

为什么这个神色不得手？

最大的问题即是：缔造者并不需要 GPU。他们甚而不太温煦 AI/机器学习（ML）模子，缔造者更温煦的是大型讲话模子（LLM）。系统工程师可能会对怎样应用 GPU 加载模子、采取哪个 GPU 更好有一些深切视力，但软件缔造者并不在乎这些。当一个缔造者在作念应用时思要让应用调用 LLM 时，你给他们一个 GPU 也莫得用。

关于这些缔造者，测度是市集上大多数东说念主，他们根底不合计一个新兴的人人云大略和 OpenAI、Anthropic 这种大公司竞争。它们的 API 已经够快了，缔造者关注的是“每秒处理的 tokens 数目”，而不是毫秒级的延伸。

（人人应该爱怜咱们一下）

这让咱们很痛心，因为咱们也曾很可爱咱们找到的这个“行业空污点”。那些在亚马逊上部署应用的缔造者，下载迪士尼彩乐园可能会采取其他人人云来取得 GPU 的资本效益。但接着，他们又会面对宽阔的数据和模子权重问题，得花大价钱从 S3 上回传几个 GB 的数据。咱们有应用办事器、GPU 和对象存储齐在统一个交换机下，但推理的延伸好像根底不垂死，是以市集根底不温煦这些。

除此以外，如果只筹商那些真实温煦 GPU 的系统工程师：他们需要的是宽阔的 GPU 算计才能。像 A100 这么的通盘企业级 GPU 对他们来说仅仅一个融合，他们的确思要的是由 H100 构成的集群。

咱们认为，可能有一部分用户是作念轻量级机器学习的，他们可能会需要一些袖珍GPU。这恰是 Nvidia MIG 的用途，将一个大 GPU 切割成多个小 GPU。但关于全齐假造化的责任负载，MIG 并不老练，咱们无法使用它。我省略情这些客户有若干，或者咱们能否在每台办事器上眩惑鼓胀多的客户。

剩下的即是 L40S 的客户。其实这一类客户还蛮多的！旧年咱们下调了 L40S 的价钱，不是因为对 GPU 失望，而是因为它是咱们库存中使用率最高的一个产物。咱们对它很满足。但它仅仅某些应用所需的一种算计资源，不成成为咱们中枢业务的驱能源，它并不是咱们 GPU 投资得手的象征。

说白了，问题即是，绝大多数软件缔造者，思要让他们的应用能用 AI，最佳的形状照旧通过调用像 Claude、GPT、Replicate 和 RunPod 这些办事的 API。

咱们学到了什么？

从一个荒谬有用的角度来看，创业公司其实即是一个学习的经过。那咱们此次的学习恶果何如样呢？

领先，当咱们在 2022 年走上这条路时，咱们和许多公司一样，处在 AI/ML 的“火焰期间”。那时，通盘行业对 AI 的关注还莫得聚焦到少数几个基础性的大型讲话模子上。咱们蓝本瞻望会有多种主流的 AI 模子，就像 Elixir Bumblebee 中所提到的那样，人人不错像用 Ruby gems 一样，随时提真金不怕火各式 AI 责任负载。

但自后 Cursor 的出现改变了这一切，咫尺人人齐更露馅接下来的发展场地。

GPU 的尝试其实是咱们 Fly.io 公经理念的一次测试：咱们计算中枢功能时，是为 1 万个缔造者筹商，而不是 5 到 6 个。虽然这条路走得有点慢，但事实解释，这种理念是对的：GPU 责任负载对第 10001 个缔造者来说，是一个小众需求。

另一个看待创业公司形状是：公司在握住作念出各式赌注。咱们在这方面赌了许多，但此次投资给了咱们鼓胀的资源来连续作念其他事情。始终不敢下注并不是一种赢家计策。虽然咱们但愿此次能赢，但我认为当初作念这个赌注是对的采取。

第二点：乱改僵尸，如果说修复bug是为了体验，那乱改僵尸的吃相就很难看了，我们现在看到的僵尸情况和之前的情况是完全不一样的，比方说痛苦女王，那会是会让玩家产生幻觉的，而憎恶屠夫在那会是肉盾，僵尸也有自己的升级系统，玩家辛辛苦苦花时间去升级僵尸，人家一刀切把这个直接弄没了，策划实打实背刺了我们玩家一把，我们都傻眼了。

这里要记取垂死的少许是——许多创业者忽略了，那即是此次投资波及了普遍的钞票购买。瓦解，一部分资本是无法回收的，但那些莫得产生收入的硬件部分，最终会被计帐掉；就像咱们手里的 IPv4 地址一样，我更放肆作念那些有运动价值、耐用的钞票背书的赌注。

临了，我不认为不管咱们何如作念，GPU Fly Machines 齐会得手。正因为如斯，我很欢欣的是，咱们莫得为了 GPU 产物而融合其他部分。安全问题拖慢了进程，让咱们多学了几个月，但咱们在不阵一火任何梗阻性方法的前提下，减少了对 GPU 的生机。而且，调侃的是，咫尺别东说念主跑的 GPU 反而让咱们的梗阻性故事变得愈加垂死。相同的事情也发生在咱们 Fly Machine 的缔造者体验上。

咱们一驱动创办公司是为了作念一个针对边际算计的 JavaScript 运行时，收尾咱们发现，客户并不需要一个新的 JavaScript 运行时，他们仅仅但愿原生代码大略正常运行。于是咱们推出了容器，缔造者们很快就接管了。咱们那时错了，认为 JavaScript 边际函数会流行，而咫尺看来，GPU 的事儿咱们也错了。时时，咱们找出正确谜底的形状，即是先犯许多错。

下载迪士尼彩乐园 “GPU 赛说念押注失败！”

热点资讯

推荐资讯