迪士尼彩乐园怎样 OpenAI任性爬虫，把一家公司齐给爬宕机了，CEO：堪比DDoS

金磊发自凹非寺量子位 | 公众号 QbitAI

万万没念念到，能把一家公司网站给搞宕机的元凶，尽然是OpenAI任性爬虫的机器东说念主——GPTBot。

布鲁斯-布朗生涯初期效力活塞和篮网，但都没有太多高光，直到21-22赛季他转投掘金，布鲁斯-布朗迎来生涯巅峰，场均可以拿到11.5分4.1个篮板3.4次助攻，尤其西决掘金横扫湖人，布鲁斯-布朗作为球队超六，粉碎了詹姆斯和浓眉冠军梦，掘金则在总决赛击败热火，成功拿到了队史首座总冠军奖杯。别看布鲁斯-布朗官方身高只有1.93米，但他技术非常全面，而且身体很强壮十分擅长对抗，一手小抛投炉火纯青，算是身体和技术兼具的万金油。

NBA《全情投入》世界巡回主题展首站于2024年6月登陆北京，三个月的展览受到广大篮球爱好者一致好评。本次青岛站落地中山路历史文化街区，结合当地独特的建筑特色及旅游区位优势，为本地市民和外地游客带来一场新奇体验，也为上街里街区综合城市更新建设，振兴老街区综合活力增添亮点。

（GPTBot是OpenAI早年前推出的一款器用，用来自动持取通盘这个词互联网的数据。）

就在这两天，一家7东说念主团队公司（Triplegangers）的网站倏得宕机，CEO和职工们赶忙排查问题到底出在的那里。

不查不知说念，一查吓一跳。

罪魁罪魁恰是OpenAI的GPTBot。

从CEO的描摹中来看，OpenAI爬虫的“攻势”是有点任性在身上的：

咱们有擢升65000种产物，每种产物齐有一个页面，然后每个页面还齐有至少三张图片。OpenAI正在发送恒河沙数的就业器央求，试图下载通盘内容，包括数十万张像片过火谛视描摹。

在分析了公司上周的日记之后，团队进一步发现，OpenAI使用了不啻600个IP地址持取数据。

△Triplegangers就业器日记：OpenAI机器东说念主未经许可任性爬虫

如斯界限的爬虫，就导致这家公司网站的宕机，CEO致使无奈地示意：

这基本上即是一场DDoS报复。

更辛苦的少量是，由于OpenAI任性地爬虫，还会激发了大量的CPU使用和数据下载行径，从而导致网站在云筹画就业（AWS）方面的资源消耗剧增，支出就会大幅增长……

嗯，AI大公司任性爬虫，却由小公司来买单。

这家袖珍团队的际遇，亦然激发了不少网友们的计算，有东说念主合计GPTBot的作念法并不是持取，更像是“偷窃”的委婉说法：

也有网友现身示意有近似的资格，自从扰乱了大公司的批量AI爬虫，省了一大笔钱：

被爬虫到宕机，还不知说念被爬走了什么

那么OpenAI为什么要爬虫这家初创企业的数据？

简单来说，它家的数据如实属于高质料的那种。

据了解，Triplegangers的7名成员耗尽了十多年的时辰，打造了堪称最大“东说念主类数字孪生”数据库

网站包含从本色东说念主类模子扫描的3D图像文献，况兼像片还带有谛视的标签，涵盖种族、年纪、纹身与疤痕、多样体型等信息。

这关于需要数字化再现真正东说念主类特征的3D艺术家、游戏制作家等，无疑具有辛苦价值。

天然Triplegangers网站上有一个就业条件页面，内部明确写了扰乱未经许可的AI持取他们家的图片。

但从目下的成果上来看，这十足莫得起到任何作用。

重心在于，迪士尼彩乐园AppTriplegangers莫得正确竖立一个文献——robots.txt。

robots.txt也称为机器东说念主摈斥左券，是为了告诉搜索引擎网站在索引集聚时不要爬取哪些内容而创建的。

也即是说，一个网站如果不念念被OpenAI爬虫，那就必须正确竖立robots.txt文献，并带有特定标签，明确告诉GPTBot不要造访该网站。

但OpenAI除了GPTBot以外，还有ChatGPT-User和OAI-SearchBot，它俩也有各自对应的标签：

而且笔据OpenAI官方发布的爬虫信息来看，即便你立即正确建设了robots.txt文献，也不会立即收效。

因为OpenAI识别更新这个文献可能需要24个小时……

CEO老哥对此示意：

如果一个网站莫得正确竖立robots.txt文献，那么OpenAI和其它公司会合计他们不错专揽稳重地持取内容。这不是一个可选的系统。

正因如斯，也就有了Triplegangers在责任时辰段网站被搞宕机，还搭上了高额的AWS用度。

逼迫好意思东时辰的本周三，Triplegangers照旧按照要求竖立了正确的robots.txt文献。

以防万一，团队还建设了一个Cloudflare账户来扰乱其它的AI爬虫，如Barkrowler和Bytespider。

天然到了周四开工的工夫，Triplegangers莫得再出现宕机的情况，但CEO老哥还有个悬而未决的困惑——

不知说念OpenAI齐从网站中爬了些什么数据，也关连不上OpenAI……

而且令CEO老哥愈加深表担忧的少量是：

如果不是GPTBot“贪心”到让咱们的网站宕机，咱们可能不知说念它一直在爬取咱们的数据。这个经由是有bug的，即便你们AI大公司说了不错竖立robots.txt来谢绝爬虫，但你们把遭殃推到了咱们身上。

终末，CEO老哥也敕令繁密在线企业，要念念谢绝大公司未经允许爬虫，一定要主动、积极地去查找问题。

并不是第一例

但Triplegangers并不是第一个因为OpenAI任性爬虫导致宕机的公司。

在此之前，还有Game UI Database这家公司。

它收录了超56000张游戏用户界面截图的在线数据库，用于供游戏联想师参考。

有一天，团队发现网站加载速率变慢，页面加载时辰蔓延三倍，用户连续际遇502造作，首页每秒被再行加载200次。

他们一开动也以为是遭到了DDoS报复，成果一查日记……是OpenAI，每秒查询2次，导致网站险些瘫痪。

但你以为如斯任性爬虫的惟有OpenAI吗？

非也，非也。

举例Anthropic此前也被曝出来过近似的事情。

数字产物责任室Planetary的首创东说念主Joshua Gross曾示意过，他们给客户再行联想的网站上线后，流量激增，导致客户云老本翻倍。

经审计发现，大量流量来自持取机器东说念主，主如果Anthropic导致的无兴味流量，大量央求齐复返404造作。

针对这一表象，来自数字告白公司DoubleVerify的一份新计算明白，AI爬虫在2024 年导致“一般无效流量”（不是来自真正用户的流量）加多了86%。

那么AI公司，尤其是大模子公司，为什么要如斯任性地“吸食”集聚上的数据？

一言蔽之，即是他们太缺用来进修的高质料数据了。

有计算算计过，到2032年人人可用的AI进修数据可能就会耗尽，这就让AI公司加速了数据网罗的速率。

也正因如斯，OpenAI谷歌等AI公司为了取得更多“独家”视频用于AI进修，当今也正纷纷向UP主们重金求购那些“从未公开”的视频。

而且连价钱齐标好了，如果是为YouTube、Instagram和TikTok准备的未发布视频，每分钟出价为1~2好意思元（总体一般是1~4好意思元），且笔据视频质料和重要的不同，价钱还能再涨涨。

那么你对这一表象有什么想法呢？接待在指摘区留言计算~

参考聚积：[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/[2]https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9

迪士尼彩乐园怎样 OpenAI任性爬虫，把一家公司齐给爬宕机了，CEO：堪比DDoS

发布日期：2024-07-18 16:54 点击次数：81

推荐资讯