金磊 发自 凹非寺量子位 | 公众号 QbitAI
万万没念念到,能把一家公司网站给搞宕机的元凶,尽然是OpenAI任性爬虫的机器东说念主——GPTBot。
布鲁斯-布朗生涯初期效力活塞和篮网,但都没有太多高光,直到21-22赛季他转投掘金,布鲁斯-布朗迎来生涯巅峰,场均可以拿到11.5分4.1个篮板3.4次助攻,尤其西决掘金横扫湖人,布鲁斯-布朗作为球队超六,粉碎了詹姆斯和浓眉冠军梦,掘金则在总决赛击败热火,成功拿到了队史首座总冠军奖杯。别看布鲁斯-布朗官方身高只有1.93米,但他技术非常全面,而且身体很强壮十分擅长对抗,一手小抛投炉火纯青,算是身体和技术兼具的万金油。
NBA《全情投入》世界巡回主题展首站于2024年6月登陆北京,三个月的展览受到广大篮球爱好者一致好评。本次青岛站落地中山路历史文化街区,结合当地独特的建筑特色及旅游区位优势,为本地市民和外地游客带来一场新奇体验,也为上街里街区综合城市更新建设,振兴老街区综合活力增添亮点。
(GPTBot是OpenAI早年前推出的一款器用,用来自动持取通盘这个词互联网的数据。)
就在这两天,一家7东说念主团队公司(Triplegangers)的网站倏得宕机,CEO和职工们赶忙排查问题到底出在的那里。
不查不知说念,一查吓一跳。
罪魁罪魁恰是OpenAI的GPTBot。
从CEO的描摹中来看,OpenAI爬虫的“攻势”是有点任性在身上的:
咱们有擢升65000种产物,每种产物齐有一个页面,然后每个页面还齐有至少三张图片。OpenAI正在发送恒河沙数的就业器央求,试图下载通盘内容,包括数十万张像片过火谛视描摹。
在分析了公司上周的日记之后,团队进一步发现,OpenAI使用了不啻600个IP地址持取数据。
如斯界限的爬虫,就导致这家公司网站的宕机,CEO致使无奈地示意:
这基本上即是一场DDoS报复。
更辛苦的少量是,由于OpenAI任性地爬虫,还会激发了大量的CPU使用和数据下载行径,从而导致网站在云筹画就业(AWS)方面的资源消耗剧增,支出就会大幅增长……
嗯,AI大公司任性爬虫,却由小公司来买单。
这家袖珍团队的际遇,亦然激发了不少网友们的计算,有东说念主合计GPTBot的作念法并不是持取,更像是“偷窃”的委婉说法:
也有网友现身示意有近似的资格,自从扰乱了大公司的批量AI爬虫,省了一大笔钱:
被爬虫到宕机,还不知说念被爬走了什么
那么OpenAI为什么要爬虫这家初创企业的数据?
简单来说,它家的数据如实属于高质料的那种。
据了解,Triplegangers的7名成员耗尽了十多年的时辰,打造了堪称最大“东说念主类数字孪生”数据库
网站包含从本色东说念主类模子扫描的3D图像文献,况兼像片还带有谛视的标签,涵盖种族、年纪、纹身与疤痕、多样体型等信息。
这关于需要数字化再现真正东说念主类特征的3D艺术家、游戏制作家等,无疑具有辛苦价值。
天然Triplegangers网站上有一个就业条件页面,内部明确写了扰乱未经许可的AI持取他们家的图片。
但从目下的成果上来看,这十足莫得起到任何作用。
重心在于,迪士尼彩乐园AppTriplegangers莫得正确竖立一个文献——robots.txt。
robots.txt也称为机器东说念主摈斥左券,是为了告诉搜索引擎网站在索引集聚时不要爬取哪些内容而创建的。
也即是说,一个网站如果不念念被OpenAI爬虫,那就必须正确竖立robots.txt文献,并带有特定标签,明确告诉GPTBot不要造访该网站。
但OpenAI除了GPTBot以外,还有ChatGPT-User和OAI-SearchBot,它俩也有各自对应的标签:
而且笔据OpenAI官方发布的爬虫信息来看,即便你立即正确建设了robots.txt文献,也不会立即收效。
因为OpenAI识别更新这个文献可能需要24个小时……
CEO老哥对此示意:
如果一个网站莫得正确竖立robots.txt文献,那么OpenAI和其它公司会合计他们不错专揽稳重地持取内容。这不是一个可选的系统。
正因如斯,也就有了Triplegangers在责任时辰段网站被搞宕机,还搭上了高额的AWS用度。
逼迫好意思东时辰的本周三,Triplegangers照旧按照要求竖立了正确的robots.txt文献。
以防万一,团队还建设了一个Cloudflare账户来扰乱其它的AI爬虫,如Barkrowler和Bytespider。
天然到了周四开工的工夫,Triplegangers莫得再出现宕机的情况,但CEO老哥还有个悬而未决的困惑——
不知说念OpenAI齐从网站中爬了些什么数据,也关连不上OpenAI……
而且令CEO老哥愈加深表担忧的少量是:
如果不是GPTBot“贪心”到让咱们的网站宕机,咱们可能不知说念它一直在爬取咱们的数据。这个经由是有bug的,即便你们AI大公司说了不错竖立robots.txt来谢绝爬虫,但你们把遭殃推到了咱们身上。
终末,CEO老哥也敕令繁密在线企业,要念念谢绝大公司未经允许爬虫,一定要主动、积极地去查找问题。
并不是第一例
但Triplegangers并不是第一个因为OpenAI任性爬虫导致宕机的公司。
在此之前,还有Game UI Database这家公司。
它收录了超56000张游戏用户界面截图的在线数据库,用于供游戏联想师参考。
有一天,团队发现网站加载速率变慢,页面加载时辰蔓延三倍,用户连续际遇502造作,首页每秒被再行加载200次。
他们一开动也以为是遭到了DDoS报复,成果一查日记……是OpenAI,每秒查询2次,导致网站险些瘫痪。
但你以为如斯任性爬虫的惟有OpenAI吗?
非也,非也。
举例Anthropic此前也被曝出来过近似的事情。
数字产物责任室Planetary的首创东说念主Joshua Gross曾示意过,他们给客户再行联想的网站上线后,流量激增,导致客户云老本翻倍。
经审计发现,大量流量来自持取机器东说念主,主如果Anthropic导致的无兴味流量,大量央求齐复返404造作。
针对这一表象,来自数字告白公司DoubleVerify的一份新计算明白,AI爬虫在2024 年导致“一般无效流量”(不是来自真正用户的流量)加多了86%。
那么AI公司,尤其是大模子公司,为什么要如斯任性地“吸食”集聚上的数据?
一言蔽之,即是他们太缺用来进修的高质料数据了。
有计算算计过,到2032年人人可用的AI进修数据可能就会耗尽,这就让AI公司加速了数据网罗的速率。
也正因如斯,OpenAI谷歌等AI公司为了取得更多“独家”视频用于AI进修,当今也正纷纷向UP主们重金求购那些“从未公开”的视频。
而且连价钱齐标好了,如果是为YouTube、Instagram和TikTok准备的未发布视频,每分钟出价为1~2好意思元(总体一般是1~4好意思元),且笔据视频质料和重要的不同,价钱还能再涨涨。
那么你对这一表象有什么想法呢?接待在指摘区留言计算~
参考聚积:[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/[2]https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9