被洛谷封禁的检讨

回复帖子

@扩散性百万甜面包 2018-06-05 00:50 回复

被洛谷封禁的检讨

我就是那个被Lin_toto所说的进行自动化脚本爬取洛谷服务器的人。

img

自己本意上并没有恶意

一 是因为在洛谷开发组招聘中的简答题第二题

请使用你熟悉的任何语言,写出洛谷题目的爬虫,需要提交源代码。

于是之后写了几个爬虫脚本

二 是因为曾有人问过我说能不能写一个一键下载所有AC代码的脚本呢?

于是我就付诸于实践,写了爬虫脚本,并且在今天调试时候被ban掉了


经多方打听了解到ltt这次某种意义上也是针对我,因为我浪费了服务器约20G的流量,而且这也是很大的数量。

之后才了解到,我没有也遵守 https://www.luogu.org/robots.txt 中的要求,爬取了record/

至此,从今往后,我也不再更新洛谷爬虫内容,我也不会用爬虫爬取洛谷的信息,浪费服务器资源。

我也希望我的这次教训可以警示后人,不要搞事。

以上

于2018年6月5日凌晨

@Siyuan  2018-06-05 01:03 回复 举报

@Himself65 我就是那个前几天问您洛谷爬虫使用方法的人,在此对我爬取洛谷内容的行为也一并道歉!目前已经删除脚本,并保证以后不再违规!@lin_toto @kkksc03

@Anguei 管理员 2018-06-05 07:04 回复 举报

@lin_toto @kkksc03

我写过一个输入 UID,分析 AC 题目难度的爬虫(原理:进入个人空间,获取 AC 列表,顺序访问)。

还有一个输入 UID,分析该用户每个题目提交过多少次的爬虫(原理:进入 recordnew,获取每个提交记录的标题)。

还有一个很久之前写过的爬算法标签的爬虫,那个早就弃用了。

以上爬虫都是单线程。主要在同学圈内使用。

唯一一个带多线程的爬虫是判断 UID 进度的(在接近目标 UID 的时候自动开多线程,其余时间都是 time.sleep(0.8))。

请问这样的爬虫是否合法?会不会造成服务器资源浪费?


个人认为,如果洛谷以后能在个人空间统计出 AC 难度分布,那是最好的。

@lin_toto  专属头衔 2018-06-05 08:12 回复 举报

@yyfcpp

洛谷一切规则都是人性化的,只要不太过分的爬虫使用一直也都没有管。

只是他那样公然违反 robots.txt 还公开传播的东西,并且在我3次修改页面结构和加入干扰元素之后还继续更新这个爬虫,那就是有点没b数的事情了。

反馈
如果你认为某个帖子有问题,欢迎向洛谷反馈,以帮助更多的同学。



请具体说明理由,以增加反馈的可信度。