爬虫礼仪:避免爬虫开发从入门到入狱

是否遵守爬虫礼仪,可以被看作爬虫是否为良性爬虫的一个判断标准,实际操作是一些网站会在根域名+"/robots.txt"中存放一些爬取数据的相关警告与声明,该文件最开始是用于为google提供说明,网站内的哪些内容可以被搜索引擎抓取,避免全站上线,因而也可以告知爬虫开发者可用的请求头,不可抓取的数据等。
eg: 土耳其航空:
https://www.turkishairlines.com/robots.txt

通配符*表示适用于所有爬虫:
User-agent: *

爬虫不可访问的资源

Disallow: / * /promotions.xml
Disallow: / * /cityguide.xml

爬虫可以访问的资源

Allow: /

访问的频率限制:最短间隔为20(单位:秒

Crawl-delay:20

xml格式的网站地图

Sitemap: http://www.turkishairlines.com/tr-tr/sitemap.xml
Sitemap: http://www.turkishairlines.com/en-int/sitemap.xml
Sitemap: http://www.turkishairlines.com/de-de/sitemap.xml
Sitemap: http://www.turkishairlines.com/es-es/sitemap.xml
Sitemap: http://www.turkishairlines.com/fr-fr/sitemap.xml

爬虫,尤其是行业聚合搜索商所开发的爬虫,一定要遵守相关爬虫礼仪,否则轻则造成数据提供方服务器压力乃至瘫痪,重则因被判定为DDoS攻击,需要负刑事责任。

相关法律法规介绍
非法获取计算机系统数据罪
根据《中华人民共和国刑法》第二百八十五条规定,非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。刑法第285条第2款明确规定,犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
侵犯商业秘密罪
《反不正当竞争法》第九条,以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用,或者公开该等信息,则构成对他人商业秘密的披露和使用,同样构成对权利人的商业秘密的侵犯。
非法侵入计算机信息系统罪
《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。

侵犯公民个人信息罪
《刑法》修正案(九)中将刑法第二百五十三条进行了修订,明确规定违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成犯罪;在未经用户许可的情况下,非法获取用户的个人信息,情节严重的也将构成“侵犯公民个人信息罪”。 根据《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定,对“情节严重”的解释,(1)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;(2)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;(3)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。

网络安全法
《网络安全法》第四十四条 任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此,如果爬虫在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。
民法总则
《民法总则》第111条任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全。不得非法收集、使用、加工、传输他人个人信息

你可能感兴趣的