js06金沙所有网址js(中国)有限公司

0755-21010815 13726728778

仅限搜索引擎爬虫——重新审视Robots协议的适用范围

来源:js06金沙所有网址js(中国)有限公司 浏览:615 时间:2020-08-08 14:48:58
    一、爬虫不只是一种
    爬虫是目前互联网获取第三方网站信息和数据的最常用技术手段之一,是通过编程来自动实现对目标站点和目标信息的批量获取。最早的爬虫事实上就是搜索引擎,它可以对网络上的超链接进行遍历式爬取,检索网站的信息编制成索引便于其他用户访问,省却了一一记住网站域名的麻烦。
    虽然爬虫技术最早被用于搜索引擎,但随着大数据应用的普及,人们对数据的需求越来愈高,爬虫也早已脱离搜索场景开始被用于各种数据搬运的场景,互联网领域有一个流行的说法:“互联网上50%的流量都是爬虫创造的”,虽然没有明确的证据支撑,但诸多从业者都曾表示实际占比应该只多不少,可见爬虫的威力。
    从使用场景区分,爬虫可以分为通用网络爬虫(GeneralPurposeWebCrawler)和聚焦网络爬虫(FocusedWebCrawler),前者是针对不特定网站进行数据和信息获取,爬行对象从一些种子地址扩充到整个网络上的链接,典型的就是搜索引擎爬虫;后者则是有针对性的针对特定类别或者单一网站进行数据爬取,而且通常聚焦爬虫也不是锁定目标后一股脑的把目标网站信息全部down下来,而是在目标网站上定向获取特定内容(这类爬虫业内又叫做“定向爬虫”、“主题爬虫”),例如只爬取某电商平台的用户评价信息、商品销售信息等。

    所以,大家会看到聚焦爬虫只负责搬运特定用途的数据,这些数据并非向搜索爬虫一样给全体网民带来访问入口等便利,而是投入到特定的商业用途,例如洗稿、用户画像、数据镜像等。

仅限搜索引擎爬虫——重新审视Robots协议的适用范围

    二、Robots协议的起源和适用场景
    robots协议最早是由被誉为robots之父的荷兰网络工程师MartinKoster于1994年3月6日提出的,在1994年6月30日举办的爬虫邮件组论坛(TheRobotsMailingList)上,搜索引擎代表以及被搜索引擎抓取的网站站长代笔一同讨论后发布了一份作业标准,即robots.txt协议。随后这一协议被最早的AltaVista、Infoseek、谷歌、Bing、百度、360、搜狗等几乎国内外全部搜索引擎所遵守。
    中国互联网协会2012年11月1日制定发布了《互联网搜索引擎服务自律公约》,公约第七条直接规定:“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)”,公约发起单位包括百度、立即查找、盘古查找、奇虎360、隆重文学、搜狗、Tencent、网易、新浪、宜搜、易查无限、中搜十二家企业现场签署了《互联网查找引擎服务自律条约》。
    Robots协议是一份技术声明文件,是网站为了对外表明其对爬虫爬取自身内容的态度和限度所设置,全称是“网络爬虫排除协议”(RobotsExclusionProtocol)。可见,这里的“协议”对应的英文“protocol”是计算机通信意义上的“协议”,而不是法律意义上的协议“agreement“,自然这样的爬虫协议是不具备法律上的“协议”效力的,它是一个君子协定,供业内人士自觉遵守。
    根据业内的共识,robots协议被置于网站根目录下,将网站域名后加入“/robots.txt”即可访问到,因此爬虫访问某站点的时候,理论上应当第一个读取的文件就是robots.txt文件,如果该文件不存在,爬虫将能够访问网站上所有没有被口令保护的页面,如果存在,应该按照文件中标明的指令来访问网站内容,当然,很多爬虫对此“不屑一顾”,尤其是大家前面说的“聚焦爬虫”。
    从robots协议的语句中,大家可以直观地看到,其所针对的都是搜索引擎爬虫,例如淘宝的robots协议中明确记载了百度、GOOGLE、必应和360的搜索爬虫访问权限。
    可见,无论从robots协议的起源、行业惯例以及具体的语义,都可以看出robots协议是与搜索引擎这种类型的通用网络爬虫一一对应使用的,可以说是搜索引擎和网站主体之间的一个“君子协定”。
    三、Robots协议的法律属性
    历史上第一桩关于爬虫协议的案件诞生在2000年,eBay将一家聚合价格信息的比价网站BE告上了法庭,eBay声称自己已经将哪些信息不能抓取写进了爬虫协议中,但BE违反了这一协议。但BE抗辩eBay上的内容属于用户集体贡献而不归用户所有,爬虫协议不能用作法律参考。最终以eBay胜诉告终,也开了用爬虫协议作为主要参考的先河。
    我国也有过跟robots协议相关的判例,北京市第一中级人民法院在某不正当竞争案中指出:“整个互联网行业对于Robots协议都是认可和遵守的,其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德”。
    可见,目前司法已经将robots协议纳入到审查范围,并且认为在爬虫访问网站的过程中,robots协议是一项应当参考的具有法律意义的文件。
    四、聚焦爬虫“非诚勿扰”
    爬虫协议有了行业公约,也有了典型的司法判例,于是大家发现审查robots协议内容似乎成了爬虫爬取第三方数据是否构成侵权的标准流程之一,此时便出现了一个新问题,那就是如果爬虫不是搜索类的通用网络爬虫而是聚焦爬虫的情况,网站还是否应该设置针对性的robots协议呢?如果没有设置,是否按照之前的行业惯例认定为网站默认允许聚焦爬虫定向获取自己的内容和数据?
    经过前述爬虫类型和robots协议原理的分析之后,大家会发现,对于聚焦爬虫要求网站经营者同样设置robots协议来表明对其定向获取数据的态度是缺乏必要性和合理性的。
    首先,如果说搜索引擎就像进入景区的游客一样,大部分商家是欢迎游客到自己的店里走走看看的,搜索引擎爬虫光顾网站(类似景区商家)的好处是会让网站获得访问流量(带来客源)。但聚焦爬虫就完全不同,它们相当于一个情报调查员,只认准一个网站(商家)而不去别家光顾,并且光顾的频率极为频繁,正常游客每天只到店里来个一两次,聚焦爬虫成百上千次,甚至导致正常访客的通道都被挤占,这就是为什么前文讲到网络世界流行的说法是爬虫贡献了50%以上的流量。
    作为网站而言,需要拿出相当大的服务能力来应对聚焦爬虫的访问,如果访问量过大,服务器难以承受,则正常用户就打不开前台的页面了。为了防止聚焦爬虫的过度访问,大量的网站开始采取反爬虫措施,例如用户验证、限制ip等,这样做的结果是正常用户对网站的访问越来越难,体验越来越差,如果你在12306网站订过票相信是有体会的。
    所以,如果一位访客每天到你商店里来一万次,进来之后左看右看就是不买东西,你的店员疲于招架他一个人,这种情况下还需要你在店门口贴一张“非诚勿扰”的告示吗?
    其次,排除访问量负荷的问题,聚焦爬虫是真正意义上的“数据搬运工”,它们获取数据之后没有像搜索引擎一样一个反哺网站的过程,而是单方面攫取,这在大数据时代会导致一个更加严重的问题,如果大家都能够如此容易的拿到数据资源,那谁还愿意开发产品,投入运营和推广,然后吸引用户到平台上来沉淀数据呢?说白了,必须要考虑对数据贡献者的激励,否则大数据会变成无源之水。
    第三,有人可能会说,不就是在robots协议里写个语句吗,有什么复杂的,但是法律看问题的角度应该是施加义务的合理性和必要性,这跟这项义务本身是否容易实现没有关系,就好像纳税义务,该交的一分不能少,不该交的也不应该多一分。
    总结起来,笔者认为对于聚焦爬虫,法律不需要网站通过robots协议明示自己的态度,而是应该采取只要网站没有明示同意爬取,则默认为不同意。robots协议仅适用于搜索引擎爬虫等有限的场合。

栏目最新信息

地址 · ADDRESS

地址:js06金沙所有网址js市龙华区和平路32号鸿华中心1309

邮箱:bank@shidaidaxin.com

点击查看更多案例

联系 · CALL TEL

0755-21010815

非工作时间请拨打:13726728778

业务QQ: 871 978 666    售后/投诉QQ: 871 808 666

js06金沙所有网址js企业js06金沙所有网址js-js06金沙所有网址js
? 2019 时代达信(js06金沙所有网址js)科技有限企业 版权所有   js06金沙所有网址js(中国)有限公司  网站地图

js06金沙所有网址js|js06金沙所有网址js

XML 地图 | Sitemap 地图