网络蜘蛛忍者隐身术

网络蜘蛛忍者隐身术

大多数网站站长都欢迎搜索引擎,如谷歌和Bing的网络蜘蛛。这样,他们的网站内容可以很容易通过搜索引擎被用户进行搜索时找到。但是他们肯定不会欢迎你的网络蜘蛛从他们的网站提取数据,并认为你不怀好意,比如etsy.com产品被用来引流到一个香港网站。如果网站管理员发现不明网络蜘蛛积极抓取他们的网站,你的IP可能被阻止。2001年,易趣采取法律行动对付用网络蜘蛛抓取的拍卖网站Bidder's Edge,控告他们“深层链接”其商品,并轰击它的服务器; Craigslist网站具有节流机制,以防止网络爬虫铺天盖地的向网站提出请求.

即使大蜘蛛如谷歌也有机制防止其他人提取他们的内容。不信的话,你可尝试搜索一些关键字,并在搜索结果网页上,单击第1页,然后第2页,第3页......在20页(我的情况) ,谷歌停止显示搜索结果,并要确认你是人类。如果您无法输入正确验证码,那么你的IP最终会被阻止。

阅读更多...
订阅此RSS源