网络内容采集

网络内容采集 (11)

网络蜘蛛忍者隐身术

网络蜘蛛忍者隐身术

大多数网站站长都欢迎搜索引擎,如谷歌和Bing的网络蜘蛛。这样,他们的网站内容可以很容易通过搜索引擎被用户进行搜索时找到。但是他们肯定不会欢迎你的网络蜘蛛从他们的网站提取数据,并认为你不怀好意,比如etsy.com产品被用来引流到一个香港网站。如果网站管理员发现不明网络蜘蛛积极抓取他们的网站,你的IP可能被阻止。2001年,易趣采取法律行动对付用网络蜘蛛抓取的拍卖网站Bidder's Edge,控告他们“深层链接”其商品,并轰击它的服务器; Craigslist网站具有节流机制,以防止网络爬虫铺天盖地的向网站提出请求.

即使大蜘蛛如谷歌也有机制防止其他人提取他们的内容。不信的话,你可尝试搜索一些关键字,并在搜索结果网页上,单击第1页,然后第2页,第3页......在20页(我的情况) ,谷歌停止显示搜索结果,并要确认你是人类。如果您无法输入正确验证码,那么你的IP最终会被阻止。

阅读更多...

使用PHP/cURL网路蜘蛛脚本下载及保存图像

使用PHP/cURL网路蜘蛛脚本下载及保存图像

在这篇文章里,我将讨论如何使用PHP/cURL网路蜘蛛下载和保存图像文件。我会用之前的电子邮址提取脚本作为示范。其实相同的脚本通过一些修改后可以用来提取购物网站,如ebay.com或者amazon.com的产品信息和图像,搬到您所指定的数据库。我们也可以从目录网站提取业务信息,文字信息和图像到您的网站。

以下是要提取图像文件储存进数据库的几项考量:

1 )不同的网站, 不同页面,甚至同一页面会有很多种图像文件格式( JPEG,PNG , GIF等)。

如果我们想对从不同的网站所采集到的图像建立共同的数据库,那么我们的PHP网路蜘蛛脚本需要能够转换成我们所要的文件格式。

2 )每个图像的文件大小不同。

一些图像可能非常大,一些则非常小。我们的PHP网路蜘蛛脚本需要能够调整大文件至更小的尺寸。调整大文件至小不是问题。小尺寸调大将使质量很差。

3 )我们需要图像文件的命名约定。

各个网站图像文件命名不同。有些长文件名,有些短。图像文件存储到我们的文件夹前,我们需要重新命名这些文件。

4 )我们需要在MySQL数据库中添加一个列,并将图像链接到相关信息。

那我们可以开始了。。。

阅读更多...

为PHP网络蜘蛛提取Email地址脚本创建及储存MySQL数据库(4)

如何把收集到的资料储存在MySQL数据库

这是PHP网络蜘蛛提取Email地址脚本最后一章, 我将展示如何把收集到的资料储存在MySQL数据库。您可以把从多个网站收集到的资料储存在同一个数据库。

您也可以把资料分类。比如说您从产业网站及购物网站收集的资料分开储存在不同的数据库表。

首先在您的电脑运行XAMPP,并确保激活Apache及MySQL。在浏览器输入URL "http://localhost/phpmyadmin/"。在顶部菜单栏选择"Database"。在这教程里我们的数据库为"email_collection"。 按"Create"钮可看到如下 图般。

您可在此下戴PHP cURL邮址提取脚本。

阅读更多...

PHP网络蜘蛛爬行网页提取Email地址脚本(3)

网站分页爬行

在这文章里,我将展示如何进一步修改我们的电子邮址提取脚本,注入爬行能力,并收集尽可能最多的电子邮址。

诀窍很简单 - 我们不要爬行整个网站并检查每个网页。这样做会消耗大量的带宽和时间。我们只需要抓取网页有针对性的电子邮件列表,因此,只要我们知道总页数,然后循环从第一页到最后一页就可完成任务了!

首先,检查目标网站的分页。在这个例子中,它有页面1,2,3,...和“Last”页面按钮。按下此钮将带我们到最后一页,第169页。每个页面有10个电子邮件地址,所以从这个网站可以得到将近1690电子邮址。页面总数(目前为169)将来是可以改变的。如果我们想重用我们的电子邮件提取脚本,它必须能够自动检测总页数。

阅读更多...

PHP Email地址提取脚本cURL和正则表达式 (2)

HP Email地址提取脚本cURL和正则表达式

在本文里,我们需要稍微修改之前的PHP Email地址提取脚本。

首先,我们看回该网页的源文件,可以看到有重复块代理联系人的姓名,电子邮件和电话号码。每页有10块。

我们的策略是使用脚本“切出”每一块资料,然后存储到数组,再提取每块资料里的姓名,电子邮件和电话号码。

正如您看到的,每块以标签<div class="negotiators-wrapper">开头及以</ div></ div>结束。请注意,在这个例子中的回车和新换行分隔</ div>标记。

阅读更多...

PHP cURL和正则表达式的Email地址提取脚本(1)

PHP cURL和正则表达式的Email地址提取脚本

在本文里,我将解释如何使用PHP/cURL从网页提取Email地址。PHP脚本将运用正则表达式匹配HTML标签提取。

想想看,如果我们寄出电邮开头以“先生您好”或“老板您好”,那收信者多数会把我们的邮件当成垃圾处理。所以使用网络爬虫或蜘蛛采集Email地址时,我们也需提取相关的资料如姓名,电话号码,公司名称,职位等。把这些资料包括在邮件内容,收信者就会仔细阅读。

当然,请您不要滥用海量采集电子邮件地址的能力,胡乱发出垃圾邮件,令人反感的广告内容,违反版权法或干扰网络带宽。如果您惹祸上身,小弟没有势力救不了您,还是请个律师帮忙好。

阅读更多...

通过PHP/cURL实现HTTP Get 请求网页源文件

php cURL标志

当您成功装置XAMPP之后,我们就可以在PHP/MySQL环境生成PHP脚本索取网页源文件。PHP有很多函数库帮我们向伺服器发送请求及接收伺服器送回的文件,其中一个是我们将要用到的cURL。

现在我们先写一个间单的PHP/cURL类来协助我们向伺服器提出请求,之后我们才能向网页源文件“开刀”取出我们要的资料。我们也不时要改进我们的程序源码。

首先,在C:\xampp\htdocs下创建一个文件夹“scraper”,然后使用Notepad++在文件夹C:\xampp\htdocs\scraper创建一个文件httpcurl.php

阅读更多...
订阅此RSS源