使用PHP/cURL网路蜘蛛脚本下载及保存图像

使用PHP/cURL网路蜘蛛脚本下载及保存图像

在这篇文章里,我将讨论如何使用PHP/cURL网路蜘蛛下载和保存图像文件。我会用之前的电子邮址提取脚本作为示范。其实相同的脚本通过一些修改后可以用来提取购物网站,如ebay.com或者amazon.com的产品信息和图像,搬到您所指定的数据库。我们也可以从目录网站提取业务信息,文字信息和图像到您的网站。

以下是要提取图像文件储存进数据库的几项考量:

1 )不同的网站, 不同页面,甚至同一页面会有很多种图像文件格式( JPEG,PNG , GIF等)。

如果我们想对从不同的网站所采集到的图像建立共同的数据库,那么我们的PHP网路蜘蛛脚本需要能够转换成我们所要的文件格式。

2 )每个图像的文件大小不同。

一些图像可能非常大,一些则非常小。我们的PHP网路蜘蛛脚本需要能够调整大文件至更小的尺寸。调整大文件至小不是问题。小尺寸调大将使质量很差。

3 )我们需要图像文件的命名约定。

各个网站图像文件命名不同。有些长文件名,有些短。图像文件存储到我们的文件夹前,我们需要重新命名这些文件。

4 )我们需要在MySQL数据库中添加一个列,并将图像链接到相关信息。

那我们可以开始了。。。

阅读更多...

通过PHP/cURL实现HTTP Get 请求网页源文件

php cURL标志

当您成功装置XAMPP之后,我们就可以在PHP/MySQL环境生成PHP脚本索取网页源文件。PHP有很多函数库帮我们向伺服器发送请求及接收伺服器送回的文件,其中一个是我们将要用到的cURL。

现在我们先写一个间单的PHP/cURL类来协助我们向伺服器提出请求,之后我们才能向网页源文件“开刀”取出我们要的资料。我们也不时要改进我们的程序源码。

首先,在C:\xampp\htdocs下创建一个文件夹“scraper”,然后使用Notepad++在文件夹C:\xampp\htdocs\scraper创建一个文件httpcurl.php

阅读更多...
订阅此RSS源