01 十二

使用PHP/cURL网路蜘蛛脚本下载及保存图像

01 12月 2013 |
发布于网络内容采集

在这篇文章里，我将讨论如何使用PHP/cURL网路蜘蛛下载和保存图像文件。我会用之前的电子邮址提取脚本作为示范。其实相同的脚本通过一些修改后可以用来提取购物网站，如ebay.com或者amazon.com的产品信息和图像，搬到您所指定的数据库。我们也可以从目录网站提取业务信息，文字信息和图像到您的网站。

以下是要提取图像文件储存进数据库的几项考量：

1 ）不同的网站, 不同页面，甚至同一页面会有很多种图像文件格式（ JPEG，PNG ， GIF等）。

如果我们想对从不同的网站所采集到的图像建立共同的数据库，那么我们的PHP网路蜘蛛脚本需要能够转换成我们所要的文件格式。

2 ）每个图像的文件大小不同。

一些图像可能非常大，一些则非常小。我们的PHP网路蜘蛛脚本需要能够调整大文件至更小的尺寸。调整大文件至小不是问题。小尺寸调大将使质量很差。

3 ）我们需要图像文件的命名约定。

各个网站图像文件命名不同。有些长文件名，有些短。图像文件存储到我们的文件夹前，我们需要重新命名这些文件。

4 ）我们需要在MySQL数据库中添加一个列，并将图像链接到相关信息。

那我们可以开始了。。。

15 十

通过PHP/cURL实现HTTP Get 请求网页源文件

15 10月 2013 |
发布于网络内容采集

php cURL标志

当您成功装置XAMPP之后，我们就可以在PHP/MySQL环境生成PHP脚本索取网页源文件。PHP有很多函数库帮我们向伺服器发送请求及接收伺服器送回的文件，其中一个是我们将要用到的cURL。

现在我们先写一个间单的PHP/cURL类来协助我们向伺服器提出请求，之后我们才能向网页源文件“开刀”取出我们要的资料。我们也不时要改进我们的程序源码。

首先，在C:\xampp\htdocs下创建一个文件夹“scraper”，然后使用Notepad++在文件夹C:\xampp\htdocs\scraper创建一个文件httpcurl.php。

使用PHP/cURL网路蜘蛛脚本下载及保存图像

通过PHP/cURL实现HTTP Get 请求网页源文件

评语

最多点击

今天就使用 IPVanish VPN!