使用PHP/cURL网路蜘蛛脚本下载及保存图像

使用PHP/cURL网路蜘蛛脚本下载及保存图像

在这篇文章里,我将讨论如何使用PHP/cURL网路蜘蛛下载和保存图像文件。我会用之前的电子邮址提取脚本作为示范。其实相同的脚本通过一些修改后可以用来提取购物网站,如ebay.com或者amazon.com的产品信息和图像,搬到您所指定的数据库。我们也可以从目录网站提取业务信息,文字信息和图像到您的网站。

以下是要提取图像文件储存进数据库的几项考量:

1 )不同的网站, 不同页面,甚至同一页面会有很多种图像文件格式( JPEG,PNG , GIF等)。

如果我们想对从不同的网站所采集到的图像建立共同的数据库,那么我们的PHP网路蜘蛛脚本需要能够转换成我们所要的文件格式。

2 )每个图像的文件大小不同。

一些图像可能非常大,一些则非常小。我们的PHP网路蜘蛛脚本需要能够调整大文件至更小的尺寸。调整大文件至小不是问题。小尺寸调大将使质量很差。

3 )我们需要图像文件的命名约定。

各个网站图像文件命名不同。有些长文件名,有些短。图像文件存储到我们的文件夹前,我们需要重新命名这些文件。

4 )我们需要在MySQL数据库中添加一个列,并将图像链接到相关信息。

那我们可以开始了。。。

阅读更多...
订阅此RSS源