以下是一个简单的PHP蜘蛛爬虫实例,用于抓取网页内容。这个实例将展示如何使用PHP编写一个基本的爬虫,以爬取指定网站的内容。
爬虫实例步骤
1. 创建爬虫文件
创建一个名为 `simple_crawler.php` 的文件。
2. 引入必要的库
为了简化网络请求和解析,我们将使用PHP的 `simple_html_dom` 库。你可以从GitHub下载该库:[simple_html_dom](https://github.com/weijiangwang/simple_html_dom)。
3. 编写爬虫代码
```php
// 引入simple_html_dom库
require 'simple_html_dom.php';
function crawl($url) {
// 创建一个cURL会话
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
// 执行cURL会话
$data = curl_exec($ch);
curl_close($ch);
// 解析HTML文档
$html = new simple_html_dom();
$html->load_html($data);
// 获取页面中的所有链接
$links = $html->find('a');
// 输出链接
foreach ($links as $link) {
echo $link->href . "