爬虫技术

如何抓取lazyload图片?原始图片的抓取方法

使用jQuery lazyload插件可以让图片延迟加载,加速网页快速访问,在dom中img的src并非原始图片所以需要独立特别处理一下。

用Goutte爬虫整合进php项目(ProcessWire)的思路

记录一下用Goutte整合到ProcessWire项目的过程

php爬虫框架Goutte

Goutte提供了很友好的API用来抓取网页并提取数据,和php项目直接对接,非常简单和强大。