爬虫技术

用phpSpider爬虫采集糗事百科(改进版)

接着上一篇《用phpSpider爬虫采集糗事百科》程序的改进版,测试时发现phpSpider在单次执行任务的时候自带URL过滤重复,但是如果重复执行的时候程序会重复抓取,所以我们需要建立一个url的字段来保存历史抓取记录,每次入库前如果判断一下该URL是否抓取过了即可。

用phpSpider爬虫采集糗事百科

今天发现了一个好玩的php爬虫框架phpSpider,这里写了个官方的demo,可以采集糗百的内容和作者。

在CentOS7上安装使用PhantomJS(非源码编译)

在CentOS上编译安装PhantomJS

CentOS/RHEL一键安装PhantomJS的脚本

pyspider运行报错:ImportError: pycurl: libcurl link-time ssl backend (openssl) is different from compile-time ssl backend

pyspider运行报错:ImportError: pycurl: libcurl link-time ssl backend (openssl) is different from compile-time ssl backend

pyspider安装出错: Command "python setup.py egg_info" failed with error code 1 in

史上最全的网页爬虫技术框架合集

史上最全的网页爬虫技术框架合集

优秀爬虫技术框架合集,多种开发语言,应有尽有,Github地址:https://github.com/BruceDone/awesome-crawler

让CURL和Guzzle跟踪301跳转的重定向链接

php中使用curl或者guzzle爬虫框架对301重定向链接的两种处理方法

如何抓取lazyload图片?原始图片的抓取方法

使用jQuery lazyload插件可以让图片延迟加载,加速网页快速访问,在dom中img的src并非原始图片所以需要独立特别处理一下。