爬虫项目记录–搜索引擎图片爬取
Log my v2ex – crawl pic from SE (1)
记录爬虫项目 – 爬取搜索引擎图片(一)
前言:本文取向于设计分布式爬虫以及爬虫实战相关的思路介绍,关于一些个人工作经验和认识,需求分析,模块拆解去构建爬虫,包含了一些设计思路和解决办法。也欢迎同行交流沟通。
感谢师兄提供的项目需求,也让我体会到数据市场的水有多深,也算是对爬虫和数据有了新的认识。
✓ 0x00 关于爬虫的认识
1. 工程化的爬虫
用一句话来讲,工程化的爬虫系统不同于平时写的脚本,主要原因是由于对于爬虫的监控和调度的逻辑远比写爬虫解析的逻辑要复杂的多。复杂程度和普通的后台系统没有什么区别,甚至比一些后台系统还要复杂。
常见的爬虫框架有很多,如下:
开源的Web爬虫