爬虫项目记录--搜索引擎图片爬取(一)

爬虫项目记录–搜索引擎图片爬取

Log my v2ex – crawl pic from SE (1)

记录爬虫项目 – 爬取搜索引擎图片(一)

前言:本文取向于设计分布式爬虫以及爬虫实战相关的思路介绍,关于一些个人工作经验和认识,需求分析,模块拆解去构建爬虫,包含了一些设计思路和解决办法。也欢迎同行交流沟通。

感谢师兄提供的项目需求,也让我体会到数据市场的水有多深,也算是对爬虫和数据有了新的认识。

✓ 0x00 关于爬虫的认识

1. 工程化的爬虫

用一句话来讲,工程化的爬虫系统不同于平时写的脚本,主要原因是由于对于爬虫的监控和调度的逻辑远比写爬虫解析的逻辑要复杂的多。复杂程度和普通的后台系统没有什么区别,甚至比一些后台系统还要复杂。

常见的爬虫框架有很多,如下:

开源的Web爬虫

2019-2020读书清单

TODO LIST–技术书籍 2019-2020

月度需要读完的书籍清单

目前来看需要解决的问题还是系统性的朝花夕拾,主要方向是操作系统和网络。

✓ 0x00 核心阅读

Linux-UNIX系统编程手册(上、下册)

主要目标:通过书籍认识系统实现,深入原理认识,能够完全认识系统提供接口,最好借此完成实现工作应用实践。

鸟哥私房菜

一本曾经要读却没有认真地与时俱进跟进的书。目标:系统性跟进一些Linux操作应该知道,却模糊的问题和概念。

垃圾回收初识

垃圾回收基本概念

Basic garbage collection concepts

计算机中垃圾回收的故事

声明:本文是个人读书的感悟和知识总结。其中有一些感性认识,如果感兴趣请留言,有错误也请指正。

要想认清垃圾回收最好在大脑中有了堆栈模型的情况下,了解了操作系统程序运行机制,再去认识垃圾回收就会更加深刻和彻底。(个人感悟)

✓ 0x00 垃圾回收基础概念-【对象 /头 /域】

对象这个词,在不同的使用场合其意思各不相同。在面向对象编程中,它指“具有属性和行为的事物”,然而在 GC 的语境中,对象表示的是“通过应用程序利用的数据的集合”。

· 对象配置在内存空间里。GC 根据情况将配置好的对象进行移动或销毁操作。

· 对象是 GC 的基本单位。

· 对象由头(header)和域(field)构成。
1. 对象的头

对象中保存对象本身信息的部分称为“头”。头主要含有以下信息:

· 对象的大小

· 对象的种类
2. 对象的域

我们把对象使用者在对象中可访问的部分称为“域”。可以将其想成 C 语言中结构体的成员。对象使用者会引用或替换对象的域值。另一方面,对象使用者基本上无法直接更改头的信息。域中的数据类型大致分为以下 2 种:

· 对象的大小

· 对象的种类
对象、头以及域

(混合版)说文解字计算机中的词汇--单词的故事系列--git系列(一)

[Remix]说文解字–计算机相关词汇–Git相关

计算机中那些单词的故事——Git系列(一)

声明:本文可能更多本着挖掘历史和记录学习的感性角度,并没有具体关于 Git 的操作讲解,后续应该会有工作流相关研读,侧重学习理解、逻辑和实际应用场景。其中有一些感性认识,如果感兴趣请留言,有错误也请指正。

本篇文章着重 Git 发展历史,从历史场景了解版本控制系统演进,Git 作为分布式版本控制的特性以及Git基础概念–状态

✓ 0x00 Git 历史与简介

提到 Git 就离不开版本控制,版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。

[P.S] 抛离 Git,想想你交论文的时候每次写的version*.**,也有根据时间去区分的,时间能够描述顺序,想想如果老师跟你说我觉得还是你上上上次那哪天那次给我那版还不错,因为勤劳修改版本多的同学肯定是疯了,哈哈哈。

版本控制系统大致可以分为:

1.本地版本控制系统

2.集中化的版本控制系统

3.分布式版本控制系统

1.本地版本控制系统

问题:许多人习惯用复制整个项目目录的方式来保存不同的版本,或许还会改名加上备份时间以示区别。这么做唯一的
好处就是简单,但是特别容易犯错。有时候会混淆所在的工作目录,一不小心会写错文件或者覆盖意想外的文件。

说文解字计算机中的词汇--单词的故事系列--pod

说文解字–计算机相关词汇

计算机中那些单词的故事——pod/-pod-(豌豆荚/足)

✓ 0x00 词根词源

1.pod (n.1)

“seed of beans,” 1680s, of uncertain origin; found earlier in podware “seed of legumes, seed grain” (mid-15c.), which had a parallel form codware “husked or seeded plants” (late 14c.), related to cod “husk of seeded plants,” which was in Old English. In reference to pregnancy from 1890; in reference to a round belly from 1825. Meaning “detachable body of an aircraft” is from 1950. Pod people (1956) is from movie “Invasion of the Body Snatchers,” based on novel by Jack Finney.

最早指代一种不确定定来源的豆类种子,1680年代; 早在豆荚“豆类种子,种子谷物”(15年代中期)中发现,其具有与鳕鱼“种子植物的外壳”有关的平行形式的鳕鱼“脱壳或有种子的植物”(14c。晚期)。 古英语。 关于1890年的怀孕; 指的是1825年的圆形肚皮。意思是“飞机的可拆卸机身”是1950年的。Pod people(1956)摘自电影《入侵车身的抢夺者》,改编自杰克·芬尼的小说。

图片名称