用 Python 写网络爬虫（第2版）,PDF下载-电子书资源网

用 Python 写网络爬虫（第2版）

[德] 凯瑟琳·雅姆尔（Katharine·Jarmul） / [澳] 理查德·劳森（Richard·Lawson)

出版社:人民邮电出版社

格式:PDF

简介

本书包括网络爬虫的定义以及如何爬取网站，如何使用几种库从网页中抽取数据，如何通过缓存结果避免重复下载的问题，如何通过并行下载来加速数据抓取，如何利用不同的方式从动态网站中抽取数据，如何使用叔叔及导航等表达进行搜索和登录，如何访问被验证码图像保护的数据，如何使用 Scrapy 爬虫框架进行快速的并行抓取，以及使用 Portia 的 Web 界面构建网路爬虫。

部分内容

本书包括网络爬虫的定义以及如何爬取网站，如何使用几种库从网页中抽取数据，如何通过缓存结果避免重复下载的问题，如何通过并行下载来加速数据抓取，如何利用不同的方式从动态网站中抽取数据，如何使用叔叔及导航等表达进行搜索和登录，如何访问被验证码图像保护的数据，如何使用 Scrapy 爬虫框架进行快速的并行抓取，以及使用 Portia 的 Web 界面构建网路爬虫。

作者简介 · · · · · ·
Katharine Jarmul 是德国柏林的一位数据科学家和 Python 支持者。她经营了一家数据科学咨询公司——Kjamistan，为不同规模的企业提供诸如数据抽取、采集以及建模的服务。她从 2008 年开始使用 Python 进行编程，从 2010 年开始使用 Python 抓取网站，并且在使用网络爬虫进行数据分析和机器学习的不同规模的初创企业中工作过。读者可以通过 Twitter（@kjam）关注她的想法以及动态。

Richard Lawson 来自澳大利亚，毕业于墨尔本大学计算机科学专业。毕业后，他创办了一家专注于网络爬虫的公司，为超过 50 个国家的业务提供远程工作。他精通世界语，可以使用汉语和韩语对话，并且积极投身于开源软件事业。他目前正在牛津大学攻读研究生学位，并利用业余时间研发自主无人机。

译者介绍

李斌，毕业于北京科技大学计算机科学与技术专业，获得硕士学位。曾任职于阿里巴巴，当前供职于凡普金科，负责应用安全工作。热爱 Python 编程和 Web 安全，希望以更加智能和自动化的方式提升网络安全。博客地址为 pythoner.com。

目录 · · · · · ·
前言
资源与支持
第1章网络爬虫简介
第2章数据抓取
第3章下载缓存
第4章并发下载
第5章动态内容
第6章表单交互
第7章验证码处理
第8章 Scrapy
第9章综合应用

立即查看

教育教学

政治图书

家居休闲

经济管理

工业技术

外语教育

艺术设计

文学小说

社会科学

计算机

法律知识

体育常识

考试宝典

工具

化学书库

农业技术

家庭教育

建筑设计

数学读物

物理知识

现代小说

医学知识

营养美食

地理图册

人物传记

农艺学

旅游地图

法学

百科全书

化工

IT技术

家事窍门

工业读物

素质教育

建筑科学

饮食健康

教育常识

经济政策

学历考试

史家名著

旅游随笔

饮食文化

名家作品

历史人物

启蒙读物

人类文化

时尚美妆

数学文化

文学评述

用 Python 写网络爬虫（第2版）

简介

部分内容

标签

推荐

版权信息