博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
精通Python网络爬虫:核心技术、框架与项目实战.1.6 小结
阅读量:6087 次
发布时间:2019-06-20

本文共 390 字,大约阅读时间需要 1 分钟。

1.6 小结

1)网络爬虫也叫作网络蜘蛛、网络蚂蚁、网络机器人等,可以自动地浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则去浏览,这些规则我们将其称为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。

2)学习爬虫,可以:①私人订制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理,进行更深层次地理解;②为大数据分析提供更多高质量的数据源;③更好地研究搜索引擎优化;④解决就业或跳槽的问题。

3)网络爬虫由控制节点、爬虫节点、资源库构成。

4)网络爬虫按照实现的技术和结构可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型。在实际的网络爬虫中,通常是这几类爬虫的组合体。

5)聚焦网络爬虫主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成。

 

 

 

转载地址:http://kvtwa.baihongyu.com/

你可能感兴趣的文章
【AngularJS】—— 10 指令的复用
查看>>
hibernate 怎么增加 comment
查看>>
python实现一个简单的爬虫搜索功能
查看>>
maven将main 方法写入mainfest中
查看>>
js json字符串转换为json对象之引申问题
查看>>
php根据ip获取地址信息
查看>>
python fire
查看>>
C++ static 静态类对象构造
查看>>
javaSe-集合
查看>>
获取城市PM2.5的python代码
查看>>
[原创] Android SDK 安装全记录
查看>>
Spring--quartz中cronExpression配置说明
查看>>
servlet学习之路
查看>>
动态作用域和词法作用域
查看>>
SpringMVC 表单验证
查看>>
修改SBT默认缓存路径
查看>>
scala 学习第一天
查看>>
图文讲解zabbix安装全过程(5)
查看>>
Apache 服务器使用沃通免费SSL证书 配置https项目
查看>>
JNI调用,线程相关
查看>>