博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫——基本原理
阅读量:7085 次
发布时间:2019-06-28

本文共 591 字,大约阅读时间需要 1 分钟。

一、概述

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。

1.获取网页

使用urllib、request可以向网站的服务器发送一个请求,服务器返回的是网页的源代码。

2.提取信息

当我们获取到网页源代码之后,我们需要分析网页源代码,并从中提取我们想要的数据。最通常的办法是使用正则表达式提取,这是一个万能的办法,但是在构造正则表达式时比较复杂且容易出错。

另外,由于网页的结构具有一定的规则,所以还有一些网页节点属性、CSS选择器或者XPath来提取网页信息的库,如BS、pyquery、lxml等。使用这些库,我们可以高校的爬去信息,如节点的属性、文本值等待。

3.保存数据

提取信息以后,我们需要将提取到数据保存到某处以便今后使用。保存形式可以为TXT文本或者JSON文本,也可以保存到数据库,如MySQL和MongoDB等。也可以保存奥远程服务器,如借助SFTP进行操作等。

4.自动化程序

说到自动化程序,意思是说爬虫可以代替人完成这些操作。首先,手工可以提取这些信息,但是当信息量特别大或者想快速获取大量数据时,肯定还是要借助程序。爬虫就是来替我们完成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作,确保高效地运行。

转载于:https://www.cnblogs.com/2sheep2simple/p/10312203.html

你可能感兴趣的文章
javascript 图片加载
查看>>
Oracle 树操作(select…start with…connect by…prior)
查看>>
wiquery ResizePanel 2
查看>>
Windows 下 Qt Creator 5.3.1 环境构建
查看>>
git 搭建多人开发环境
查看>>
ubuntu升级 openssh
查看>>
在上海麦迪广告有限公司 做工作的工作项目
查看>>
【ZZ】互联网协议入门(二)
查看>>
swift遇见的坑 和 第三方库资源
查看>>
get post 区别
查看>>
c:forEach使用索引
查看>>
将Java程序作成exe文件的N种方法
查看>>
Ubuntu 12.04 LTS建立内核树(2)
查看>>
python 之第三方插件安装
查看>>
设置IP地址的技巧
查看>>
android图片文件的路径地址与Uri的相互转换
查看>>
java.security包实现对象加密
查看>>
李学江:B2B行业门户网站最终页标题设置方法
查看>>
心空空的,说不清感觉
查看>>
php版快速排序
查看>>