前面两篇文章介绍了一个小爬虫,也提供了源码;

1.| 一个小爬虫(第1部分)(标题太平淡了,以后不会再用这个例程了,因为太标新立异了)

相信喜欢的粉丝已经在自己的电脑上运行过这个程序了。 但对于那些刚接触的人来说,从一开始就构建一个爬虫确实会让你感到困惑。 但是,如果我们一直写有知识点的文章,你也会觉得只有知识点是不够的。 综合考虑后,我还是觉得这种案例还是接比较好,哪怕需要多写几篇文章才能把一个案例讲清楚。

对于没有看过前面两篇文章的同学,建议点进去阅读,以便了解本文的内容。

上面说的有点废话,但是我们还是进入正题吧。 这个用于从百度地图抓取某个区域的边缘坐标点的爬虫程序使用了哪些知识点和技术? 我将它们一一列出:

1.您需要对网页的结构有基本的了解和认识。

我们平时上网浏览网页,信息是显示在浏览器中的页面中,但我们想要用爬虫爬取的信息却放在网页的源代码中。 (图1是我们看到的页面,图2是该页面对应的网页源码)

爬虫python犯法吗_python爬虫_爬虫python教程

图1 人们浏览网页时看到的界面

爬虫python犯法吗_python爬虫_爬虫python教程

图2 网页对应的网页源码

在浏览器中使用快捷键F12即可调出该界面。 这个界面称为开发者模式。

2.知道如何在网页源代码中找到我们需要的信息的位置。

一般来说,信息可能直接存在于网页的html页面中,但一些动态加载的信息可能存在于js页面中。 有些网站的数据价值比较高,总会有竞争对手来抓取他们的数据,所以他们会有比较强大的反爬虫措施。 新手很难应对这样的反爬虫措施。 一般的静态网页需要你熟悉浏览器的开发者模式。 您可以使用此工具在网页源代码中定位所需信息的位置。 网上有相关教程。 通过搜索可以找到更复杂的动态的。 网页要求您对动态加载的网页进行一些研究。 这些知识点和技能只有自己去尝试才能学会。

3、知道使用什么程序库来完成网页源代码的下载、解析、数据提取、存储等工作。

它是一种非常简单的编程语言。 一方面是因为其语法简洁。 另一方面,社区里很多人也给我们贡献了很多开源库。 当我们编写程序时,直接调用这些库可以节省很多工作。 比如我分享的爬虫项目中,我使用了以下库:

# 导入需要使用的Python库

import requests

import json

import re

import pandas as pd

它们的功能描述如下:

:根据url下载网页源代码

json:用于将网页中的js内容转换为字典类型

re:正则表达式库,用于提取网页中满足一定规则的内容(如本例中的经纬度信息)

:Excel中操作结构化数据的程序库,可以实现Excel几乎所有的数据操作功能。 在此示例中,它用于构造经度和纬度数据。

4、最后一点就是能够综合这些知识和技术来编写能够实现自己的数据爬取需求的代码。

这就是为什么我现在倾向于与大家分享具体案例而不是知识点。 然而,知识和技能只有内化、吸收才能成为自己的。 我们的最终目标是解决现实世界的问题。 因此,在接触到新技术、新知识点后,我们必须有意识地进行整合。 只有这样,才能提高解决实际问题的能力。

最后,如果本文的知识点或者想法对你有帮助,请帮我们转发,或者直接点赞就好,哈哈​​~如果你觉得编程不适合,还有视觉爬虫工具不适合需要编程,点击阅读原文了解更多。

好了,今天的主题就讲到这里吧,不管如何,能帮到你我就很开心了,如果您觉得这篇文章写得不错,欢迎点赞和分享给身边的朋友。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注