爬虫程序用来干什么

2022-03-25 17:35:47

1、获取网页

获取网页可以简单理解为向网页的服务器发送网络请求，然后服务器返回给我们网页的源代码，其中通信的底层原理较为复杂，而Python给我们封装好了urllib库和requests库等，这些库可以让我们非常简单的发送各种形式的请求。

2、提取信息

获取到的网页源码内包含了很多信息，想要进提取到我们需要的信息，则需要对源码还要做进一步筛选。可以选用python中的re库即通过正则匹配的形式去提取信息，也可以采用BeautifulSoup库（bs4）等解析源代码，除了有自动编码的优势之外，bs4库还可以结构化输出源代码信息，更易于理解与使用。

3、保存数据

提取到我们需要的有用信息后，需要在Python中把它们保存下来。可以使用通过内置函数open保存为文本数据，也可以用第三方库保存为其它形式的数据，例如可以通过pandas库保存为常见的xlsx数据，如果有图片等非结构化数据还可以通过pymongo库保存至非结构化数据库中。

4、调研

比如要调研一家电商公司，想知道他们的商品销售情况。这家公司声称每月销售额达数亿元。如果你使用爬虫来抓取公司网站上所有产品的销售情况，那么你就可以计算出公司的实际总销售额。此外，如果你抓取所有的评论并对其进行分析，你还可以发现网站是否出现了刷单的情况。数据是不会说谎的，特别是海量的数据，人工造假总是会与自然产生的不同。过去，用大量的数据来收集数据是非常困难的，但是现在在爬虫的帮助下，许多欺骗行为会赤裸裸地暴露在阳光下。