网络数据的爬取

  网络爬虫又称网页蜘蛛或网络机器人,它按照一定的规则,自动抓取网络中的信息。它是一个自动提取网页的程序,

为搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分。

  在大数据时代,有相当多的资料都是通过网络来取得的,由于资料量日益增加,对于资料分析者而言,如何使用程序
将网页中大量的资料自动汇入是很重要的事情。通过R语言或Python的网络爬虫技术,可以将大量结构化的资料直接导入
R语言或Python中做数据分析,这样可以节省手动整理资料的时间。

网络爬虫的基本步骤

(1)读取网页信息
  系统以链家网广州二手房数据为例,系统地讲解数据爬虫的每个步骤。在浏览器中,同时按Ctrl+U键就可调出所要分析
的源代码,网络爬虫实际上是利用网页的规则从网页源代码中检索出所需要的信息,因此本质就是一个文本搜索过程。

(2)提取网页信息
  编写提取网页信息的函数。

(3)批量爬取数据
  通常的操作是针对某个网页的数据进行爬取。如广州链家网二手数据共有几千网页的数据,如何将广州链家所有二手房
的信息提取出来呢?只需总结这些网页的规律,使用循环函数(for())重复上面的操作即可。

Spider