Nodejs爬虫获取行政区划

nodejs nodejs 爬虫行政区划

发布时间 : 2022-03-08 09:27

阅读 :

目录
初始化
安装依赖
开发
1. 分析目标网站

最近在开发一个房产管理系统，有个功能是需要对行政区划进行存入数据库管理，在网上找了很久，关于国家的行政区划数据都比较久远或者不完整，不能匹配自己的需求。
后来就想到用爬虫获取国家统计局网站的数据，因为Python还在学习中，所以就用自己熟悉的nodejs写了份简单的爬虫，能获取到国家统计局网站的全国行政区划信息（不包含港澳台）。

初始化

使用npm初始化项目，按照提示输入相应内容（项目名称、版本、描述等信息）

npm init

安装依赖

cheerio： jquery核心功能的一个快速灵活而又简洁的实现，主要是为了用在服务器端需要对DOM进行操作的地方
axios：是一个基于 promise 的 HTTP 库（也可以使用nodejs的request或其他http库）
iconv-lite：解决nodejs中编码问题
async：区别与ES的async/await,这里作为一个库引入，主要使用async.mapLimit控制请求并发数

下文具体介绍各个库的使用

开发

分析目标网站

进入国家统计局网站，找到行政区划网页，目前最新的数据是2020年的，网址：http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html

通过查看网页源码发现，其实这个网站比较简单，我们想获取的信息也直接在html内，所以可以直接使用cheerio来获取元素信息，并最终得到想要的数据。

对被爬取网站的分析应该放在第一步，然后再根据不同网站的分析结果，确定使用的依赖库。

首先定义几个变量

const HOST = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/';
const headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36' };

HOST: 就是要爬取的网站，这里给单独出来，方便后面的操作，（可以进一步优化，把年份拿出来，每次获取时手动输入，获取指定年份的数据）
headers: 就是访问该网站时的header信息，这里就是为了模拟浏览器环境，防止出问题，其实不写也可以请求网站信息

引入axios库，获取网站数据
文件头部引入axios

const axios = require('axios');

然后定义一个函数用于请求地址获取相应数据。因为根据分析网站的结果可知，原网站数据是按层级一层一层划分并每个链接显示一级的数据。如：首页显示了所有省级信息，然后每个省级携带对应的不同链接，连接到下属城市，再根据城市信息链接到区县再到街道、居委会等。所以把请求接口的方法封装到一个函数里，通过参数访问，获取信息。

const fetchData = async (url) => {
  const res = await axios(url, { headers });

定义一个main函数，作为程序的主入口，再在main内执行

const main = async () => {
  const provinceData = await fetchData(HOST);
}

main();

保存后执行node index.js即可获取网页信息。可用console打印出查看。

此时会发现，获取的数据，中文会乱码，这是因为，该网站编码采用的是GB2312。我们需要对获取的数据进行转译。

引入iconv-lite

const iconv = require('iconv-lite');

修改请求函数：

let data = null;
const res = await axios(url, { responseType: 'arraybuffer', headers });
// iconv-lite 解析buffer数据为gb2312
data = iconv.decode(res.data, 'gb2312');

注意

axios会转换数据格式为utf-8，所以这里需要把获取的数据转换为流，再使用iconv-lite转为GB2312格式

获取到正确的数据后就可以使用 cheerio 进行精准的获取了。

引入 cheerio

const cheerio = require('cheerio');

分析网页结构，省级信息在table标签内，分四行显示，共四个tr标签，每个tr标签有个class="provincetr"，然后名称在td下的a标签内，如下：

<tr class="provincetr">
    <td><a href="11.html">北京市<br></a></td>
    <td><a href="12.html">天津市<br></a></td>
    <td><a href="13.html">河北省<br></a></td>
    <td><a href="14.html">山西省<br></a></td>
    <td><a href="15.html">内蒙古自治区<br></a></td>
    <td><a href="21.html">辽宁省<br></a></td>
    <td><a href="22.html">吉林省<br></a></td>
    <td><a href="23.html">黑龙江省<br></a></td>
</tr>

发现规律遍可以编写代码：

const proviceStr = (html) => {
  const $ = cheerio.load(html)
  let result = [];
  $(".provincetr a").each(function (index, element) {
    let name = $(element).text().trim();
    let url = $(element).attr("href");
    let id = url.replace('.html', '');
    result.push({
      pid: '',
      id,
      name,
      url: HOST+url,
    })
  });
  return result;
};

这里遍历class下的元素，获取a标签内的内容和href信息，并需要获取对应的省级id(使用了通过链接截取，其实href内的信息也是对应的id)。并把url信息保存下来，用于下一级数据获取的一句

打印result应该就能看到获取的数据了。

接下来需要把数据存到文件中

引入nodejs的fs模块

const fs = require('fs');

定义存放的变量，为了方便，直接把各个级别的信息分开存储：

const filePath = {
  province: 'src/province.json',
  city: 'src/city.json',
  country: 'src/country.json'
}

修改main方法：

const main = async () => {
  const Index = joinUrl('index.html');
  const provinceData = await fetchData(Index, 'province', '');
  fs.writeFileSync(filePath.province, JSON.stringify(provinceData));
}

此时打开src文件夹便能看见多了个province.json，打开是个压缩的json文件。

然后再分析市级数据。市级网页结构布局与省级类似，只是变成纵向排列，tr标签class为citytr。区县和街道、居委会布局都一样，只是class不同，所以可以抽取出共同代码，封装成一个函数。

需要注意的是，越往下级爬取，数据量会越来越大，这时可能会报错，甚至会被原网站封ip的风险。

这里因为只是爬取到区县级数据，所以没有做过多考虑，只是引入的async库的mapLimit，用于并发请求。

最后，配置package.json，使用npm脚本启动项目，不再使用node index.js

时间仓储，只是为了满足项目中的一个小需求，临时写的一个爬虫，也是第一次使用nodejs爬取网页，问题还有很多，希望多多指正。后续抽出时间，对代码进行完善，解决爬取数据量大就报错的问题，并对省级id进行位数完善等。

项目地址
https://github.com/imchaoyu/node-get-districts

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 chaoyumail@126.com

Nodejs爬虫获取行政区划

目录

初始化

安装依赖

开发

分析目标网站