一、爬取、分析并保存数据
1.爬取数据
分析网址可知,终地址由基本网址加上城市加上页数组成。
由于城市数量太多,作者只收集了部分城市的数据。把收集的城市存为一个列表。页数一共有1-6页。用基本网址加上城市再加上页数。
2.分析数据(1)正则表达
分析数据中用到了正则表达式查找筛选指定字符串。
开始的时候匹配出来的表达式总是出来一大串,甚至中间的html标签都出来了。后来发现是因为珍爱网的每一栏都是采用相同的标签和class,这样就不知道是在哪里结束。
正则表达式后面加上下一栏标签内的文字,就能分清在哪里结束了。
(2)数据清洗
相亲男女的其他各栏属性都相同,有一栏,男士对应的是月薪,女士对应的是学历。可以分开处理。男士的学历和女士的月薪就标记为“未知”。
(3)保存数据
就可以将数据保存入数据库中了,这里作者使用的是SQLite数据库。SQLite是一种轻量级数据库,也不需要配置,使用起来非常方便。
二、数据可视化部分
1.前端框架
前端框架采用的是StartBootstrap上面的模板,下载好想要的模板直接使用就可以了。
2.写入表格
将数据库的数据写入前端界面中的表格中,部分代码如下:
3.echarts图表
可视化去echarts官网选用合适的图表,复制JS代码,将数据库的数据写入。