本文用python按城市寻找爬取、分析和保存了珍爱网上相亲男女的征婚信息,然后进行数据可视化分析。次写文章,如果有错误,还望各位大佬指出。
红娘相亲交友系统开发,红娘相亲交友分销模式系统开发,红娘相亲交友下单app系统开发,红娘相亲交友返佣模式开发,红娘相亲交友分销系统平台开发,红娘相亲交友平台定制开发,红娘相亲交友分销模式介绍,红娘相亲交友平台开发。
一、爬取、分析并保存数据
1.爬取数据
分析网址可知,终地址由基本网址加上城市加上页数组成。
由于城市数量太多,作者只收集了部分城市的数据。把收集的城市存为一个列表。页数一共有1-6页。用基本网址加上城市再加上页数。
2.分析数据
(1)正则表达
分析数据中用到了正则表达式查找筛选指定字符串。
但是开始的时候匹配出来的表达式总是出来一大串,甚至中间的html标签都出来了。后来发现是因为珍爱网的每一栏都是采用相同的标签和class,这样就不知道是在哪里结束。
所以正则表达式后面加上下一栏标签内的文字,就能分清在哪里结束了。
(2)数据清洗
相亲男女的其他各栏属性都相同,但是有一栏,男士对应的是月薪,女士对应的是学历。所以可以分开处理。男士的学历和女士的月薪就标记为“未知”。
(3)保存数据
然后就可以将数据保存入数据库中了,这里作者使用的是 SQLite数据库。SQLite是一种轻量级数据库,也不需要配置,使用起来非常方便。
二、数据可视化部分
1.前端框架
前端框架采用的是StartBootstrap上面的模板,下载好想要的模板直接使用就可以了。
2.写入表格
将数据库的数据写入前端界面中的表格中,部分代码如下:
3.echarts图表
可视化去echarts官网选用合适的图表,然后复制JS代码,将数据库的数据写入。