前言
本章要使用到Pyecharts 1.X
版本,先提前装好。echarts
本是一个js下用于绘制图表的库,pyecharts
顾名思义就是一个python
版的接口,最终将python
代码渲染成html
。
正文
今天来完成任务一的实验五、六:对测试集ccf_offline_stage1_test_revised
做分析与数据观察和数据预处理。(其实应该先做实验六的预处理再做实验五的观察,或者说先观察再处理再观察)
观察数据概况
先初步观察数据。
1 | # 读取数据集 |
输出结果:
1 | record_count 113640 |
数据预处理
首先进行数据予处理,由于是要要求的数据表是测试集,没有消费日期的数据,所以实验指导书中很多数据图没发画出来。不过前两个还是可以的,然后我再添加了一个新的图表,用于统计一周内用户在周一至周日每一天的领卷数量。
1 | import os |
每天被领券的数量柱状图
1 | # 选取领券日期不为空的数据 |
用户消费距离统计
1 | # 消费距离柱状图 |
用户一周内各天领卷数量累计
1 | # 用户一周内各天领卷数量累计 |
优惠卷类型数量占比
1 | # 优惠卷类型比例 |
渲染保存
最后将会以html文件保存。
1 | path = './tmp/task2_output' |
结语
也不知道是这个包有问题还是我的python
环境有问题,第一个和第三个图表我使用运算出来的list
变量传进去就是画不出来,但直接把数据字面值写成list
传进去就没问题,但是第二张图和官方的demo
都运行正常,我一开始还以为是我语法有问题,调试了两天都没解决。哎,看后期版本更新以后能不能解决吧,如果不是为了完成任务,matplotlib
其实就够用了。
这个库虽然在网上有很多教程,但是语法现在的新版本都不支持了,在虚拟环境的安装路径下会有官方的演示代码可以参考学习,内容非常齐全。比如我的路径是“D:\Anaconda3\envs\BigData\Lib\site-packages\example
”