前言
今天这个任务基本上没什么操作,基本上都是在复制粘贴代码,然后Debug。代码里的注释已经很详细了,也没有什么多的好说的。主要还是要参考实验指导书理解几种数据集划分方法。
正文
今天来完成任务一的实验七:用代码实现O2O优惠券使用预测数据的划分以及打标。
导包
1 | import os |
数据预处理
后面都是用的实验指导书的源代码,没有什么问题,只要是在数据预处理这里踩了很多坑。
首先,按照实验指导书的意思,要先把没有领取优惠卷的数据项排除,但是原代码并没有这么做,导致在后面计算时间差和计算折扣率的时候出现问题。
第二,和上一个实验一样,可能因为版本的问题,data['Distance'].fillna(-1, inplace=True)
这行代码并没有起效,导致后面数据格式修正出现问题,所以直接使用替换函数替换变量值。
1 | def prepare(dataset): |
打标
1 | def get_label(dataset): |
划分数据集
1 | # 划分区间 |
结语
因为对pandas使用不熟悉,今天的代码调了一下午,整的人心态都要崩了。其实都是一些比较细节的小问题,冷静下来仔细分析都能解决。所以以后还是不能畏惧困难,一开始就被自己给打倒了。