个人Web开发测试

第五讲

26：23

对没有领券的用户数据信息要做删除处理。

训练集中存在没有领劵的数据项，但是在测试集中都是领取了优惠券的。在提取标签区间的数据的时候应该忽略掉那些没领卷的数据。

26：51

一月份到二月初春节期间领劵数量异常高，但是核销率却是正常的，所以后期应该避免使用该段时间的数据。

30：00

核销率代表用券消费次数占总消费次数的比率。

12：47

缺失值处理方法
缺失值如果不进行处理的话有可能给模型带来噪声数据从而导致模型性能不佳。
缺失值处理的方法一般有如下几种:

14：00

缺失值查看方法：

# 判断字段是否存在缺失值
print(data.isnull().any())
# 判断字段缺失值的比例
print(data.isnull().sum()/len(data))

pandas处理缺失值

在pandas中，一般可以使用如下三种方法进行缺失值处理:

9：13

特征的好坏取决于特征中所包含的熵值，熵值越高，特征中包含的信息越多，又或者是方差越大，特征中所包含的信息越多。

24：20

在pandas填充空值的时候最好给downcast参数设置为infer，不然可能会改变某些变量的类型。

33：38

离散特征简单介绍
当原始属性中存在标称型变量时我们无法直接得到该变量的均值，方差等信息，如用户的领券日期。
此时我们往往采用离散化的方法提取特征，离散化可分为直接编码，编码统计两种方案。

46：57

热启动特征

rank排序特征

48：15

将历史区间的用户特征，商家特征、优惠券特征、用户-商家特征、用户-优惠券特征合并，新增三小不同特征块的交互特征:

history_field_User_id_Merchant_id_receive_not_consime_rate_in_User_id:该用户对该商家的不核销次数占该用户不核销次数时比重;
history_field_User_id_Merchant_id_receive_and_consime_rate_in_User_id:该用户对该商家的核销次数占该用户核销次数的比重;
history_field_User_id_Merchant_id_receive_and_consime_rate_in_Merchant_id:该用户对该商家的核销次数占该商家被核销次数的比重;