起源与发展 没想到转眼已经过了一年了,回想去年的这个夏天我正在寝室留校备战考研,当时寝室除了我以外还有隔壁寝室临时搬过来一起住的老唐(由于学校规定不允许留校一个人一间寝室,至少凑成两个人),老唐留校也是为了准备考研。那天我搞了一下午数学整累了,就准备找老唐聊聊天,看见他正在电脑 ...
NLP综合实践(一)
2020.08.03 开始试验的第一天,首先从安装环境走起。由于实验指导书上要求的包没法直接使用pip命令进行安装,下载速度慢,下到一半还老是断开连接,所以基本上都采用直接去PyPI上下载安装包进行手动安装。 首先新建了一个名为nlp的Python虚拟环 ...
2020华为云大数据挑战赛-正式赛(2)
2020.07.12 复赛开始的前一天数据就已经放出来了,下载到服务器以后还是像往常一样将测试集所有订单绘制出来一张张观察一下。 复赛A榜的测试集一共有219条订单,和初赛A、B榜的订单量几乎一致,经过观察以后发现复赛订单有了很大的变化,就是大量订单只截取 ...
“O2O优惠券使用预测”视频学习笔记
视频链接:https://list.youku.com/albumlist/show/id_51986962.html 第五讲26:23 对没有领券的用户数据信息要做删除处理。 训练集中存在没有领劵的数据项,但是在测试集中都是领取了优惠券的。在提取标签区间的数据的时候应该 ...
2020华为云大数据挑战赛-正式赛(1)
2020.06.05 正式赛训练数据一共有三张表,分别是历史运单GPS数据、历史运单事件数据、港口坐标数据。其中其主要作用的是历史运单GPS数据,该数据文件解压后共21G,有1.4亿多条数据,且字段也很多。为了理清各表之间的关系,作如下关系图: 各表的 ...
Anaconda常用命令
1、查看已安装的包 conda list 2、更新所有包 conda upgrade --all 3、安装包 conda install <package_name> 4、删除包 conda remove <package_name> 5、更新包 conda update & ...
机器学习基础理论:数据归一化
归一化的原理 归一化就是把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内,让权重变为统一的过程,其目的就是将不同尺度上的评判结果统一到一个尺度上,从而可以作比较,作计算。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 归一化的方法1.线 ...
机器学习基础理论:KNN
KNN概述 kNN(k-NearestNeighbor)算法是一种有监督的基本分类与回归方法,我们这里只讨论分类问题中的 kNN算法。 kNN算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。kNN算法假设给定一个训练数据集, ...
2020华为云大数据挑战赛-正式赛遇到的问题
2020.05.27Note1将训练数据导入notebook 由于notebook上的rarfile有点问题,没法直接解压rar文件,所以我将rar文件在电脑上解压再压缩为zip,然后放到OBS上,从OBS里拷贝到notebook再解压。 import moxing as m ...