2020.08.12词袋模型原理 词袋模型是一种用机器学习算法对文本进行建模时表示文本数据的方法。词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。 词袋模型首先会进行分词,在分词之后,通过统计每 ...
Python下汉字简体繁体的相互转换
最近在学习NLP,实验中要进行一个汉字繁体转简体的操作,而这个操作Python没有标准库可以使用(其实我也不知道有没有),需要使用一个第三方的代码进行实现。该代码主要需要两个代码文件: langconv.py : 实现字体的转换,github源码地址 zh_wiki.py ...
SiriBlog一周年总结
起源与发展 没想到转眼已经过了一年了,回想去年的这个夏天我正在寝室留校备战考研,当时寝室除了我以外还有隔壁寝室临时搬过来一起住的老唐(由于学校规定不允许留校一个人一间寝室,至少凑成两个人),老唐留校也是为了准备考研。那天我搞了一下午数学整累了,就准备找老唐聊聊天,看见他正在电脑 ...
NLP综合实践(一)
2020.08.03 开始试验的第一天,首先从安装环境走起。由于实验指导书上要求的包没法直接使用pip命令进行安装,下载速度慢,下到一半还老是断开连接,所以基本上都采用直接去PyPI上下载安装包进行手动安装。 首先新建了一个名为nlp的Python虚拟环 ...
2020华为云大数据挑战赛-正式赛(2)
2020.07.12 复赛开始的前一天数据就已经放出来了,下载到服务器以后还是像往常一样将测试集所有订单绘制出来一张张观察一下。 复赛A榜的测试集一共有219条订单,和初赛A、B榜的订单量几乎一致,经过观察以后发现复赛订单有了很大的变化,就是大量订单只截取 ...
“O2O优惠券使用预测”视频学习笔记
视频链接:https://list.youku.com/albumlist/show/id_51986962.html 第五讲26:23 对没有领券的用户数据信息要做删除处理。 训练集中存在没有领劵的数据项,但是在测试集中都是领取了优惠券的。在提取标签区间的数据的时候应该 ...
2020华为云大数据挑战赛-正式赛(1)
2020.06.05 正式赛训练数据一共有三张表,分别是历史运单GPS数据、历史运单事件数据、港口坐标数据。其中其主要作用的是历史运单GPS数据,该数据文件解压后共21G,有1.4亿多条数据,且字段也很多。为了理清各表之间的关系,作如下关系图: 各表的 ...
Anaconda常用命令
1、查看已安装的包 conda list 2、更新所有包 conda upgrade --all 3、安装包 conda install <package_name> 4、删除包 conda remove <package_name> 5、更新包 conda update & ...
机器学习基础理论:数据归一化
归一化的原理 归一化就是把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内,让权重变为统一的过程,其目的就是将不同尺度上的评判结果统一到一个尺度上,从而可以作比较,作计算。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 归一化的方法1.线 ...