前言
之前一直打算准备转大数据、数据挖掘方向,有学长推荐说王进老师的团队不错,但门槛也比较高。加群(482750327,项目组每年复试都是这个群)了解了一下,还要在复试之前完成他们项目组安排的一个“数据工程基础实践”的测试并取得优异的成绩才行。果然不简单啊,就当是顺便学习入门一下大数据吧。
本章主要完成实验需要的基础环境搭建。
正文
本实践都是在python环境下完成,首先在Anaconda中创建一个新的python虚拟环境:
1 | conda create BigData python=3.6 |
升级pip
1 | python -m pip install --upgrade pip |
然后安装包:Pandas、Numpy、Sklearn、XGBoost、LightGBM
1 | conda install pandas |
使用conda命令安装完pandas就已经顺便把依赖的numpy安装好了。
安装lightgbm时,python版本被升到3.6.9。
XGBoost由于Anaconda源中没有,pip虽然有但下不下来,连接要么断开要么就没网速。所以最后决定直接去官网下载安装包安装,注意下载与自己python版本对应的版本。比如我是python3.6的环境,64位系统所以选择xgboost-0.90-cp36-cp36m-win_amd64.whl。下载地址
然后使用pip命令安装:
1 | pip install C:\Users\siriyang\Desktop\xgboost-0.90-cp36-cp36m-win_amd64.whl |
我直接放桌面安装的。
2020.1.8更新
由于需要绘制直方图等图像,所以还要安装matplotlib。安装这个包还会顺带安装pyqt等。
1 | conda install matplotlib |
没想到之前安装的numpy 1.13.1还有点问题,还是按照实验指导书的参考配置升级到’1.14.1’,同时相关依赖也跟着升级了。
要安装或者升级包到制定版本都是使用conda install命令。
1 | conda install numpy==1.14.1 |
2020.1.11更新
安装Pyecharts 1.X版本用于数据观察。由于conda源中没有,所以使用pip进行安装。
1 | pip install Pyecharts |
2020.2.5更新
在进行XGBoost调参的时候导入scikit-learn失败,说是没有找到这个包,查了下是版本太高了,很多接口改了。所以打算重新安装一遍,并从现有版本0.22.0降级到实验指导书的版本0.19.1。scipy相应的从1.3.2降级到1.2.1。然后再次运行程序导包成功。
运行时遇到错误:
1 | Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll |
解决方案:
将“mkl_intel_thread.dll”和“libiomp5md.dll”手动复制到“python.exe”同级目录下。
环境都安装好以后各包版本如下:
| Name | Version |
|---|---|
| lightgbm | 2.3.0 |
| numpy | 1.13.1 |
| pandas | 0.20.3 |
| pip | 19.3.1 |
| python | 3.6.9 |
| scikit-learn | 0.22.0 |
| scipy | 1.3.2 |
| xgboost | 0.90 |
| matplotlib | 3.1.1 |
| pyecharts | 1.6.2 |
结语
基础环境搭建完成,接下来开始按照实验指导书进行实验。