前言
之前一直打算准备转大数据、数据挖掘方向,有学长推荐说王进老师的团队不错,但门槛也比较高。加群(482750327,项目组每年复试都是这个群)了解了一下,还要在复试之前完成他们项目组安排的一个“数据工程基础实践”的测试并取得优异的成绩才行。果然不简单啊,就当是顺便学习入门一下大数据吧。
本章主要完成实验需要的基础环境搭建。
正文
本实践都是在python
环境下完成,首先在Anaconda
中创建一个新的python
虚拟环境:
1 | conda create BigData python=3.6 |
升级pip
1 | python -m pip install --upgrade pip |
然后安装包:Pandas、Numpy、Sklearn、XGBoost、LightGBM
1 | conda install pandas |
使用conda
命令安装完pandas
就已经顺便把依赖的numpy
安装好了。
安装lightgbm
时,python
版本被升到3.6.9
。
XGBoost
由于Anaconda
源中没有,pip
虽然有但下不下来,连接要么断开要么就没网速。所以最后决定直接去官网下载安装包安装,注意下载与自己python
版本对应的版本。比如我是python3.6
的环境,64位系统所以选择xgboost-0.90-cp36-cp36m-win_amd64.whl
。下载地址
然后使用pip
命令安装:
1 | pip install C:\Users\siriyang\Desktop\xgboost-0.90-cp36-cp36m-win_amd64.whl |
我直接放桌面安装的。
2020.1.8更新
由于需要绘制直方图等图像,所以还要安装matplotlib
。安装这个包还会顺带安装pyqt
等。
1 | conda install matplotlib |
没想到之前安装的numpy 1.13.1
还有点问题,还是按照实验指导书的参考配置升级到’1.14.1’,同时相关依赖也跟着升级了。
要安装或者升级包到制定版本都是使用conda install
命令。
1 | conda install numpy==1.14.1 |
2020.1.11更新
安装Pyecharts 1.X
版本用于数据观察。由于conda
源中没有,所以使用pip
进行安装。
1 | pip install Pyecharts |
2020.2.5更新
在进行XGBoost
调参的时候导入scikit-learn
失败,说是没有找到这个包,查了下是版本太高了,很多接口改了。所以打算重新安装一遍,并从现有版本0.22.0降级到实验指导书的版本0.19.1。scipy
相应的从1.3.2降级到1.2.1。然后再次运行程序导包成功。
运行时遇到错误:
1 | Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll |
解决方案:
将“mkl_intel_thread.dll”和“libiomp5md.dll”手动复制到“python.exe”同级目录下。
环境都安装好以后各包版本如下:
Name | Version |
---|---|
lightgbm | 2.3.0 |
numpy | 1.13.1 |
pandas | 0.20.3 |
pip | 19.3.1 |
python | 3.6.9 |
scikit-learn | 0.22.0 |
scipy | 1.3.2 |
xgboost | 0.90 |
matplotlib | 3.1.1 |
pyecharts | 1.6.2 |
结语
基础环境搭建完成,接下来开始按照实验指导书进行实验。