SiriBlog

siriyang的个人博客


  • 首页

  • 排行榜

  • 标签115

  • 分类37

  • 归档321

  • 关于

  • 搜索

X-Data数据工程基础实践(一)

发表于 2020-01-04 更新于 2021-10-29 分类于 考研 , 复试 阅读次数: Valine:
本文字数: 1.8k 阅读时长 ≈ 2 分钟

前言

  之前一直打算准备转大数据、数据挖掘方向,有学长推荐说王进老师的团队不错,但门槛也比较高。加群(482750327,项目组每年复试都是这个群)了解了一下,还要在复试之前完成他们项目组安排的一个“数据工程基础实践”的测试并取得优异的成绩才行。果然不简单啊,就当是顺便学习入门一下大数据吧。
  本章主要完成实验需要的基础环境搭建。

正文

  本实践都是在python环境下完成,首先在Anaconda中创建一个新的python虚拟环境:

1
conda create BigData python=3.6

  升级pip

1
python -m pip install --upgrade pip

  然后安装包:Pandas、Numpy、Sklearn、XGBoost、LightGBM

1
2
3
conda install pandas
conda install scikit-learn
conda install lightgbm

  使用conda命令安装完pandas就已经顺便把依赖的numpy安装好了。
  安装lightgbm时,python版本被升到3.6.9。
  XGBoost由于Anaconda源中没有,pip虽然有但下不下来,连接要么断开要么就没网速。所以最后决定直接去官网下载安装包安装,注意下载与自己python版本对应的版本。比如我是python3.6的环境,64位系统所以选择xgboost-0.90-cp36-cp36m-win_amd64.whl。下载地址

  然后使用pip命令安装:

1
pip install C:\Users\siriyang\Desktop\xgboost-0.90-cp36-cp36m-win_amd64.whl

  我直接放桌面安装的。


2020.1.8更新

  由于需要绘制直方图等图像,所以还要安装matplotlib。安装这个包还会顺带安装pyqt等。

1
conda install matplotlib

  没想到之前安装的numpy 1.13.1还有点问题,还是按照实验指导书的参考配置升级到’1.14.1’,同时相关依赖也跟着升级了。
  要安装或者升级包到制定版本都是使用conda install命令。

1
conda install numpy==1.14.1

2020.1.11更新

  安装Pyecharts 1.X版本用于数据观察。由于conda源中没有,所以使用pip进行安装。

1
pip install Pyecharts

2020.2.5更新

  在进行XGBoost调参的时候导入scikit-learn失败,说是没有找到这个包,查了下是版本太高了,很多接口改了。所以打算重新安装一遍,并从现有版本0.22.0降级到实验指导书的版本0.19.1。scipy相应的从1.3.2降级到1.2.1。然后再次运行程序导包成功。


  运行时遇到错误:

1
Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll

解决方案:
  将“mkl_intel_thread.dll”和“libiomp5md.dll”手动复制到“python.exe”同级目录下。


  环境都安装好以后各包版本如下:

Name Version
lightgbm 2.3.0
numpy 1.13.1
pandas 0.20.3
pip 19.3.1
python 3.6.9
scikit-learn 0.22.0
scipy 1.3.2
xgboost 0.90
matplotlib 3.1.1
pyecharts 1.6.2

结语

  基础环境搭建完成,接下来开始按照实验指导书进行实验。

-------- 本文结束 感谢阅读 --------
相关文章
  • X-Data数据工程基础实践(十)
  • X-Data数据工程基础实践(九)
  • X-Data数据工程基础实践(八)
  • X-Data数据工程基础实践(七)
  • X-Data数据工程基础实践过程中遇到的问题
觉得文章写的不错的话,请我喝瓶怡宝吧!😀
SiriYang 微信支付

微信支付

SiriYang 支付宝

支付宝

  • 本文标题: X-Data数据工程基础实践(一)
  • 本文作者: SiriYang
  • 创建时间: 2020年01月04日 - 23时01分
  • 修改时间: 2021年10月29日 - 18时10分
  • 本文链接: https://blog.siriyang.cn/posts/20200104232918id.html
  • 版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
学习笔记 考研 复试 环境 Python 机器学习 数据挖掘
CCF-CSP:201712-1最小差值
CCF-CSP/201803-2碰撞的小球
  • 文章目录
  • 站点概览
SiriYang

SiriYang

努力搬砖攒钱买镜头的摄影迷
321 日志
33 分类
88 标签
RSS
GitHub E-Mail
Creative Commons
Links
  • 友情链接
  • 作品商铺

  1. 前言
  2. 正文
    1. 2020.1.8更新
    2. 2020.1.11更新
    3. 2020.2.5更新
  3. 结语
蜀ICP备19008337号 © 2019 – 2025 SiriYang | 1.7m | 25:48
0%