前言
首先测试下环境是否安装成功:
1 | import xgboost as xgb |
没想到第一步就出了问题,一开始安装的numpy 1.13.1
在运行时找不到DLL,升级到1.14.1
就好了。
正文
今天来完成任务一的前三个实验,都是基于课后作业(二)的,位于实验指导书的P55
页。
实验一
实验题目及内容:
用Python实现F1-score,并自己构建一个简易数据集进行测试
实验过程步骤:
F1-score
的概念在P25
页。
真实情况 | 预测:正例 | 预测:反例 |
---|---|---|
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
查准率P(Precision):
查全率R(Recall):
F1-score定义:
数据集我准备使用随机函数生成类似实验报告癌症预测的数据。
1 | import numpy as np |
输出:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28 1_白细胞量 2_红细胞量 3_血小板量 4_是否患癌 5_预测标签
1 7.649695 9.285674 9.834568 0 0
2 6.678823 4.570600 8.031230 1 0
3 8.106651 0.641709 8.839308 1 1
4 2.662931 4.981598 8.283962 1 1
5 3.826887 2.935298 3.343045 1 1
6 1.697953 3.633140 4.559995 1 1
7 9.824869 5.350851 4.582822 0 0
8 9.177900 9.932356 8.004274 1 1
9 9.195569 3.364753 4.098847 1 0
10 9.733827 8.082343 8.249549 1 1
11 9.751459 7.786028 0.001038 1 1
12 1.701704 5.761951 6.612469 1 0
13 1.206795 3.815986 7.174067 0 1
14 0.253945 2.245216 5.939660 0 1
15 9.703584 0.880870 5.699083 0 1
16 0.911601 5.552524 1.718022 1 0
17 1.784459 0.933187 1.385436 1 0
18 2.670773 8.680685 9.337132 1 0
19 4.451888 6.281710 8.538366 1 1
20 7.270346 7.042375 6.282610 1 0
TP:8 FN:7
FP:3 TN:2
查准率:0.727 查全率:0.533
F1-score:0.615
2020.2.4更新
0117第一次评测:
掌握了F1-score的定义,并使用代码实现;数据集规模太小。
按照1月17号提交结果的评测来看需要加大数据集。
实验二
实验题目及内容:
用
python
中的for
循环和列表推导式,分别实现计算:1+2+3+…+1000
实验过程步骤:
这个实验比较简单,几行代码就搞定了。
1 | # for 循环 |
运行结果:
1 | for 循环: 500500 |
不过要注意的是,如果第一个变量s
取名为sum
,那么下面再调用sum
函数的时候就会产生歧义而导致报错。
实验三
实验题目及内容:
随机生成一个五列十行的
dataframe
的数据类型,行列索引自定义,绘制出对应的柱状图、散点图,以及在查询官网学习绘制一个课程未讲解(即除柱状图、饼图、散点图、箱线图以外的图形)的数据分析的图形
实验过程步骤:
正好继续使用第一个实验的数据集,然后随便取两个字段来绘制图形。
1 | import numpy as np |
输出数据:1
2
3
4
5
6
7
8
9
10
11 A B C D E
1 34 46 21 5 57
2 47 1 70 11 42
3 28 84 29 19 33
4 20 47 92 40 25
5 80 6 57 25 49
6 68 70 18 60 21
7 64 3 55 26 43
8 64 67 86 77 11
9 67 50 26 53 23
10 82 53 58 93 23
绘制图形: