SiriBlog

siriyang的个人博客


  • 首页

  • 排行榜

  • 标签115

  • 分类37

  • 归档320

  • 关于

  • 搜索

机器学习基础理论:数据归一化

发表于 2020-06-01 更新于 2021-10-29 分类于 计算机 , 理论 , 机器学习 阅读次数: Valine:
本文字数: 1.1k 阅读时长 ≈ 1 分钟

归一化的原理

  归一化就是把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内,让权重变为统一的过程,其目的就是将不同尺度上的评判结果统一到一个尺度上,从而可以作比较,作计算。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。


归一化的方法

1.线性函数转换

  说明: x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
def autoNorm(dataSet):
"""
Desc:
归一化特征值,消除特征之间量级不同导致的影响
parameter:
dataSet: 数据集
return:
归一化后的数据集 normDataSet. ranges和minVals即最小值与范围

归一化公式:
Y = (X-Xmin)/(Xmax-Xmin)
其中的 min 和 max 分别是数据集中的最小特征值和最大特征值。
该函数可以自动将数字特征值转化为0到1的区间。
"""
# 计算每种属性的最大值、最小值、范围
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
# 极差
ranges = maxVals - minVals
normDataSet = np.zeros(np.shape(dataSet))
m = dataSet.shape[0]
# 生成与最小值之差组成的矩阵
normDataSet = dataSet - np.tile(minVals, (m, 1))
# 将最小值之差除以范围组成矩阵
normDataSet = normDataSet / np.tile(ranges, (m, 1)) # element wise divide
return normDataSet, ranges, minVals

2.对数函数转换

  说明: 以10为底的对数函数转换。

3.反余切函数转换

  在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在 -1 — +1之间是统计的坐标分布。

-------- 本文结束 感谢阅读 --------
相关文章
  • 讲座笔记:k-sums聚类:一种可替代k-means的高效聚类算法
  • 2020 CCF BDCI——企业非法集资风险预测
  • 中医药天池大数据竞赛--中药说明书实体识别挑战
  • NLP综合实践(三)
  • NLP综合实践(二)
觉得文章写的不错的话,请我喝瓶怡宝吧!😀
SiriYang 微信支付

微信支付

SiriYang 支付宝

支付宝

  • 本文标题: 机器学习基础理论:数据归一化
  • 本文作者: SiriYang
  • 创建时间: 2020年06月01日 - 16时06分
  • 修改时间: 2021年10月29日 - 18时10分
  • 本文链接: https://blog.siriyang.cn/posts/20200601161812id.html
  • 版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
机器学习
Anaconda常用命令
机器学习基础理论:KNN
SiriYang

SiriYang

努力搬砖攒钱买镜头的摄影迷
320 日志
33 分类
88 标签
RSS
GitHub E-Mail
Creative Commons
Links
  • 友情链接
  • 作品商铺

蜀ICP备19008337号 © 2019 – 2025 SiriYang | 1.7m | 25:41
0%