sklearn的class_weight设置为balanced的计算方法--688IT编程网

sklearn的class_weight设置为balanced的计算⽅法

分类的时候，当不同类别的样本量差异很⼤时，很容易影响分类结果，因此要么每个类别的数据量⼤致相同，要么就要进⾏校正。

sklearn的做法可以是加权，加权就要涉及到class_weight和sample_weight，当不设置class_weight参数时，默认值是所有类别的权值为1。

在python中：

# class_weight的传参

class_weight : {dict, 'balanced'}, optional

Set the parameter C of class i to class_weight[i]*C for

SVC. If not given, all classes are supposed to have

weight one. The "balanced" mode uses the values of y to automatically

adjust weights inversely proportional to class frequencies as

``n_samples / (n_classes * np.bincount(y))``

# 当使⽤字典时，其形式为：Weights associated with classes in the form ``{class_label: weight}``，⽐如：{0: 1, 1: 1}表⽰类0的权值为1，类1的权值为1.

# sample_weight的传参

sample_weight : array-like, shape (n_samples,)

Per-sample weights. Rescale C per sample. Higher weights

force the classifier to put more emphasis on these points.

1. 在：from sklearn.utils.class_weight import compute_class_weight ⾥⾯可以看到计算的源代码。

2. 除了通过字典形式传⼊权重参数，还可以设置的是：class_weight = 'balanced'，例如使⽤SVM分类：

clf = SVC(kernel = 'linear', class_weight='balanced', decision_function_shape='ovr')

clf.fit(X_train, y_train)

3. 那么'balanced'的计算⽅法是什么呢？看例⼦：

import numpy as np

y = [0,0,0,0,0,0,0,0,1,1,1,1,1,1,2,2] #标签值，⼀共16个样本

a = np.bincount(y) # array([8, 6, 2], dtype=int64) 计算每个类别的样本数量

aa = 1/a #倒数 array([0.125 , 0.16666667, 0.5 ])

print(aa)

from sklearn.utils.class_weight import compute_class_weight

class_weight = 'balanced'

classes = np.array([0, 1, 2]) #标签类别

weight = compute_class_weight(class_weight, classes, y)

print(weight) # [0.66666667 0.88888889 2.66666667]

print(0.66666667*8) #5.33333336

print(0.88888889*6) #5.33333334

print(2.66666667*2) #5.33333334

weight的搭配# 这三个值⾮常接近

# 'balanced'计算出来的结果很均衡，使得惩罚项和样本量对应

可以看出计算出来的值，乘以样本量之后，三个类别的数字很接近，我想的是：个⼈觉得惩罚项就⽤样本量的倒数未尝不可，因为乘以样本量都是1，相当于'balanced'这⾥是多乘以了⼀个常数

4. 真正的魔法到了：还记得上⾯所给出的python中，当class_weight为'balanced'时的计算公式吗？

# weight_ = n_samples / (n_classes * np.bincount(y))``

# 这⾥

# n_samples为16

# n_classes为3

# np.bincount(y)实际上就是每个类别的样本数量

于是：

print(16/(3*8)) #输出 0.6666666666666666

print(16/(3*6)) #输出 0.8888888888888888

print(16/(3*2)) #输出 2.6666666666666665

是不是跟计算出来的权值⼀样？这就是class_weight设置为'balanced'时的计算⽅法了。

5. 当然，需要说明⼀下传⼊字典时的情形

import numpy as np

y = [0,0,0,0,0,0,0,0,1,1,1,1,1,1,2,2] #标签值，⼀共16个样本

from sklearn.utils.class_weight import compute_class_weight

class_weight = {0:1,1:3,2:5} # {class_label_1:weight_1, class_label_2:weight_2, class_label_3:weight_3}

classes = np.array([0, 1, 2]) #标签类别

weight = compute_class_weight(class_weight, classes, y)

print(weight) # 输出：[1. 3. 5.]，也就是字典中设置的值参考：

688IT编程网

sklearn的class_weight设置为balanced的计算方法

发表评论

推荐文章

emo是什么意思

东风化雨是什么意思

英语作文20年后的我有汉语意思女生版

英语文学导论诗歌意象

英语中各种词性的意义及用法

热门文章

leaf的意思用法大全

论文发表参考文献的大写字母代表含义

美国五十州地名意思

春晓的意思是什么

wlan是什么意思-wlan和wifi的区别是什么

别出心裁的裁什么意思

小学低段英语教学,趣味先行!

春夏秋冬_春夏秋冬的意思_成语词典

blouse的中文意思

常见英文人名大全_英文人名含义

英语人名的含义

bluespring是什么意思

论文参考文献的各种字母的含义及写法

红在东西方中不同的含义象征

?春事阑珊什么意思?有什么典故?

metoo是什么意思

英语单词normal是什么意思-详尽释义用法搭配及例句

save的用法和短语例句是什么意思

巧用发音规则记单词

【弦】_弦字的读音弦的意思

最新文章

emo是什么意思

英语文学导论诗歌意象

英语中各种词性的意义及用法

pale的意思用法总结

作文遇见春暖花开600字

[转载]【译心译意】Early

标签列表