python卡方分箱算法_python基于卡方值分箱算法的实现示例--688IT编程网

python卡⽅分箱算法_python基于卡⽅值分箱算法的实现⽰例原理很简单，初始分20箱或更多，先确保每箱中都含有0，1标签，对不包含0，1标签的箱向前合并，计算各箱卡⽅值，对卡⽅值最⼩的箱向后合并，代码如下

import pandas as pd

import numpy as np

import scipy

from scipy import stats

def chi_bin(DF,var,target,binnum=5,maxcut=20):

'''

DF:data

var:variable

target:target / label

binnum: the number of bins output

maxcut: initial bins number

'''

data=DF[[var,target]]

#equifrequent cut the var into maxcut bins

data["cut"],breaks=pd.qcut(data[var],q=maxcut,duplicates="drop",retbins=True)

#count 1,0 in each bin

count_1=data.loc[data[target]==1].groupby("cut")[target].count()

count_0=data.loc[data[target]==0].groupby("cut")[target].count()

#get bins value: min,max,count 0,count 1

bins_value=[*zip(breaks[:maxcut-1],breaks[1:],count_0,count_1)]

#define woe

def woe_value(bins_value):

df_woe=pd.DataFrame(bins_value)

lumns=["min","max","count_0","count_1"]

df_woe["total"]=unt_1+unt_0

df_woe["bad_rate"]=unt_1/al

df_woe["woe"]=np.log((unt_0/unt_0.sum())/(unt_1/unt_1.sum()))

return df_woe

#define iv

def iv_value(df_woe):

rate=(unt_0/unt_0.sum())-(unt_1/unt_1.sum())

iv=np.sum(rate * df_woe.woe)

return iv

#make sure every bin contain 1 and 0

##first bin merge backwards

for i in range(len(bins_value)):

if 0 in bins_value[0][2:]:

bins_value[0:2]=[(

bins_value[0][0],

bins_value[1][1],

bins_value[0][2]+bins_value[1][2],

bins_value[0][3]+bins_value[1][3])]

continue

##bins merge forwards

if 0 in bins_value[i][2:]:

bins_value[i-1:i+1]=[(

bins_value[i-1][0],

bins_value[i][1],

bins_value[i-1][2]+bins_value[i][2],

bins_value[i-1][3]+bins_value[i][3])]

break

else:

break

#calculate chi-square merge the minimum chisquare while len(bins_value)>binnum:

chi_squares=[]

for i in range(len(bins_value)-1):

a=bins_value[i][2:]

b=bins_value[i+1][2:]

chi_square=scipy.stats.chi2_contingency([a,b])[0] chi_squares.append(chi_square)

#merge the minimum chisquare backwards

i = chi_squares.index(min(chi_squares))

bins_value[i:i+2]=[(

bins_value[i][0],

bins_value[i+1][1],

bins_value[i][2]+bins_value[i+1][2],

bins_value[i][3]+bins_value[i+1][3])]

df_woe=woe_value(bins_value)

#print bin number and iv

print("箱数：{},iv:{:.6f}".format(len(bins_value),iv_value(df_woe)))

#return bins and woe information

return woe_value(bins_value)

以下是效果：

初始分成10箱，⽬标为3箱

chi_bin(data,"age","SeriousDlqin2yrs",binnum=3,maxcut=10)

箱数：8,iv:0.184862

快速排序python实现箱数：7,iv:0.184128

箱数：6,iv:0.179518

箱数：5,iv:0.176980

箱数：4,iv:0.172406

箱数：3,iv:0.160015

min max count_0 count_1 total bad_rate woe

0 0.0 52.0 70293 7077 77370 0.091470 -0.266233

1 52.0 61.0 29318 1774 3109

2 0.057056 0.242909

2 61.0 72.0 26332 865 27197 0.031805 0.853755

到此这篇关于python 基于卡⽅值分箱算法的实现⽰例的⽂章就介绍到这了，更多相关python 卡⽅值分箱算法内容请搜索我们以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持我们！

时间： 2020-07-17

688IT编程网

python卡方分箱算法_python基于卡方值分箱算法的实现示例

发表评论

推荐文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php中实现文件上传的函数

php文件上传类程序代码

413 request entity too large 解决方法 -回复

热门文章

卡乐恒温恒湿控制器介绍

Lovegate病毒(爱情后门)的症状及清除方法

UGNX8.0最详细图示安装方法(图文教程)

BT3教程

ctft题目二进制数据解密

速达8.75安装说明

PGP安装使用图解

捡了我的手机看不了我的秘密

德语助手破解

--BT3BT4破解资料

破解禁用U盘的四大绝招

如何将EXE安装文件脱壳和破解

Windows主题破解通用补丁教程

ERDAS 9.2下载安装破解

电脑文件加密和解密技巧

Total Recorder破解版

数据加密技术在计算机网络安全中的应用意义

教你如何破解别人无线网密码,无线上网技术秘籍

BackTrack3解除WIFI无线网络密码

怎样到自己想要的“密码”

最新文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php文件上传类程序代码

php上传文件类型

详解PHP文件上传漏洞

CD发烧碟刻录对音质是否有影响

标签列表

688IT编程网

python卡方分箱算法_python基于卡方值分箱算法的实现示例

发表评论

推荐文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php中实现文件上传的函数

php文件上传类程序代码

413 request entity too large 解决方法 -回复

热门文章

卡乐恒温恒湿控制器介绍

Lovegate病毒(爱情后门)的症状及清除方法

UGNX8.0最详细图示安装方法(图文教程)

BT3教程

ctft题目二进制数据解密

速达8.75安装说明

PGP安装使用图解

捡了我的手机看不了我的秘密

德语助手破解

--BT3BT4破解资料

破解禁用U盘的四大绝招

如何将EXE安装文件脱壳和破解

Windows主题破解通用补丁教程

ERDAS 9.2下载 安装 破解

电脑文件加密和解密技巧

Total Recorder破解版

数据加密技术在计算机网络安全中的应用意义

教你如何破解别人无线网密码,无线上网技术秘籍

BackTrack3解除WIFI无线网络密码

怎样到自己想要的“密码”

最新文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php文件上传类程序代码

php上传文件类型

详解PHP文件上传漏洞

CD发烧碟刻录对音质是否有影响

标签列表

ERDAS 9.2下载安装破解