使用pandas模块实现数据的标准化操作--688IT编程网

使⽤pandas模块实现数据的标准化操作如下所⽰：

3σ原则(u-3*σ ,u+3*σ )

离差标准化(x-min)/(max-min)

标准差标准化(x-u)/σ

x/10**k

⼩数定标标准化

il(log10(max(|x|)))

1.3σ原则

u 均值

σ标准差

正太分布的数据基本都分布在（u-3σ,u+3σ）范围内

其他的数据

import pandas as pd

import numpy as np

def three_sigma(se):

"""

⾃实现3σ原则，进⾏数据过滤

:param se：传进来的series结构数据

:return：去除异常值之后的series数据

"""

bool_id=((se.mean()-3*se.std())<se) & (se<(se.mean()+3*se.std()))

print(bool_id)

return se[bool_id]

#加载数据

ad_excel('./meal_order_detail.xlsx')

#进⾏异常值处理

res=three_sigma(detail['amounts'])

print(detail.shape)

print(res.shape)

2.离差标准化

(x-min)/(max-min)

import pandas as pd

import numpy as np

def minmax_sca(data):

"""

离差标准化

param data：传⼊的数据

return：标准化之后的数据

"""

new_data=(data-data.min())/(data.max()-data.min())

return new_data

#加载数据

ad_excel('./meal_order_detail.xlsx')

res=minmax_sca(detail[['amounts','counts']])

print(res)

data=res

bool_id=data.loc[:,'count']==1

print(data.loc[bool_id],'counts')

3.标准差标准化

(x-u)/σ

异常值对标准差标准化的影响不⼤

转化之后的数据--->均值0 标准差1

import pandas as pd

import numpy as np

def stand_sca(data):

"""

标准差标准化

:param data：传⼊的数据

:return：标准化之后的数据

"""

new_data=(an())/data.std()

return new_data

#加载数据

ad_excel('./meal_order_detail.xlsx')

res=stand_sca(detail[['amounts','counts']])

print(res)

print('res的均值：',an())

print('res的标准差：',res.std())

4.⼩数定标标准化

x/(10^k)

il(log10(max(|x|)))

以10为底，x的绝对值的最⼤值的对数最后进⾏向上取整

import pandas as pd

import numpy as np

def deci_sca(data):

"""

⾃实现⼩数定标标准化

param data: 传⼊的数据

:return: 标准化之后的数据

"""

numpy库是标准库吗new_data=data/(10**(np.ceil(np.log10(data.abs().max()))))

return new_data

#加载数据

detail = pd.read_excel('./meal_order_detail.xlsx')

res = deci_sca(detail[['amounts', 'counts']])

print(res)

补充：pandas数据处理基础之标准化与标签数值化

fit(): Method calculates the parameters µ and σ and saves them as internal objects.

解释：简单来说，就是求得训练集X的均值，⽅差，最⼤值，最⼩值，这些训练集X固有的属性。

transform(): Method using these calculated parameters apply the transformation to a particular dataset.

解释：在fit的基础上，进⾏标准化，降维，归⼀化等操作（看具体⽤的是哪个⼯具，如PCA，StandardScaler等）。

fit_transform(): joins the fit() and transform() method for transformation of dataset.

解释：fit_transform是fit和transform的组合，既包括了训练⼜包含了转换。 transform()和fit_transform()⼆者的功能都是对数据进⾏某种统⼀处理（⽐如标准化~N(0,1)，将数据缩放(映射)到某个固定区间，归⼀化，正则化等）

fit_transform(trainData)对部分数据先拟合fit，到该part的整体指标，如均值、⽅差、最⼤值最⼩值等等（根据具体转换的⽬的），然后对该trainData进⾏转换transform，从⽽实现数据的标准化、归⼀化等等。

Note:

必须先⽤fit_transform(trainData)，之后再transform(testData)

如果直接transform(testData)，程序会报错

如果fit_transfrom(trainData)后，使⽤fit_transform(testData)⽽不transform(testData)，虽然也能归⼀化，但是两个结果不是在同⼀个“标准”下的，具有明显差异。(⼀定要避免这种情况)

注意：StandardScaler().fit_transform(x，fit_params),fit_params决定标准化的标签数据，就是每个标准化的标杆数据，此参数不同，则每次标准化的过程则不同。

from sklearn import preprocessing

# 获取数据

cols = ['OverallQual','GrLivArea', 'GarageCars','TotalBsmtSF', 'FullBath', 'TotRmsAbvGrd', 'YearBuilt'] ##选取列

x = data_train[cols].values

y = data_train['SalePrice'].values

x_scaled = preprocessing.StandardScaler().fit_transform(x) ##进⾏归⼀化

y_scaled = preprocessing.StandardScaler().fit_shape(-1,1))##先将y转换成⼀列，再进⾏归⼀

还有以下形式，和上⾯的标准化原理⼀致，都是先fit，再transform。

由ss决定标准化进程的独特性

# 先将数据标准化

from sklearn.preprocessing import StandardScaler

ss = StandardScaler() ##

#⽤测试集训练并标准化

ss.fit(missing_age_X_train)##⾸先fit

missing_age_X_train = ss.transform(missing_age_X_train) #进⾏transform

missing_age_X_test = ss.transform(missing_age_X_test)

标签数值化

1.当某列数据不是数值型数据时，将难以标准化，此时要将数据转化成数据型形式。

数据处理前数据显⽰：

经过标签化数据处理

from sklearn import preprocessing

f_names = ['CentralAir', 'Neighborhood'] ##需要处理的数据标签

for x in f_names:

label = preprocessing.LabelEncoder()

data_train[x] = label.fit_transform(data_train[x]) ##数据标准化

处理之后变成：

2.当某列有对应的标签值时，即某个量对应相应确定的标签时，例如oldtown就对应1，sawyer就对应2，分类的str转换为序列类这时使⽤如下：

数据处理之前

利⽤转换:

title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}#将标签对应数值

train_df['Title'] = train_df['Title'].map(title_mapping)#处理数据

train_df['Title'] = train_df['Title'].fillna(0)##将其余标签填充为0值

处理过后：

3.多个数据标签需要分列采⽤one_hot形式时，处理之前

处理之后

train_test.loc[train_test["Age"].isnull() ,"age_nan"] = 1 ##将标签转换成1

train_test.loc[train_test["Age"].notnull() ,"age_nan"] = 0##将此标签成为0

train_test = pd.get_dummies(train_test,columns=['age_nan']) ##columns决定哪⼏⾏分列处理，prefix参数是每列前缀

one_hot 形式转变成功。

以上为个⼈经验，希望能给⼤家⼀个参考，也希望⼤家多多⽀持。

688IT编程网

使用pandas模块实现数据的标准化操作

发表评论

推荐文章

道歉信英语作文模板打破杯子

熊猫的性格英语作文

松香树脂酸和甲醛的Prins加成反应研究

react 父组件调用多个相同子组件中的某个组件的方法-概述说明以及解释...

react多条件对象数组去重-概述说明以及解释

热门文章

react 项目标准

react二维数组

在街道上表示安全的英语作文初一的80字

纺织物理专业英语词汇

react 修改context

金(Ⅰ)-巯基丙酸纳米片层的组装动力学调控

react 数组响应式

reactnative项目结构

热泵中氨基甲酸铵分解反应特性及反应器结构优化

react model层结构

react项目目录结构

react递归处理树级结构,优化渲染

2019考研英语阅读真题中长难句解析(46)

react 移动端 table 树形结构组件

react ts工程结构

react 项目结构 2024

react 封装 axios 请求方法

react 表格树形结构示例

大学英语(1-2)B级月考试卷A听力文稿

英语人教版高中必修二(2019新编)-Unit 4 Journey Across a

最新文章

道歉信英语作文模板打破杯子

熊猫的性格英语作文

松香树脂酸和甲醛的Prins加成反应研究

react 父组件调用多个相同子组件中的某个组件的方法-概述说明以及解释...

react多条件对象数组去重-概述说明以及解释

react中for循环key的作用

标签列表

688IT编程网

使用pandas模块实现数据的标准化操作

发表评论

推荐文章

道歉信英语作文模板打破杯子

熊猫的性格英语作文

松香树脂酸和甲醛的Prins加成反应研究

react 父组件调用多个相同子组件中的某个组件的方法-概述说明以及解释...

react多条件对象数组去重-概述说明以及解释

热门文章

react 项目标准

react二维数组

在街道上表示安全的英语作文初一的80字

纺织物理专业英语词汇

react 修改context

金(Ⅰ)-巯基丙酸纳米片层的组装动力学调控

react 数组 响应式

reactnative项目结构

热泵中氨基甲酸铵分解反应特性及反应器结构优化

react model层结构

react项目目录结构

react递归处理树级结构,优化渲染

2019考研英语阅读真题中长难句解析(46)

react 移动端 table 树形结构组件

react ts工程结构

react 项目结构 2024

react 封装 axios 请求方法

react 表格树形结构示例

大学英语(1-2)B级月考试卷A听力文稿

英语人教版高中必修二(2019新编)-Unit 4 Journey Across a

最新文章

道歉信英语作文模板打破杯子

熊猫的性格英语作文

松香树脂酸和甲醛的Prins加成反应研究

react 父组件调用多个相同子组件中的某个组件的方法-概述说明以及解释...

react多条件对象数组去重-概述说明以及解释

react中for循环key的作用

标签列表

react 数组响应式