Python Pandas –缺少数据

使用熊猫时,如果缺少数据点,熊猫将自动使用NULL或NAN填充该缺失点。

首先让我们使用Numpy和Pandas定义一个dataFrame。

import numpy as np
import pandas as pd

d = {'A':[1,2,np.nan],'B':[3,np.nan,np.nan],'C':[4,5,6]}
df = pd.DataFrame(d)
print(df)

输出结果

     A    B  C
0  1.0  3.0  4
1  2.0  NaN  5
2  NaN  NaN  6

熊猫提供以下选项来处理丢失的数据,

降低NAN值

# 删除具有null或NAN值的行
print(df.dropna())

'''
     A    B  C
0  1.0  3.0  4
'''
# 删除具有null或NAN值的列
print(df.dropna(axis=1))

'''
   C
0  4
1  5
2  6
'''

指定一个阈值,以不丢弃任何数量的非NA值。

# 不删除第二行,因为, 
# 它具有小于2的NAN值。
print(df.dropna(thresh=2))

'''
     A    B  C
0  1.0  3.0  4
1  2.0  NaN  5
'''

填写缺失值

print(df.fillna('empty'))

'''
       A      B  C
0      1      3  4
1      2  empty  5
2  empty  empty  6
'''