用Seaborn，一行代码看穿你的数据集

2019年11月26日 0条评论 476次阅读 0人点赞 9suan

翻译自官方文档：Visualizing the distribution of a dataset
完整项目可移步科赛，一键fork运行

之前看其他大佬的项目，只在意他们通过对可视化图片，对数据特征挖掘的思路，没有在意他们做可视化的工具。轮到自己做的时候就发现，wtf?matplotlib可以更难用一点嘛？别人酷酷的，坐标轴上还有直方图的是怎么画的？

今天碰到了seaborn的库，一行代码就出图，爱了！

——正文分割线——

一般做一个新的项目的时候，都要先了解数据，一方面是了解数据的分布情况，另一方面是观察维度间的关系（是否有正/负相关），本文会介绍seaborn中用于可视化单变量和双变量分布的一些函数。

单变量可视化


1
2
3
4
5
6
7
8
#导入库

import numpy as np

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

from scipy import stats



sns.set(color_codes=True)

单变量可视化

查看seaborn中的单变量分布的最便捷方法是distplot()函数。默认情况下，将绘制直方图并拟合核密度估计（KDE, kernel density estimate）。


1
sns.distplot(x)

直方图

直方图将数据分成bin(s)，然后绘制条形以显示落在每个bin中的数据数量，来表示数据的分布。

为了说明这一点，可以删除密度曲线并添加一个地毯图，该图在每次观察时都会绘制一个小的垂直刻度。您可以使用rugplot()函数制作地毯图，也可以在distplot()中使用它。


1
sns.distplot(x, kde=False, rug=True)

绘制直方图时，主要的选择是bin的数量以及放置它们的位置。distplot()会为你自动选择参数，但是尝试更多或更少的bin可能会揭示数据的其他特征。


1
sns.distplot(x, bins=20, kde=False, rug=True)

核密度估计

核密度估计是绘制分布形状的一个有用的工具。像直方图一样，KDE根据一个轴上数据的密度，在另一个轴上显示高度。


1
sns.distplot(x, hist=False, rug=True)

与绘制直方图相比，绘制KDE的计算量更大。它的计算过程是，每个观察值首先被以该值为中心的高斯曲线代替。


1
2
3
4
5
6
7
8
9
10
11
12
x = np.random.normal(0, 1, size=30)

bandwidth = 1.06 * x.std() * x.size ** (-1 / 5.)

support = np.linspace(-4, 4, 200)



kernels = []

for x_i in x:



    kernel = stats.norm(x_i, bandwidth).pdf(support)

    kernels.append(kernel)

    plt.plot(support, kernel, color="r")



sns.rugplot(x, color=".2", linewidth=3);

接下来，将这些曲线求和，以计算每个点的密度值。然后将结果曲线归一化，以使其下方的面积等于1。


1
2
3
4
from scipy.integrate import trapz

density = np.sum(kernels, axis=0)

density /= trapz(density, support)

plt.plot(support, density)

如果在seaborn中使用kdeplot()函数，可以得到相同的曲线。但distplot()为查看数据密度估计提供了更直接、便利的方法。


1
sns.kdeplot(x, shade=True)

KDE的带宽(bw)参数控制估算值与数据拟合的紧密程度，非常类似于直方图中的bin大小。它对应上面绘制的内核的宽度。默认值使用的是通用规则，但是尝试更大或更小的值可能会有所帮助。


1
2
3
4
sns.kdeplot(x)

sns.kdeplot(x, bw=.2, label="bw: 0.2")

sns.kdeplot(x, bw=2, label="bw: 2")

plt.legend();

在上图中，bw=2时，估算超出了数据集中的最大和最小值。可以控制通过cut参数绘制曲线的极限值有多远。但是，这只会影响曲线的绘制方式，而不会影响其拟合方式。


1
2
sns.kdeplot(x, shade=True, cut=0)

sns.rugplot(x)

拟合参数分布

你还可以使用distplot()将参数分布拟合到数据集，并直观地评估其与观察到的数据的对应程度。


1
2
x = np.random.gamma(6, size=200)

sns.distplot(x, kde=False, fit=stats.gamma)

双变量分布可视化

在seaborn中可视化双变量的方法是jointplot()函数，该函数创建一个多面板图形，该图形同时显示两个变量之间的双变量（或联合）关系以及每个变量的单变量分布。


1
2
3
mean, cov = [0, 1], [(1, .5), (.5, 1)]

data = np.random.multivariate_normal(mean, cov, 200)

df = pd.DataFrame(data, columns=["x", "y"])

散点图

可视化双变量分布的最常用的方法是散点图，和matplotlib plt.scatter类似。


1
sns.jointplot(x="x", y="y", data=df)

六边形图

双变量的直方图叫“六边形”图，因为它显示了落在六边形箱中的观测值。该图适用于相对较大的数据集。可通过matplotlib plt.hexbin函数使用，也可以在jointplot()中作为样式使用。


1
2
x, y = np.random.multivariate_normal(mean, cov, 1000).T

sns.jointplot(x=x, y=y, kind="hex")

核密度估计

对于双变量也可以进行核密度估计。


1
sns.jointplot(x="x", y="y", data=df, kind="kde")

你还可以使用kdeplot()函数绘制二维内核密度图，将密度图绘制到特定的（可能已经存在的）matplotlib上


1
2
3
4
f, ax = plt.subplots(figsize=(6, 6))

sns.kdeplot(df.x, df.y, ax=ax)

sns.rugplot(df.x, color="g", ax=ax)

sns.rugplot(df.y, vertical=True, ax=ax)

如果你希望更连续地显示双变量密度，则可以增加轮廓级别的数量


1
2
3
f, ax = plt.subplots(figsize=(6, 6))

cmap = sns.cubehelix_palette(as_cmap=True, dark=0, light=1, reverse=True)

sns.kdeplot(df.x, df.y, cmap=cmap, n_levels=60, shade=True)

jointplot()函数使用JointGrid来管理图形，您可以直接使用JointGrid绘制图形。jointplot()在绘制后返回JointGrid对象，你可以使用该对象添加更多层或调整可视化的其他属性。


1
2
3
4
g = sns.jointplot(x="x", y="y", data=df, kind="kde", color="m")

g.plot_joint(plt.scatter, c="w", s=30, linewidth=1, marker="+")

g.ax_joint.collections[0].set_alpha(0)

g.set_axis_labels("$X$", "$Y$")

多变量数据可视化

要在多变量数据集中绘制成对的双变量分布，可以使用pairplot()函数。这将创建轴矩阵，并显示DataFrame中每列的关系。默认情况下，它还会在对角轴上绘制每个变量的单变量分布。


1
2
iris = sns.load_dataset("iris")

sns.pairplot(iris)

pairplot()函数非常类似于jointplot()和JointGrid之间的关系，它建立在PairGrid对象之上，使他具有更高的灵活性。


1
2
3
g = sns.PairGrid(iris)

g.map_diag(sns.kdeplot)

g.map_offdiag(sns.kdeplot, n_levels=6)

九算AI实验室|18年专注网站优化-网站SEO-百度账户托管

用Seaborn，一行代码看穿你的数据集

单变量可视化

单变量可视化

直方图

核密度估计

拟合参数分布

双变量分布可视化

六边形图

核密度估计

多变量数据可视化

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

九算AI实验室|18年专注网站优化-网站SEO-百度账户托管

单变量可视化

单变量可视化

直方图

核密度估计

拟合参数分布

双变量分布可视化

六边形图

核密度估计

多变量数据可视化

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可