maxframe.dataframe.DataFrame.describe#

DataFrame.describe(percentiles=None, include=None, exclude=None)#

生成描述性统计信息。

描述性统计包括总结数据集分布的中心趋势、离散程度和形状的统计量，不包括 NaN 值。

分析数值型和对象型序列，以及混合数据类型的 DataFrame 列集合。输出将根据提供的内容而变化。有关更多详细信息，请参阅下面的说明。

参数:

percentiles (list-like of numbers, optional) -- 要包含在输出中的百分位数。所有值都应在 0 和 1 之间。默认值为 [.25, .5, .75]，返回第 25、50 和 75 百分位数。
include ('all', list-like of dtypes or None (default), optional) -- 要包含在结果中的数据类型白名单。对 Series 会忽略。选项如下： - 'all' : 输入的所有列都将包含在输出中。 - 类列表的 dtypes : 将结果限制为提供的数据类型。要将结果限制为数值类型，请提交 numpy.number。要将其限制为对象列，请提交 numpy.object 数据类型。字符串也可以使用 select_dtypes 的风格（例如 df.describe(include=['O'])）。 - None（默认） : 结果将包含所有数值列。
exclude (list-like of dtypes or None (default), optional,) -- 要从结果中排除的数据类型黑名单。对 Series 会忽略。选项如下： - 类列表的 dtypes : 从结果中排除提供的数据类型。要排除数值类型，请提交 numpy.number。要排除对象列，请提交 numpy.object 数据类型。字符串也可以使用 select_dtypes 的风格（例如 df.describe(exclude=['O'])）。 - None（默认） : 结果将不排出任何内容。

返回:

提供的 Series 或 Dataframe 的摘要统计信息。

返回类型:

Series or DataFrame

参见

DataFrame.count: 计算非 NA/空值的观测数量。
DataFrame.max: 对象中值的最大值。
DataFrame.min: 对象中值的最小值。
DataFrame.mean: 值的平均值。
DataFrame.std: 观测值的标准差。
DataFrame.select_dtypes: 基于 dtype 包含/排除列的 DataFrame 子集。

备注

对于数值型数据，结果的索引将包括 count、mean、std、min、max 以及下分位数、50 分位数和上分位数。默认情况下，下分位数是 25，上分位数是 75。50 分位数即中位数。

对于对象型数据（例如字符串或时间戳），结果的索引将包括 count、unique、top 和 freq。top 是最常见的值。freq 是最常见值的频率。时间戳还包括 first 和 last 项。

如果有多个对象值具有相同的最高计数，则 count 和 top 结果将从这些值中任意选择。

对于通过 DataFrame 提供的混合数据类型，默认只返回数值列的分析结果。如果 DataFrame 仅包含对象型数据而没有数值列，则默认返回对象列的分析结果。如果提供了 include='all' 选项，则结果将包括每种数据类型的属性并集。

include 和 exclude 参数可用于限制 DataFrame 中哪些列被分析以生成输出。在分析 Series 时，这些参数将被忽略。

示例

描述一个数值型 Series。

>>> import maxframe.tensor as mt
>>> import maxframe.dataframe as md
>>> s = md.Series([1, 2, 3])
>>> s.describe().execute()
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
dtype: float64

描述一个 DataFrame。默认情况下仅返回数值字段。

>>> df = md.DataFrame({'numeric': [1, 2, 3],
...                    'object': ['a', 'b', 'c']
...                    })
>>> df.describe().execute()
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

描述一个 DataFrame 的所有列，不考虑数据类型。

>>> df.describe(include='all').execute()
       numeric object
count      3.0      3
unique     NaN      3
top        NaN      a
freq       NaN      1
mean       2.0    NaN
std        1.0    NaN
min        1.0    NaN
25%        1.5    NaN
50%        2.0    NaN
75%        2.5    NaN
max        3.0    NaN

通过属性访问方式描述 DataFrame 中的一列。

>>> df.numeric.describe().execute()
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
Name: numeric, dtype: float64

在 DataFrame 描述中仅包含数值列。

>>> df.describe(include=[mt.number]).execute()
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

在 DataFrame 描述中仅包含字符串列。

>>> df.describe(include=[object]).execute()
       object
count       3
unique      3
top         a
freq        1