maxframe.dataframe.DataFrame.describe#
- DataFrame.describe(percentiles=None, include=None, exclude=None)#
生成描述性统计信息。
描述性统计包括总结数据集分布的中心趋势、离散程度和形状的统计量,不包括
NaN值。分析数值型和对象型序列,以及混合数据类型的
DataFrame列集合。输出将根据提供的内容而变化。有关更多详细信息,请参阅下面的说明。- 参数:
percentiles (list-like of numbers, optional) -- 要包含在输出中的百分位数。所有值都应在 0 和 1 之间。默认值为
[.25, .5, .75],返回第 25、50 和 75 百分位数。include ('all', list-like of dtypes or None (default), optional) -- 要包含在结果中的数据类型白名单。对
Series会忽略。选项如下: - 'all' : 输入的所有列都将包含在输出中。 - 类列表的 dtypes : 将结果限制为提供的数据类型。 要将结果限制为数值类型,请提交numpy.number。 要将其限制为对象列,请提交numpy.object数据类型。 字符串也可以使用select_dtypes的风格(例如df.describe(include=['O']))。 - None(默认) : 结果将包含所有数值列。exclude (list-like of dtypes or None (default), optional,) -- 要从结果中排除的数据类型黑名单。对
Series会忽略。选项如下: - 类列表的 dtypes : 从结果中排除提供的数据类型。 要排除数值类型,请提交numpy.number。 要排除对象列,请提交numpy.object数据类型。 字符串也可以使用select_dtypes的风格(例如df.describe(exclude=['O']))。 - None(默认) : 结果将不排出任何内容。
- 返回:
提供的 Series 或 Dataframe 的摘要统计信息。
- 返回类型:
参见
DataFrame.count计算非 NA/空值的观测数量。
DataFrame.max对象中值的最大值。
DataFrame.min对象中值的最小值。
DataFrame.mean值的平均值。
DataFrame.std观测值的标准差。
DataFrame.select_dtypes基于 dtype 包含/排除列的 DataFrame 子集。
备注
对于数值型数据,结果的索引将包括
count、mean、std、min、max以及下分位数、50分位数和上分位数。默认情况下,下分位数是25,上分位数是75。50分位数即中位数。对于对象型数据(例如字符串或时间戳),结果的索引将包括
count、unique、top和freq。top是最常见的值。freq是最常见值的频率。时间戳还包括first和last项。如果有多个对象值具有相同的最高计数,则
count和top结果将从这些值中任意选择。对于通过
DataFrame提供的混合数据类型,默认只返回数值列的分析结果。如果 DataFrame 仅包含对象型数据而没有数值列,则默认返回对象列的分析结果。如果提供了include='all'选项,则结果将包括每种数据类型的属性并集。include 和 exclude 参数可用于限制
DataFrame中哪些列被分析以生成输出。在分析Series时,这些参数将被忽略。示例
描述一个数值型
Series。>>> import maxframe.tensor as mt >>> import maxframe.dataframe as md >>> s = md.Series([1, 2, 3]) >>> s.describe().execute() count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0 dtype: float64
描述一个
DataFrame。默认情况下仅返回数值字段。>>> df = md.DataFrame({'numeric': [1, 2, 3], ... 'object': ['a', 'b', 'c'] ... }) >>> df.describe().execute() numeric count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0
描述一个
DataFrame的所有列,不考虑数据类型。>>> df.describe(include='all').execute() numeric object count 3.0 3 unique NaN 3 top NaN a freq NaN 1 mean 2.0 NaN std 1.0 NaN min 1.0 NaN 25% 1.5 NaN 50% 2.0 NaN 75% 2.5 NaN max 3.0 NaN
通过属性访问方式描述
DataFrame中的一列。>>> df.numeric.describe().execute() count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0 Name: numeric, dtype: float64
在
DataFrame描述中仅包含数值列。>>> df.describe(include=[mt.number]).execute() numeric count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0
在
DataFrame描述中仅包含字符串列。>>> df.describe(include=[object]).execute() object count 3 unique 3 top a freq 1