maxframe.dataframe.Series.rechunk#
- Series.rechunk(chunk_size: int | Tuple[int] | Tuple[Tuple[int], ...], reassign_worker=False)#
重新分块 DataFrame、Series 或 Index 数据。
此函数用于重新组织数据的分块结构,可以改变数据在分布式计算中的分布方式。通过调整分块大小,可以优化内存使用和计算性能。请注意,此函数目前仅在 DPE 中有效。
- 参数:
chunk_size (chunk_size_type) -- 新的分块大小配置。可以是以下形式之一:- 整数:所有维度使用相同的分块大小 - 元组:每个维度使用不同的分块大小。例如,(100, 100) 分别将维度 0 和 1 重新分块为大小为 100 的块,而 ((100, 100, 100), (100,)) 将维度 0 重新分块为 3 个大小为 100 的块,将维度 1 重新分块为一个大小为 100 的单一块。- 字典:特定维度的分块大小,例如,{0: 100} 将维度 0 重新分块为每个块 100 个元素,而 {0: (100, 100, 100)} 将维度 0 重新分块为 3 个块,每个块大小为 100。
reassign_worker (bool, default False) -- 预留供将来使用。
- 返回:
重新分块后的 DataFrame、Series 或 Index 对象。
- 返回类型:
TileableType
示例
>>> import maxframe.dataframe as md >>> df = md.DataFrame({'A': range(1000), 'B': range(1000)}) >>> # Rechunk to 100 rows and columns per chunk >>> df_rechunked = df.rechunk(100) >>> # Specify different chunk sizes for different dimensions >>> df_rechunked = df.rechunk((50, 2))