maxframe.dataframe.DataFrame.rechunk#

DataFrame.rechunk(chunk_size: int | Tuple[int] | Tuple[Tuple[int], ...], reassign_worker=False)#

重新分块 DataFrame、Series 或 Index 数据。

此函数用于重新组织数据的分块结构,可以改变数据在分布式计算中的分布方式。通过调整分块大小,可以优化内存使用和计算性能。请注意,此函数目前仅在 DPE 中有效。

参数:
  • chunk_size (chunk_size_type) -- 新的分块大小配置。可以是以下形式之一:- 整数:所有维度使用相同的分块大小 - 元组:每个维度使用不同的分块大小。例如,(100, 100) 分别将维度 0 和 1 重新分块为大小为 100 的块,而 ((100, 100, 100), (100,)) 将维度 0 重新分块为 3 个大小为 100 的块,将维度 1 重新分块为一个大小为 100 的单一块。- 字典:特定维度的分块大小,例如,{0: 100} 将维度 0 重新分块为每个块 100 个元素,而 {0: (100, 100, 100)} 将维度 0 重新分块为 3 个块,每个块大小为 100。

  • reassign_worker (bool, default False) -- 预留供将来使用。

返回:

重新分块后的 DataFrame、Series 或 Index 对象。

返回类型:

TileableType

示例

>>> import maxframe.dataframe as md
>>> df = md.DataFrame({'A': range(1000), 'B': range(1000)})
>>> # Rechunk to 100 rows and columns per chunk
>>> df_rechunked = df.rechunk(100)
>>> # Specify different chunk sizes for different dimensions
>>> df_rechunked = df.rechunk((50, 2))