Pandas parallelisieren

In Enhancing performance werden einige Möglichkeiten beschrieben, wie die Performance von Pandas verbessert werden kann. Es gibt jedoch auch spezielle Bibliotheken, die die Verarbeitung von Dataframes parallelisieren können.

cuDF

cuDF ist eine GPU-DataFrame-Bibliothek, die eine Pandas-ähnliche API implementiert.

Modin

Modin parallelisiert fast die gesamte Pandas-API. Dabei muss der bestehende Pandas-Code meist nur um folgenden Import erweitert werden:

import modin.pandas as pd

Die Einschränkungen beziehen sich auf pd.read_json, das nur für lines=True implementiert ist.

Siehe auch

Dask

Dask DataFrame ist ein großer paralleler DataFrame aus mehreren Pandas DataFrames. Dabei ist die dask.dataframe-API eine Teilmenge der Pandas-API, wobei es jedoch geringfügige Änderungen gibt.