Pandas parallelisieren#
In Enhancing performance werden einige Möglichkeiten beschrieben, wie die Performance von Pandas verbessert werden kann. Es gibt jedoch auch spezielle Bibliotheken, die die Verarbeitung von Dataframes parallelisieren können.
cuDF#
cuDF ist eine GPU-DataFrame-Bibliothek, die eine Pandas-ähnliche API implementiert.
Siehe auch
Modin#
Modin parallelisiert fast die gesamte Pandas-API. Dabei muss der bestehende Pandas-Code meist nur um folgenden Import erweitert werden:
import modin.pandas as pd
Die Einschränkungen beziehen sich auf pd.read_json
, das nur für
lines=True
implementiert ist.
Dask#
Dask DataFrame ist
ein großer paralleler DataFrame aus mehreren Pandas DataFrames. Dabei ist die
dask.dataframe
-API eine Teilmenge der Pandas-API, wobei es jedoch
geringfügige Änderungen gibt.
Siehe auch