pandas parallelisieren¶
In Enhancing performance werden einige Möglichkeiten beschrieben, wie die Performance von Pandas verbessert werden kann. Es gibt jedoch auch spezielle Bibliotheken, die die Verarbeitung von Dataframes parallelisieren können.
cuDF¶
cuDF ist eine GPU-DataFrame-Bibliothek, die eine Pandas-ähnliche API implementiert.
Siehe auch
Modin¶
Modin parallelisiert fast die gesamte Pandas-API. Dabei muss der bestehende Pandas-Code meist nur um folgenden Import erweitert werden:
import modin.pandas as pd
Die Einschränkungen beziehen sich auf pd.read_json
, das nur für
lines=True
implementiert ist.
Dask¶
Dask DataFrame ist
ein großer paralleler DataFrame aus mehreren Pandas DataFrames. Dabei ist die
dask.dataframe
-API eine Teilmenge der Pandas-API, wobei es jedoch
geringfügige Änderungen gibt.
Siehe auch