pandas parallelisieren#

In Enhancing performance werden einige Möglichkeiten beschrieben, wie die Performance von Pandas verbessert werden kann. Es gibt jedoch auch spezielle Bibliotheken, die die Verarbeitung von Dataframes parallelisieren können.

cuDF#

cuDF ist eine GPU-DataFrame-Bibliothek, die eine Pandas-ähnliche API implementiert.

Modin#

Modin parallelisiert fast die gesamte Pandas-API. Dabei muss der bestehende Pandas-Code meist nur um folgenden Import erweitert werden:

import modin.pandas as pd

Die Einschränkungen beziehen sich auf pd.read_json, das nur für lines=True implementiert ist.

Siehe auch

Dask#

Dask DataFrame ist ein großer paralleler DataFrame aus mehreren Pandas DataFrames. Dabei ist die dask.dataframe-API eine Teilmenge der Pandas-API, wobei es jedoch geringfügige Änderungen gibt.