Daten bereinigen und validieren#

Im Folgenden wollen wir euch einen praktischen Überblick über verschiedene Bibliotheken und Methoden zur Datenbereinigung und -validierung mit Python geben. Dabei verwenden wir neben bekannten Bibliotheken wie NumPy und Pandas auch mehrere kleine, spezialisierte Bibliotheken wie dedupe, fuzzywuzzy, voluptuous, bulwark, tdda und hypothesis. Wir bevorzugen diese leichtgewichtigeren Lösungen gegenüber großen, universellen Systemen wie Great Expectations oder MobyDQ.

Überblick#