Daten lesen, speichern und bereitstellen¶

Einen Überblick zu öffentlichen Repositories mit Forschungsdaten erhaltet ihr z.B. in Open-Data.

Neben spezifischen Python-Bibliotheken zum Zugriff auf Entfernte Dateisysteme und Geodaten stellen wir euch Serialisierungsformate und drei Werkzeuge genauer vor:

Siehe auch

Scrapy: Framework zum Extrahieren von Daten aus Websites als JSON-, CSV- oder XML-Dateien.
Pattern: Python-Modul zum Data Mining, Verarbeitung natürlicher Sprache, ML und Netzwerkanalyse
Web Scraping Reference: Übersicht zu Web Scraping mit Python

Zum Speichern von relationalen Daten, Python-Objekten und Geodaten stellen wir euch PostgreSQL, SQLAlchemy und PostGIS vor.

Als nächstes zeigen wir euch, wie ihr die Daten über ein Application Programming Interface (API) bereitstellt.

Mit DVC stellen wir euch ein Werkzeug vor, das euch Datenprovenienz erlaubt. Damit vollzieht ihr die Herkunft und den Entstehungsweg von Daten nach.

Im Anschluß lernt ihr im nächsten Kapitel noch einige Good Practices und hilfreiche Python-Pakete zum Bereinigen und Validieren von Daten kennen.