Daten lesen, speichern und bereitstellen

Einen Überblick über öffentliche Repositories mit Forschungsdaten erhaltet ihr z.B. in Open-Data.

Neben spezifischen Python-Bibliotheken zum Zugriff auf entfernte Speichermedien und Geodaten stellen wir Euch Serialisierungsformate und drei Werkzeuge genauer vor:

Siehe auch

pandas I/O API

Die pandas I/O API ist eine Sammlung von reader-Funktionen, die ein pandas-Objekt zurückgeben. Meist stehen auch entsprechende write-Methoden zur Verfügung.

Scrapy

Framework zum Extrahieren von Daten aus Websites als JSON-, CSV- oder XML-Dateien.

Pattern

Python-Modul zum Data Mining, Verarbeitung natürlicher Sprache, ML und Netzwerkanalyse

Web Scraping Reference

Übersicht zu Web Scraping mit Python

Zum Speichern von relationalen Daten, Python-Objekten und Geodaten stellen wir Euch PostgreSQL, SQLAlchemy und PostGIS vor.

Als nächstes zeigen wir euch, wie ihr die Daten über ein Application Programming Interface (API) bereitstellen könnt.

Mit DVC stellen wir Euch ein Werkzeug vor, das Euch Datenprovenienz erlaubt, d.h. die Herkunft und den Entstehungsweg von Daten nachvollziehen zu können.

Schließlich lernt ihr im nächsten Kapitel einige Good Practices und hilfreiche Python-Pakete zum Bereinigen und Validieren von Daten kennen.