pandas IO tools¶

pandas verfügt über eine Reihe von Funktionen zum Lesen von Tabellendaten als DataFrame-Objekt, darunter

Funktion	Beschreibung
pandas.read_csv	lädt CSV-Daten aus einer Datei, einer URL oder einem dateiähnlichen Objekt; üblicherweise wird ein Komma als Trennzeichen verwendet
pandas.read_fwf	liest fwf, also Daten im Spaltenformat mit fester Breite
pandas.read_clipboard	liest Daten aus der Zwischenablage und übergibt sie an `read_csv`; u.a. nützlich für die Konvertierung von Tabellen aus Webseiten
pandas.read_excel	liest Tabellendaten aus einer Excel XLS- oder XLSX-Datei
pandas.read_hdf	liest HDF5-Dateien
pandas.read_html	liest alle Tabellen aus dem angegebenen HTML-Dokument
pandas.read_json	liest Daten aus einer JSON-Datei
pandas.read_feather	liest das Feather-Binärdateiformat
pandas.read_orc	liest Apache ORC-Binärdaten
pandas.read_parquet	liest das Apache Parquet-Binärdateiformat
pandas.read_pickle	liest ein beliebiges Objekt, das im Python-Pickle-Format gespeichert ist
pandas.read_sas	liest einen SAS-Datensatz
pandas.read_spss	liest eine von SPSS erstellte Datendatei
pandas.read_sql	liest die Ergebnisse einer SQL-Abfrage (mit SQLAlchemy) als pandas DataFrame
pandas.read_sql_table	liest eine ganze SQL-Tabelle (mit SQLAlchemy) als pandas DataFrame (entspricht einer Abfrage, die alles in dieser Tabelle mit `read_sql` auswählt)
pandas.read_stata	liest einen Datensatz aus dem Stata-Dateiformat

Siehe auch

pandas I/O API: Die pandas I/O API ist eine Sammlung von reader-Funktionen, die ein pandas-Objekt zurückgeben. Meist stehen auch entsprechende write-Methoden zur Verfügung.

Zunächst werde ich einen Überblick über einige dieser Funktionen geben, die dazu gedacht sind, Text- und Exceldaten in einen pandas-DataFrame zu konvertieren: CSV, JSON und Excel. Dabei lassen sich die optionalen Argumente für diese Funktionen in folgende Kategorien einteilen:

Indizierung: Können eine oder mehrere Spalten den zurückgegebenen DataFrame erschließen, und ob die Spaltennamen aus der Datei, den von euch angegebenen Argumenten oder gar nicht abgerufen werden sollen.
Typinferenz und Datenkonvertierung: Dazu gehören die benutzerdefinierten Wertkonvertierungen und die benutzerdefinierte Liste der Markierungen für fehlende Werte.
Parsen von Datum und Uhrzeit: Dies umfasst die Kombinationsfähigkeit, einschließlich der Kombination von Datums- und Zeitinformationen, die über mehrere Spalten verteilt sind, in einer einzigen Spalte im Ergebnis.
Iteration: Unterstützung für die Iteration über Teile von sehr großen Dateien.
Probleme mit unsauberen Daten: Überspringen von Zeilen oder Fußzeilen, Kommentaren oder anderen Kleinigkeiten wie numerischen Daten mit durch Kommas getrennte Tausender.

Da Daten in der realen Welt sehr unübersichtlich sein können, haben einige der Datenladefunktionen (insbesondere read_csv) im Laufe der Zeit eine lange Liste optionaler Argumente angehäuft. Die Online-Dokumentation von pandas enthält viele Beispiele für die einzelnen Funktionen.

Einige dieser Funktionen, wie pandas.read_csv, führen eine Typinferenz durch, da die Datentypen der Spalten nicht Teil des Datenformats sind. Das bedeutet, dass ihr nicht unbedingt angeben müsst, welche Spalten numerisch, integer, boolesch oder string sind. Bei anderen Datenformaten wie HDF5, ORC und Parquet sind die Datentypinformationen hingegen bereits in das Format eingebettet.