Importieren Sie Daten von PDF nach Excel über Power Query

Die Aufgabe, Daten aus einer Tabelle in einer PDF-Datei in eine Microsoft-Excel-Tabelle zu übertragen, macht immer „Spaß“. Vor allem, wenn Sie keine teure Erkennungssoftware wie FineReader oder ähnliches haben. Direktes Kopieren führt in der Regel zu nichts Gutem, weil. Nach dem Einfügen der kopierten Daten in das Blatt „kleben“ sie höchstwahrscheinlich in einer Spalte zusammen. Sie müssen dann also mühsam mit einem Werkzeug getrennt werden Text nach Spalten aus der Registerkarte Datum (Daten — Text in Spalten).

Und natürlich ist das Kopieren nur bei solchen PDF-Dateien möglich, bei denen eine Textebene vorhanden ist, dh bei einem Dokument, das gerade von Papier nach PDF gescannt wurde, funktioniert dies im Prinzip nicht.

Aber es ist nicht so traurig, wirklich 🙂

Wenn Sie Office 2013 oder 2016 haben, ist es in wenigen Minuten ohne zusätzliche Programme durchaus möglich, Daten von PDF nach Microsoft Excel zu übertragen. Und Word und Power Query werden uns dabei helfen.

Nehmen wir zum Beispiel diesen PDF-Bericht mit einer Menge Text, Formeln und Tabellen von der Website der Wirtschaftskommission für Europa:

Importieren Sie Daten von PDF nach Excel über Power Query

… und versuchen, daraus in Excel herauszuziehen, sagen wir die erste Tabelle:

Importieren Sie Daten von PDF nach Excel über Power Query

Los geht's!

Schritt 1. PDF in Word öffnen

Aus irgendeinem Grund wissen es nur wenige, aber seit 2013 hat Microsoft Word gelernt, PDF-Dateien zu öffnen und zu erkennen (sogar gescannte, also ohne Textebene!). Dies geschieht auf ganz normale Weise: Word öffnen, klicken Datei öffnen (Datei öffnen) und geben Sie das PDF-Format in der Dropdown-Liste in der rechten unteren Ecke des Fensters an.

Wählen Sie dann die gewünschte PDF-Datei aus und klicken Sie Offen (Öffnen). Word sagt uns, dass es OCR für dieses Dokument in Text ausführen wird:

Importieren Sie Daten von PDF nach Excel über Power Query

Wir stimmen zu und in wenigen Sekunden sehen wir, dass unser PDF bereits in Word zur Bearbeitung geöffnet ist:

Importieren Sie Daten von PDF nach Excel über Power Query

Natürlich fliegen Design, Stile, Schriftarten, Kopf- und Fußzeilen etc. teilweise vom Dokument ab, aber das ist für uns nicht wichtig – wir brauchen nur Daten aus Tabellen. Prinzipiell ist es an dieser Stelle schon verlockend, die Tabelle aus dem erkannten Dokument einfach in Word zu kopieren und einfach in Excel einzufügen. Manchmal funktioniert es, aber häufiger führt es zu allerlei Datenverzerrungen – zum Beispiel können Zahlen zu Datumsangaben werden oder Text bleiben, wie in unserem Fall, weil. PDF verwendet Nicht-Trennzeichen:

Importieren Sie Daten von PDF nach Excel über Power Query

Also lasst uns keine Abstriche machen, sondern alles etwas komplizierter machen, aber richtig.

Schritt 2: Speichern Sie das Dokument als Webseite

Um die empfangenen Daten dann in Excel (über Power Query) zu laden, muss unser Dokument in Word im Webseitenformat gespeichert werden – dieses Format ist in diesem Fall eine Art gemeinsamer Nenner zwischen Word und Excel.

Gehen Sie dazu in das Menü Datei – Speichern unter (Datei – Speichern unter) oder Taste drücken F12 auf der Tastatur und im sich öffnenden Fenster den Dateityp auswählen Webseite in einer Datei (Webseite – Einzelne Datei):

Importieren Sie Daten von PDF nach Excel über Power Query

Nach dem Speichern sollten Sie eine Datei mit der Erweiterung mhtml erhalten (wenn Sie Dateierweiterungen im Explorer sehen).

Phase 3. Hochladen der Datei in Excel über Power Query

Sie können die erstellte MHTML-Datei direkt in Excel öffnen, aber dann erhalten wir erstens den gesamten Inhalt des PDFs auf einmal, zusammen mit Text und einer Menge unnötiger Tabellen, und zweitens verlieren wir wieder Daten aufgrund von Fehlern Trennzeichen. Daher führen wir den Import in Excel über das Power Query-Add-In durch. Dies ist ein völlig kostenloses Add-on, mit dem Sie Daten aus fast jeder Quelle (Dateien, Ordner, Datenbanken, ERP-Systeme) in Excel hochladen und dann die empfangenen Daten auf jede erdenkliche Weise umwandeln und ihnen die gewünschte Form geben können.

Wenn Sie Excel 2010-2013 haben, können Sie Power Query von der offiziellen Microsoft-Website herunterladen – nach der Installation sehen Sie eine Registerkarte Power Query. Wenn Sie Excel 2016 oder neuer haben, müssen Sie nichts herunterladen – alle Funktionen sind standardmäßig bereits in Excel integriert und befinden sich auf der Registerkarte Datum (Datum) in einer Gruppe Herunterladen und konvertieren (Holen & Transformieren).

Also gehen wir entweder auf die Registerkarte Datum, oder auf der Registerkarte Power Query und wähle ein Team Daten zu bekommen or Abfrage erstellen – Aus Datei – Aus XML. Um nicht nur XML-Dateien sichtbar zu machen, ändern Sie die Filter in der Dropdown-Liste in der rechten unteren Ecke des Fensters um Alle Dateien (Alle Dateien) und geben Sie unsere MHTML-Datei an:

Importieren Sie Daten von PDF nach Excel über Power Query

Bitte beachten Sie, dass der Import nicht erfolgreich abgeschlossen wird, weil. Power Query erwartet XML von uns, aber eigentlich haben wir ein HTML-Format. Daher müssen Sie im nächsten Fenster, das angezeigt wird, mit der rechten Maustaste auf die für Power Query unverständliche Datei klicken und ihr Format angeben:

Importieren Sie Daten von PDF nach Excel über Power Query

Danach wird die Datei korrekt erkannt und wir sehen eine Liste aller darin enthaltenen Tabellen:

Importieren Sie Daten von PDF nach Excel über Power Query

Den Inhalt der Tabellen können Sie sich anzeigen lassen, indem Sie mit der linken Maustaste in den weißen Hintergrund (nicht in das Wort Tabelle!) der Zellen der Spalte Daten klicken.

Wenn die gewünschte Tabelle definiert ist, klicken Sie auf das grüne Wort Tisch – und du „fällst“ in seinen Inhalt „durch“:

Importieren Sie Daten von PDF nach Excel über Power Query

Es müssen nur noch ein paar einfache Schritte ausgeführt werden, um den Inhalt zu „kämmen“, nämlich:

  1. unnötige Spalten löschen (Rechtsklick auf den Spaltenkopf – Entfernen)
  2. Punkte durch Kommas ersetzen (Spalten auswählen, Rechtsklick – Werte ersetzen)
  3. Gleichheitszeichen in der Kopfzeile entfernen (Spalten auswählen, Rechtsklick – Werte ersetzen)
  4. Entfernen Sie die oberste Zeile (Startseite – Zeilen löschen – Obere Zeilen löschen)
  5. Leerzeilen entfernen (Home – Zeilen löschen – Leere Zeilen löschen)
  6. Erhöhen Sie die erste Zeile zum Tabellenkopf (Home – Verwenden Sie die erste Zeile als Überschrift)
  7. Filtern Sie unnötige Daten mit einem Filter heraus

Wenn der Tisch in seine normale Form gebracht ist, kann er mit dem Befehl auf das Blatt entladen werden schließen und herunterladen (Schließen & Laden) on Zu den wichtigsten Tab. Und wir werden eine solche Schönheit bekommen, mit der wir bereits arbeiten können:

Importieren Sie Daten von PDF nach Excel über Power Query

  • Transformieren einer Spalte in eine Tabelle mit Power Query
  • Sticky Text in Spalten aufteilen

Hinterlassen Sie uns einen Kommentar