Blog

Peter Rühm

Peter Rühm

Power Query(#019): PDF in Excel einlesen! Top oder Flop?

Zunächst gab es Gerüchte… das unter Controllern verpönte, aber leider oft abgelieferte Dateiformat PDF könne vielleicht… eines Tages… in PowerBI eingelesen werden. Eines Tages war dann plötzlich die Möglichkeit da, den Connector zu PDF in PowerBI zu nutzen, aber nur als Vorschau-Feature… in einem bestimmten Update Kanal… wenn man es extra aktivierte… Dann war es endlich soweit: PDF-Connector für PowerBI! Für alle! Einfach im Menü! Aber eben leider nur in PowerBI, nicht in Excel.

In meinen Seminaren habe ich immer wieder darauf hingewiesen, dass Power Query (PQ) in PowerBI und PQ in Excel zwar funktional etwa dasselbe leisten, sehr ähnlich aussehen,dann aber manchmal bei der Funktionssyntax und vor allem in den Datenquellen große Unterschiede aufweisen, da – man kann es kaum glauben – dies zwei völlig unterschiedliche Produkte sind! Es sind auch zwei unterschiedliche Entwicklerteams in Redmont mit der Entwicklung beauftragt. Ich habe jedoch die Hoffnung nie aufgegeben, dass auch PQ in Excel diesen PDF-Connector bekommen könnte, da schon viele der Features von PQ für PowerBI erhalten hat. Zwar immer zeitverzögert, aber immerhin.

Und nun ist er da: der Connector zu PDF für Power Query in Excel! Leider nur, wenn Sie ein Office365 Abonnement haben… die neuesten Updates haben…

An einer einfachen Beispieldatei sehen Sie, wie dies funktioniert. Leider sind in Power Query die Pfade von Haus aus absolut, sodass Sie diese in Ihrer Umgebung zunächst anpassen müssen.

Falls Sie selbst mit dem PDF-Connector experimentieren wollen, dann starten Sie über Daten abrufen und transformieren / aus Datei / aus PDF …

Ein wenig holprig ist die Implementierung dennoch.

  • Mehrseitige Dokumente müssen oft als Einzelseiten importiert und wieder zusammengefügt werden, speziell wenn Seitenköpfe ausgegeben werden. Was ja in PDF leider üblich ist. Hierzu kann man sich mit einem ähnlichen Ansatz wie beim Ordner auslesen selbst eine Lösung programmieren, aber muss dazu erheblichen Aufwand betreiben und braucht das entsprechende Knowhow in M-Programmierung. Möglich aber, dass dies mit einem Update noch automatisiert wird. Stimmen Sie für unseren Vorschlag auf Excel Uservoice!
  • Manche PDF-Dokumente sind intern seitenweise unterschiedlich aufgebaut! Warum dies so ist, entzieht sich völlig meinem Verständnis, aber für den Zweck von PDF reicht gutes Aussehen aus. Wenn Sie aber – wie ich – auf’s Innere achten, dann verhindert dieser Umstand die automatisierte Weiterverarbeitung der Daten – aber dafür ist PDF auch nicht gedacht! Ich werde nicht müde von meinen Kunden zu fordern: lassen Sie sich die Daten in einen vernünftigen tabellarischen Format geben! Ob TXT, CSV, XLSX oder irgendein Format… Egal! Hauptsache kein PDF! Zwar habe ich nun rein technisch eine Möglichkeit, diese Daten einzulesen und diese werden viele auch nutzen. Organisatorisch bin ich trotzdem noch kein PDF-Fan…

Top oder Flop? Ich bin für Top, wenn sich manchmal ein Import aus PDF nicht umgehen lässt, aber es ist immer noch Topper, eine direkte Verbindungen zur Quelldatenbank aufzubauen.

PS Meine Hoffnung auf PDF für PowerQuery wurde also erhört. Die Hoffnung auf Power Query für Access – lediglich für den Datenimport, nicht die Datenmanipulation – gebe ich jedoch bald auf. Mein Verbesserungsvorschlag auf Access Uservoice gehörte damals zu den am höchst bewerteten Beiträgen und wurde doch von Microsoft doch abgelehnt: no current plan… 🙁

——————————————————————————————————————————-

Wenn Ihnen dieser Beitrag gefallen hat, dann teilen  Sie ihn gerne. Falls Sie Anmerkungen haben, schreiben Sie bitte einen Kommentar, oder senden Sie mir eine Mail an info@prt.de.

Beitrag teilen:

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on xing
Share on email
Share on print

Up to date bleiben

Melden Sie sich für unseren Newsletter an!