Blog

Peter Rühm

Peter Rühm

Optimale Modellierung mit Power Query und Power BI (#1)

Mit seinen Power Tools (Power Query, Power Pivot, Power BI & Co. ) stellt Microsoft Business Analytics-Lösungen zur Verfügung, mit denen Sie Daten aus unterschiedlichsten Datenquellen extrahieren und in einem Modell zusammenführen, dann verdichten, analysieren und visualisieren können.

Die Informationen, die aus den Daten gewonnen werden sollen dabei valide, praxisbezogen und verständlich sein. Noch dazu sollen die Modelle Auswertungen nach wechselnden Kriterien unterstützen und flexibel erweiterbar sein.

Mit welchen Methoden kann man dieses komplexe Ziel erreichen?

Für die Verständlichkeit sorgen Sie selbst durch die Auswahl des Reporting Designs und der Visualisierungen. Die Reports selbst müssen aber auch performant sein, da lange Wartezeiten bei Aktualisieren oder beim Drilldown den Arbeits- und Gedankenfluss stören. Und sie müssen flexibel sein, damit man bei der Datenanalyse relativ frei nach beliebigen Kriterien auswerten kann, also nicht durch die Datenstrukturen schon in bestimmte Richtungen gezwungen wird. Beispielsweise kann eine Vertriebsanalyse sowohl nach Datum, wie nach Region oder Produkt interessant sein. Daneben könnte aber auch eine Analyse nach Kundengruppe, Bestellmenge oder gar Wetter interessant sein.

Setzen wir einfach einmal voraus, dass die erforderlichen Informationen überhaupt vorhanden sind (was leider in der Realität im ersten Schritt nicht mal sicher ist). Damit Daten flexibel ausgewertet werden können, darf die Struktur der Speicherung möglichst wenige Einschränkungen vorgeben.

Hier könnte man zwischen zwei grundsätzlich unterschiedlichen Ansätzen der Modellierung unterscheiden: Stern – und Schneeflocken-Schema

Meist gibt es eine zentrale Tabelle, die sogenannte Faktentabelle, die die Daten enthält, etwa Umsatzzahlen, Absatzzahlen, Plandaten, Kontostände etc. Diese sind meist numerisch und besitzen eine Skala wie Stück, Euro, Tage oder ähnliches. Sie besitzen auch Zusatzinformationen etwa zu Kunden, Regionen, Produkten. Diese Informationen werden aber nicht in der zentralen Datentabelle gespeichert – dort sind lediglich Schlüsselkriterien hinterlegt, die auf andere Tabellen verweisen.

Zu diesen Schlüssel gibt es mehrere Zusatztabellen, sogenannte Dimensionstabellen.

Bei Stern-Schema beziehen sich nun alle oben genannten Schlüssel der Faktentabelle direkt auf eine Dimensionstabelle, aus der die Zusatzinformationen dann ausgelesen werden können (man kann sich das wie den guten alten SVERWEIS vorstellen).

Stern-Schema (Quelle: Microsoft)

Beim Schneeflockenmodell dagegen können auch den Dimensionstabellen weitere Schlüssel und nochmal Dimensionstabellen zugeordnet werden.

Schneeflocken-Schema (Quelle: Wikipedia)

Für eine flexible Auswertung ist das Stern-Schema am besten geeignet, da es erlaubt, mithilfe von Gruppieren, Pivotieren etc. beliebige Verdichtungen in den gewünschten Dimensionen zu erstellen. In EXCEL-Denkweise: es lässt uns, wie in einer Pivottabelle, die Gruppierungkriterien beliebig tauschen.

Beim Schneeflocken-Schema wäre dies schwerer, da für unterschiedliche Auswertungen jeweils eigene Abfragen erzeugt werden müssten.

Zur Aufbereitung der Rohdaten dienen Tools wie Power Query, die eine Normalisierung der Daten, d.h. die Aufteilung der gelieferten Daten in Dimensions- und Faktentabellen mit relativ wenig Aufwand ermöglichen.

Im Seminar Datenmodellierung mit Power Query und Power BI diskutieren und testen wir die Vor- und Nachteile der Modell in der Praxis.

Beitrag teilen:

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on xing
Share on email
Share on print

Up to date bleiben

Melden Sie sich für unseren Newsletter an!