Archiv

Archive for the ‘T-SQL’ Category

Bericht vom Azure Data Lake Event

Am 2.3.2018 habe ich am Azure Data Lake Event, durchgeführt von Microsoft und Trivadis, teilgenommen. Die Referenten gaben einen Überblick über das Potential und die Möglichkeiten von Microsoft Azure Data Lake und unterlegten dies auch gleich mit live Code-Beispielen, die sie während der Veranstaltung zeigten.

Speaker waren:

  • Michael Rys, Principal Program Manager Big Data Team, Microsoft
  • Patrik Borosch, Technical Solution Professional Data Platform, Microsoft
  • Marco Amhof, Senior Consultant für Azure Data Lake Analytics und Busines Intelligence, Trivadis

Mit Hilfe des Azure Data Lakes können einerseits unterschiedlichste Daten gespeichert, andererseits aber auch analysiert und weiterverarbeitet werden. Microsoft hat eine neue Sprache zur Auswertung dieser Daten entwickelt: U-SQL. Diese Sprache ist eine Kombination aus T-SQL und C# und bietet vor allem Microsoft Entwicklern ein komfortables Werkzeug im Bereich von Big-Data-Analysen.

Azure Data Lake und diverse Möglichkeiten für Analytics

Erstaunlicherweise war die erste Frage von Michael Rys: In welcher Sprache sollen  die Vorträge gehalten werden (in Hochdeutsch, Schweizer-Deutsch oder Englisch)? … Michael Rys stammt nämlich aus der Schweiz und lebt schon seit über 20 Jahren in den USA und arbeitet bei Microsoft.

Michael Rys hat erklärt, dass man sich den Azure Data Lake (ADL) jedoch nicht als See vorstellen sollte, wo die Daten wahllos hineingekippt werden, sondern eher ähnlich einer Verzeichnisstruktur, wo es Unterordner und verschiedene Bereiche gibt. Dort werden die Daten möglichst im Original-Format und ohne zusätzliche Schema-Informationen gespeichert. D.h. auch wenn man seine Daten in einem Data Lake kopiert und aufbewahrt, müssen diese verwaltet und organisiert werden. Das wird einem durch einen Data Lake nicht abgenommen. Hierzu könnte z.B. das Tool Azure Data Catalog verwendet werden.

Various Big Data Solutions

Mit U-SQL lassen sich die Daten gemäss „Query where the data lives“ auswerten und zwar mit dem Ziel dass möglichst wenig Daten kopiert werden müssen und das Ganze möglichst performant ist.

Daten mit U-SQL und Azure Data Lake Analytics (ADLA) abfragen

 

Bei Azure Data Lake Analytics sind bereits 6 sogenannte kognitive Funktionen eingebaut:

  • Face API
  • Image Tagging
  • Emotion Analysis
  • OCR
  • Text Key Phrase Extraction
  • Text Sentiment Analysis

Aber auch Funktionalitäten wie z.B. das Durchsuchen von PDF-Dateien lassen sich relativ einfach realisieren, indem Open-Source .Net Code einfach eingebunden (z.B. von GitHub) und verwendet werden kann, wie Marco Amhof eindrücklich mit einem seiner vielen Code-Beispiele und Live Demos demonstriert hat:

  • ImageTagging (ein Feature aus den Cognitive Services) mit Visualisierung in PowerBI

    Demo: Image Tagging

     

  • Verarbeitung von 2 CSV Files und einer Abfrage (Federated Query) aus Azure SQL DWH mit dem Ergebnis, mit diesen Daten einen Data Mart nach Azure Data Lake zu schreiben, und diesen wiederum mit PowerBI zu visualisieren.(Der Data Mart lässt sich ebenfalls mit dem Polybase Feature in Azure SQL DWH abfragen. Alternativ kann dieser Data Mart von PowerBI extrahiert und nach Azure Analysis Services deployed werden.)
  • PDFParsing: Mit einem Open Source PDF Parser lassen sich beliebige PDF Files parsen. Diese wurden dann mit dem Keyword Extractor (Cognitive Services Framework) verarbeitet und die in PowerBI mit dem WordCloud Custom Visual visualisert


Patrik Borosch thematisierte unter anderem die Frage: Wird das traditionelle Data Warehouse überhaupt noch benötigt? Oder kann man alle Daten in einen Data Lake hochladen und dann direkt mit Hadoop, Spark, R oder Azure Data Lake Analytics auswerten? Die Antwort die er gegeben hat, ist ein klares JA: Das Data Warehouse wird noch benötigt, aber der grösste Nutzen für das Unternehmen entsteht dann, wenn das relationale Data Warehouse als Teil einer Big Data Lösung betrieben wird.

Denn immer noch müssen die Daten von OLAP-System, CRM, MDM (Master Data Management) etc. integriert, bereinigt, aggregiert und ausgewertet werden. Und genau diese Dinge kann ein Data Warehouse sehr gut. Wenn nun das Data Warehouse in die Cloud migriert wird (z.B. als Azure Data Warehouse oder auch als vollwertiger SQL-Server auf einer Azure-VM) hat man quasi das Beste aus zwei Welten und kann strukturierte und nicht strukturierte Daten miteinander verbinden und daraus neue Erkenntnisse erzielen. Patrik Borisch gab auch den Hinweis, dass sich derzeit eine neue Lösung im der Public Preview-Phase befindet: Azure SQL Database Managed Instance.

Azure Data Lake, Analytics, and Data Warehouse

Mein Fazit: Das war eine gelungene, halbtägige Veranstaltung mit hochkarätigen Speakern, die es verstanden haben, einerseits einen Überblick über Azure Data Lake zu geben, und andererseits mit praktischen Code-Beispielen die gezeigten Themen direkt demonstrieren konnten und auch teilweise in die Tiefe zu gehen. Während der Veranstaltung gab es immer wieder Fragen seitens der Zuhörer, die aus sehr verschiedenen Branchen kamen.

Alle Fragen konnten von den Speakern detailliert und zufriedenstellend erklärt werden. Und auch die Organisatoren Willfried Färber und Rosmarie Stutz haben einen tollen Job gemacht: Sie haben tolle Speaker zu einem sehr spannenden Thema hier in die Schweiz geholt. Cool!

Advertisements

Prüfung 70-461 bestanden: Querying Microsoft SQL Server 2012 / 2014

Ich habe vor kurzem die Microsoft Zertifizierung 70-461 bestanden und möchte kurz reflektieren wie ich die Prüfung erlebt habe. Darüberhinaus möchte ich Tipps zur Vorbereitung geben.

Material zur Vorbereitung

Ich habe mir die von Microsoft zur Verfügung gestellten Video angeschaut: MCSA Certification Prep | Exam 461: Querying Microsoft SQL Server 2012
und https://www.youtube.com/watch?v=cZVtrjDOEeo. Auf der Microsoft Virtual Academy gibt es auch noch ein Trainingsvideo.

Dann habe ich mir das Buch Exam 70-461 – Querying Microsoft SQL Server 2012 von Microsoft gekauft. Ich kann dieses Buch für alle empfehlen, die nicht nur die Prüfung bestehen wollen, sondern den Inhalt auch verstehen, anwenden und behalten wollen. Itzik Ben-Gan und seine Co-Autoren haben ein gutes Buch geschrieben, wofür es hier ein Probekapitel zu lesen gibt.

Buch zu 70-461

Bei Measure Up habe ich mir einen Praxistest für die Zertifizierung gekauft. Der Praxistest besteht aus simulierten Prüfungen, es gibt dabei einen Trainings- und einen Prüfungsmodus. Die Fragen werden aus einem Pool von insgesamt 172 Fragen geschöpft. Nach der Durchführung kann man sich anzeigen lassen, warum eine gewählte Option richtig oder falsch war. Es gibt auch andere Anbieter wie z.B. Mindhub. Aufgepasst: Diese Praxistest sind recht gut um zu üben, was aber fehlt sind die Live-Coding Fragetypen einer echten Prüfung. Also: öfters mal das SQL Server Management Studio aufmachen und die Dinge nachpogrammieren und ausprobieren.

Ich habe bewusst keine Brain Dumps verwendet. Mein Ziel – neben dem Bestehen der Prüfung – war auch möglichst viel zu lernen und zu üben. Was natürlich sehr hilfreich ist, wenn man praktische Erfahrung mit dem SQL Server, auch mit älteren Versionen, hat.

Den Prüfungstermin habe ich hier festgelegt und gebucht.

Prüfungsrelevante Themen

  • Windows Functions und Ranking Functions
  • Transaction Isolation Levels
  • Indexierte Views
  • Sequence Object
  • CTEs
  • Merge
  • Trigger
  • COALESCE, IIF, ISNULL
  • Union, Union all, Intersect, Except
  • Datentypen
  • Errorhandling
  • Datenintegrität erzwingen (Constraints)
  • Vergleichsoperatoren mit ALL, SOME, ANY, NOT IN
  • Table valued functions
  • Cross Apply und Outer Apply
  • For XML

Eine gute Zusammenstellung der relevanten Themen findet man ebenfalls hier.

Prüfung

Die Prüfung ging 120 Minuten und bestand aus 53 Fragen. Sie besteht aus folgenden Teilbereichen:

  1. Troubleshoot and Optimize (25-30%)
  2. Create Database Objects (20-25%)
  3. Modify Data (20-25%)
  4. Work with Data (25-30%)

Folgende unterschiedliche Typen von Fragen waren zu bearbeiten:

  • Auswahl aus mehreren Optionen
  • Multiple Choice
  • T-SQL Code schreiben. Meist mussten Queries ergänzt oder korrigiert werden. Dass man Code während der Prüfung schreiben muss, war mir neu.
  • Drag & Drop von Code Sequenzen

Tipps

In der Rückschau war meine Vorbereitung in Ordnung. Nur bei der Prüfung ist mir die Zeit davon gelaufen. Ich habe den Fehler gemacht, alle Fragen nacheinander zu beantworten, auch die schweren und zeitintensiven. Mein Tipp für die Prüfung: Zuerst die einfachen Fragen machen und dann in einer zweiten Runde die zeitintensiven Fragen. Ausserdem würde ich vor der Prüfung noch mehr Code Beispiele machen. Die Prüfung ist machbar, jedoch sollte man sie nicht unterschätzen.

Ich hoffe dieser Artikel hilft, wenn jemand die Zertifizierung 70-461 machen möchte. Über Feedback würde ich mich freuen.

 

Training in Zürich zu neuer Datenmodellierungsmethode: Data Vault

Wikipedia definiert Data Vault so:

In den letzten Jahren hat sich mit Data Vault eine neue Modellierungstechnik für Data-Warehouse etabliert, die insbesondere für agile Datawarehouse geeignet ist. Sie bietet eine hohe Flexibilität bei Erweiterungen, eine vollständige Historisierung der Daten und erlaubt eine starke Parallelisierung der Datenladeprozesse.

Meine persönliche Erfahrung ist, dass Data Vault nicht nur bei einem Data-Warehouse eingesetzt werden kann, sondern auch bei Schnittstellen von OLTP-Systemen, welche Daten von anderen Systemen beziehen. Mit Data Vault bekommt man die Möglichkeit, die Qualität der Belieferung der Schnittstellen automatisiert zu überprüfen und zu messen.

DataVault

Im Frühjahr gibt es vom Buchautor Hans Hultgren ein dreitägiges Training in Zürich zur Data Vault Modellierung. Anschließend findet eine Prüfung zur Zertifizierung statt. Interessant ist das Thema für Daten Architekten, Datenbank Programmierer, Data Warehouse Architekten, Business Intelligence Consultants und für alle die mit dem Design und Implementieren von Daten-Schnittstellen und BI-Systemen zu tun haben.

Der Trainer, Hans Hultgren, berät seit über 20 Jahren Firmen im Bereich Data Warehouse und Business Development. Hans Hultgren hat ein Buch über das Thema „Modeling the Agile Data Warehouse With Data Vault“ geschrieben. Ich habe das Buch gelesen, ich kann es nur empfehlen.

Außerdem schreibt Hans Hultgren in seinem Blog (https://hanshultgren.wordpress.com/) regelmäßig über das Thema Data Warehousing und Data Vault.

 

 

Fallstricke der T-SQL Funktion isNumeric() – was ist zu beachten?

Manchmal geht man davon aus, dass die mitgelieferte Funktionen des SQL Servers das tun, was sie sollen. Aber dieses erwartete Verhalten trifft nicht immer zu. Wie im vorliegenden Fall der Funktion isNumeric.

Was habe ich erwartet: Ich habe erwartet, dass die Funktion isNumeric den übergebenen Parameter auswertet und als Resultat entweder 1 oder 0 zurückgibt, je nachdem ob es sich um einen numerischen Wert handelt, oder nicht.

Wie ist das Verhalten: Leider funktioniert die Funktion isNumeric nicht immer richtig – oder noch schlimmer, es werden Fehler geworfen (beim Datentyp date), wo man es absolut nicht erwartet.

Beispiele

T-SQL Code Datentyp Ergebnis Bemerkung
declare @myAttribute as decimal(18,6) = 123456789012.123456; select isnumeric (@myAttribute); decimal 1 korrekt
declare @myAttribute as date = ‚2016-02-17‘; select isnumeric (@myAttribute); date kein Folgender Fehler wird geworden: Msg 8116, Level 16, State 1, Line 8 Argument data type date is invalid for argument 1 of isnumeric function.
declare @myAttribute as datetime = CURRENT_TIMESTAMP; select isnumeric (@myAttribute); datetime 0 korrekt – erstaunlich, dass datetime geht und date nicht …
declare @myAttribute as varchar(12) = ‚Hallo‘; select isnumeric (@myAttribute); varchar 0 korrekt
declare @myAttribute as varchar(12) = ‚4711‘; select isnumeric (@myAttribute); varchar 1 korrekt. D.h. mit isnumeric lassen sich auch varchar-Variablen untersuchen.
declare @myAttribute as varchar(12) = ‚€4711‘; select isnumeric (@myAttribute); varchar 1 korrekt. Trotzdem hätte ich hier evtl. eine 0 erwartet. In der Dokumentation von Microsoft kann man nachlesen, das die führende Zeichen wie +, – sowie Währungssymbole nicht ausgewertet werden.

Nun könnte man ja auf die Idee kommen, zuerst mit der Funktion SQL_VARIANT_PROPERTY den Datentypen zu checken:

declare @myAttribute as date = '2016-02-17'
if SQL_VARIANT_PROPERTY(@myAttribute,'BaseType') not in ('decimal','numeric','float','real','int','bigint','smallint','tinyint','money','smallmoney')
 print 'not a numeric type'
else
 select isnumeric(@myAttribute)

Doch auch hier wird der Ausruck ausgewertet und ein Fehler geworfen:
Msg 8116, Level 16, State 1, Line 6
Argument data type date is invalid for argument 1 of isnumeric function.

Als nächstes habe ich das gleiche mit einem CASE Statement versucht. Aber auch hier gibts eine Fehlermeldung:

declare @myAttribute as date = '2016-02-17'
SELECT
 CASE 
  WHEN SQL_VARIANT_PROPERTY(@myAttribute,'BaseType') 
      not in ('decimal','numeric','float','real','int','bigint','smallint','tinyint','money','smallmoney') THEN 0
  ELSE isnumeric(@myAttribute)
 END AS isAttributeNumeric

Msg 8116, Level 16, State 1, Line 3
Argument data type date is invalid for argument 1 of isnumeric function.

Fazit

Mein Fazit: Die Funktion isNumeric ist mit Vorsicht zu geniessen. Wenn sie eingesetzt wird, dann muss man sehr gut testen. Insbesondere muss sichergestellt werden, dass nie ein Parameter vom Datentyp date an die Funktion übergeben wird. Dann nämlich knallts und ein Fehler wird geworfen.  Falls SQL Server 2012 oder höher eingesetzt wird, gibt es hier eine Empfehlung immer TryParse anstatt isNumeric einzusetzen.