Big Data Analyse

Analyse großer Mengen von Daten in Echtzeit = Big Data

Der Begriff "Big Data" ist in aller Munde, dennoch bleibt er für viele artifiziell, nicht faßbar oder schwer vorstellbar. Sprechen wir von "großen Datenmengen", so gilt es sich von bekannten Maßstäben an Datenmengen, wie man sie zum Beispiel vom heimischen PC her kennt, komplett zu lösen.

So gesehen bleibt Big Data all denen vorbehalten die:

  • Große Datenmengen erzeugen
  • Komplexe Datenmengen generieren
  • Dynamische Datenmengen erstellen

und die zur Auswertung analysiert und verarbeitet werden sollen. So betrachtet beschäftigt sich "BigData" mit den Technologien zur Analyse großer Datenmengen, nicht mehr und nicht weniger.

Wo fallen große Datenmengen an und wie läßt sich von Big Data profitieren ?

Spätestens mit Einführung des Mobilfunknetzes erzeugen wir überall Daten, jeder einzelne von uns, der mit einem Mobiltelefon oder Smartphone ausgestattet ist, hinterläßt hierbei seine digitalen Spuren bei den Netzbetreibern, z.B. wenn er von der einen Funkzelle in eine andere wechselt. Aus Perspektive eines Netzbetreibers widerum kann eine Erhebung und Auswertung dieser großen Datenmengen dazu dienen, Schwachstellen in der Netzinfrastruktur zu erkennen und diese zu beheben um die Qualität des Service zu erhöhen. Dies exemplarische Beispiel gilt für jegliche Form großer Datenmengen. Durch die Analyse und Auswertung von Big-Data lassen sich komplexe Größen in Relation setzen und liefern somit die Antworten und Schlußfolgerungen auf entsprechende unternehmerische Fragen.

Aus diesem Grunde sollte eine entsprechende Big Data Analysesoftware auch über entsprechende Schnittstellen zur Visualisierung in den gängigsten Business-Intelligence Tools verfügen.

Big Data im Unternehmen

Selbst in kleinen- und mittelständischen Unternehmen können große Datenmengen bis hinein in den Big-Data Bereich anfallen. Zwar sind die Definitionsgrößen fließend, jedoch gilt in der Praxis die Regel, dass ab folgender Anzahl von großen Datenmengen und Datenströmen gesprochen wird:

Datenmengen > 100 Mio. Einträgen, > 100 GB.

Innerhalb der IT eines Unternehmens beginnen die regelmäßig anfallenden Daten schon mit betreten des Unternehmens, z.B. im Rahmen von Zeiterfassungsmaßnahmen der eigenen Mitarbeiter oder je nach Mitarbeiterzahl durch die Protokolle jedes einzelnen Telefons, PCs und der hierauf eingesetzen Software inkl. webbasierter Anwendungen im Unternehmen, ferner jegliche Art von sensorischen Systemen wie bspw. RFID in der Warenwirtschaft, Kameras, Mikrofone, etc. Große Datenmengen fallen in unterschiedlichsten Branchen an, sei es im Gesundheitswesen, der Wissenschaft, Finanzwesen oder innerhalb des Ingenieurswesens und nicht zuletzt im wohl wichtigsten Zukunftsbereich: Der Industrie 4.0.

Daten sind nicht gleich Daten - Daten haben unterschiedliche Charakteristika

Daten- oder Datensätze gibt es sowohl in unstrukturierter, wie auch strukturierter Form. Was sich im Grundsatz zunächst einmal wenig dramatisch anhört, stellt sich für viele Analyseprogramme im jedoch als Herausforderung dar, denn üblicherweise sind die meisten Analyseprogramme nicht in der Lage mit unstrukturierten Daten umgehen zu können. Unstrukturierte Daten finden sich häufig in exportierten Logs- und Protokollen wieder. Um diese adäquat analysieren zu können benötigen diese unstrukturierten Daten eine "Normalisierung". Ein Beispiel anhand eines unstrukturierten Apache Web-Server Log-Eintrags:

2011-01-10 10:05:03 H0 0.0.0.1 GET

Nach Durchführung des Normalisierungsprozesses werden die unstrukturierten Daten, in ein strukturiertes und somit später zur Analyse verständliches Format gebracht:

Date

Time

Host name

IP

method

2011-01-10

10:05:03

H0

0.0.0.1

GET

Unsere Analysesoftware LogDrill tut dies in einer Geschwindigkeit von derzeit 130.000 Zeilen / Sek. pro CPU-Knoten und zieht danach entsprechende ähnliche Log-Einträge heraus (Je nach Abfrage z.B. identische Hostnamen, Ip-Adressen, etc.). Hierfür ist keine zusätzliche Hardwareanschaffung erforderlich, ein Notebook mit Netzwerkanschluß genügt. 5 Billionen dieser Einträge entsprechen einer Größe von ca. 1 TB und lassen sich mittels LogDrill innerhalb einer Sekunde abfragen. Abfragen wiederum lassen sich in der Praxis wie eine Matrix, auf bestimmte wiederkehrende Muster- und Prozesse innerhalb eines Unternehmens legen. Diese wiederkehrenden Prozesse können somit automatisch überwacht und analysiert werden, so z.B. bei Fehllogons oder Netzwerkzugriffen durch Dritte und lassen sich somit nicht nur zur Analyse, sondern auch zum Echtzeit-Monitoring für bestimmte Anwendungsgebiete innerhalb der IT-Sicherheit anwenden.

Big Data Analyse mit LogDrill und PetaPylon

Für die Analyse von unstrukturierten und strukturierten Daten bieten wir unseren Kunden zwei Lösungen:

Analyse und Normalisierung von Protokolldaten in Echtzeit mit LogDrill

PetaPylon - Big Data Warehouse Appliance

LogDrill

Schnellste und ressourceneffiziente Analyse unstrukturierter Daten & Normalisierung

PetaPylon

Big Data Warehouse

  • MOLAP Technologie
  • Spezielles und schnelles Text-Processing
  • Cube-basierende Abfragemethodik
  • Abfragen-Export via:
    • CSV, PDF, HTML, DOCX, ZIP oder TXT.
  • Benutzer-Administration
    • Hinzufügen von Benutzern und Rollen
  • Konfigurierbares Dashboard
  • Einfache Bedienung, intuitive Benutzeroberfläche, Drag´n Drop Funktionalität
  • Schnell, sicher und konfigurierbar, sowie preiswert.
  • Hadoop-Technologie
  • Skalierbar, zuverlässig und preiswert
  • Daten-Managementlösung f. ERP, CRM, Business Intelligence
  • SQL-Schnittstelle
  • Analyse von TeraByte-Daten innerhalb weniger Sekunden
    • ETL Engine erlaubt Zugriff auf die aktuellsten Daten mit nur wenigen Sekunden Latenz
  • Big Log Management
  • Sammeln, normalisieren und auswerten im TB/Tag-Bereich
  • Interaktive ad-hoc Analyse & Reporting