H2O

H2O

Copyright © Shutterstock / Outflow_Designs

Was ist H2O?

H2O ist eine Open-Source Software und dient der Analyse großer Datenmengen. Produziert wird es von dem Unternehmen H2O.ai. Mit dieser Software können Benutzer Tausende von möglichen Modellen anpassen, um Muster in Daten zu entdecken.

Die H2O-Softwareläufe können aus dem Statistikpaket R, Python und anderen Umgebungen aufgerufen werden. Es wird zu Untersuchung und Analyse von Datensätzen verwendet, die in Cloud-Computing-Systemen und im Apache Headoop Distributed File System sowie in den herkömmlichen Betriebssystemen wie Linux, MacOS und Microsoft Windows gespeichert sind. Die Software ist in Java, Python und R geschrieben. Ihre grafische Benutzeroberfläche ist mit vier Browsern kompatibel, nämlich Chrome, Safari, Firefox und dem Internet Explorer.

Ziel

Das Projekt zielt darauf ab, eine analytische Schnittstelle für Cloud-Computing zu entwickeln, die Benutzern Tools (Werkzeuge) für die Datenanalyse zur Verfügung stellt. Die Software ist ein Open-Source und frei verteilt. Das Unternehmen erhält Gebühren für die Bereitstellung des Kundenservices und von kundenspezifischen Erweiterungen.

Big Data

Große Datensätze (Big Data) sind zu groß, um mit herkömmlicher Software wie R analysiert zu werden. die H2O-Software bietet Datenstrukturen und -methoden, die für große Daten geeignet sind. Mit dieser Software können Benutzer ganze Datensätze analysieren und visualisieren, ohne die sog. Procrustean-Strategie verwenden zu müssen, bei der nur eine kleine Teilmenge mit einem herkömmlichen statistischen Paket untersucht wird. Zu den statistischen Algorithmen gehören K-Means-Clustering, generalisierte lineare Modelle, verteilte-Random-Forests, naive Bayes, Hauptkomponenten-Analyse sowie generalisierte Low-Rank-Modelle. Die Software kann auch mit Spark ausgeführt werden.

Definition Big Data

Es handelt sich um einen Begriff, der verwendet wird, um sich auf Datensätze zu beziehen, die zu groß oder zu komplex sind, um mit herkömmlicher Datenverarbeitungs-Anwendungssoftware angemessen umzugehen. Daten mit vielen Fällen (Zeilen) bieten eine größere statistische Leistung, während Daten mit höherer Komplexität (mehr Attribute oder Spalten) zu einer höheren Entdeckungsrate führen können.

Methoden für Echtzeitprobleme

H2O verwendet iterative Methoden, die mit allen Daten des Kunden schnelle Antworten liefern. Wenn ein Client nicht auf eine optimale Lösung warten kann, kann er die Berechnungen unterbrechen und eine ungefähre Lösung verwenden. Die Software teilt in ihrem Ansatz des tiefen Lernens alle Daten in Teilmengen auf und analysiert dann jede Teilmenge gleichzeitig mit derselben Methode.

Diese Prozesse werden kombiniert, um Parameter mithilfe des Hogwild-Schemas zu schätzen, einer parallelen Gradientenmethode. Diese Methoden ermöglichen es H2O, Antworten zu liefern, die alle Daten des Kunden verwenden, anstatt das meiste davon wegzuwerfen und eine Teilmenge mit herkömmlicher Software zu analysieren.

Software

Die H2O-Software verfügt über eine Schnittstelle zu folgenden Programmiersprachen: Java (6 oder höher), Python, R und Scala. Zudem kann die Software auf herkömmlichen Betriebssystemen ausgeführt werden: Microsoft Windows (7 oder höher), Mac OS X (10.9 oder höher) und Linux (Ubuntu 12.04 oder höher). Ferner läuft es auch auf Big-Data-Systeme, insbesondere das verteilte Dateisystem von Apache Hadoop (HDFS), mehrere beliebte Versionen wie Cloudera (5.1 oder höher), MapR (3.0 oder höher) und Hortonworks (HDP 2.1 oder höher). Es funktioniert auch in Cloud-Computing-Umgebungen, wie z.B. mit Amazon EC2, Google Compute Engine und Microsoft Azure. Die H2O Sparkling Water-Software ist für Apache Spark mit Databricks zertifiziert.

 


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte