H2O

H2O

Copyright ┬ę Shutterstock / Outflow_Designs

Was ist H2O?

H2O ist eine Open-Source Software und dient der Analyse gro├čer Datenmengen. Produziert wird es von dem Unternehmen H2O.ai. Mit dieser Software k├Ânnen Benutzer Tausende von m├Âglichen Modellen anpassen, um Muster in Daten zu entdecken.

Die H2O-Softwarel├Ąufe k├Ânnen aus dem Statistikpaket R, Python und anderen Umgebungen aufgerufen werden. Es wird zu Untersuchung und Analyse von Datens├Ątzen verwendet, die in Cloud-Computing-Systemen und im Apache Headoop Distributed File System sowie in den herk├Âmmlichen Betriebssystemen wie Linux, MacOS und Microsoft Windows gespeichert sind. Die Software ist in┬áJava, Python und R geschrieben. Ihre grafische Benutzeroberfl├Ąche ist mit vier Browsern kompatibel, n├Ąmlich Chrome, Safari, Firefox und dem Internet Explorer.

Ziel

Das Projekt zielt darauf ab, eine analytische Schnittstelle f├╝r Cloud-Computing zu entwickeln, die Benutzern Tools (Werkzeuge) f├╝r die Datenanalyse zur Verf├╝gung stellt. Die Software ist ein Open-Source und frei verteilt. Das Unternehmen erh├Ąlt Geb├╝hren f├╝r die Bereitstellung des Kundenservices und von kundenspezifischen Erweiterungen.

Big Data

Gro├če Datens├Ątze (Big Data) sind zu gro├č, um mit herk├Âmmlicher Software wie R analysiert zu werden. die H2O-Software bietet Datenstrukturen und -methoden, die f├╝r gro├če Daten geeignet sind. Mit dieser Software k├Ânnen Benutzer ganze Datens├Ątze analysieren und visualisieren, ohne die sog. Procrustean-Strategie verwenden zu m├╝ssen, bei der nur eine kleine Teilmenge mit einem herk├Âmmlichen statistischen Paket untersucht wird. Zu den statistischen Algorithmen geh├Âren K-Means-Clustering, generalisierte lineare Modelle, verteilte-Random-Forests, naive Bayes, Hauptkomponenten-Analyse sowie generalisierte Low-Rank-Modelle. Die Software kann auch mit Spark ausgef├╝hrt werden.

Definition Big Data

Es handelt sich um einen Begriff, der verwendet wird, um sich auf Datens├Ątze zu beziehen, die zu gro├č oder zu komplex sind, um mit herk├Âmmlicher Datenverarbeitungs-Anwendungssoftware angemessen umzugehen. Daten mit vielen F├Ąllen (Zeilen) bieten eine gr├Â├čere statistische Leistung, w├Ąhrend Daten mit h├Âherer Komplexit├Ąt (mehr Attribute oder Spalten) zu einer h├Âheren Entdeckungsrate f├╝hren k├Ânnen.

Methoden f├╝r Echtzeitprobleme

H2O verwendet iterative Methoden, die mit allen Daten des Kunden schnelle Antworten liefern. Wenn ein Client nicht auf eine optimale L├Âsung warten kann, kann er die Berechnungen unterbrechen und eine ungef├Ąhre L├Âsung verwenden. Die Software teilt in ihrem Ansatz des tiefen Lernens alle Daten in Teilmengen auf und analysiert dann jede Teilmenge gleichzeitig mit derselben Methode.

Diese Prozesse werden kombiniert, um Parameter mithilfe des Hogwild-Schemas zu sch├Ątzen, einer parallelen Gradientenmethode. Diese Methoden erm├Âglichen es H2O, Antworten zu liefern, die alle Daten des Kunden verwenden, anstatt das meiste davon wegzuwerfen und eine Teilmenge mit herk├Âmmlicher Software zu analysieren.

Software

Die H2O-Software verf├╝gt ├╝ber eine Schnittstelle zu folgenden Programmiersprachen: Java (6 oder h├Âher), Python, R und Scala. Zudem kann die Software auf herk├Âmmlichen Betriebssystemen ausgef├╝hrt werden: Microsoft Windows (7 oder h├Âher), Mac OS X (10.9 oder h├Âher) und Linux (Ubuntu 12.04 oder h├Âher). Ferner l├Ąuft es auch auf Big-Data-Systeme, insbesondere das verteilte Dateisystem von Apache Hadoop (HDFS), mehrere beliebte Versionen wie Cloudera (5.1 oder h├Âher), MapR (3.0 oder h├Âher) und Hortonworks (HDP 2.1 oder h├Âher). Es funktioniert auch in Cloud-Computing-Umgebungen, wie z.B. mit Amazon EC2, Google Compute Engine und Microsoft Azure. Die H2O Sparkling Water-Software ist f├╝r Apache Spark mit Databricks zertifiziert.

 


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte