UTF-8

Inhaltsverzeichnis

Was ist UTF-8?

Definition

UTF-8 ist die Abkürzung für den Begriff “8-Bit UCS Transformation Format”. Auf Deutsch bedeutet dies “Universelles 8-Bit-Zeichensatz-Umwandlungs-Format”. Es ist das am weitesten verbreitete Unicode-Format für das Speichern und Übertragen von Textdaten. Es löst zunehmend die bisherigen ASCII- und ANSI-Zeichensätze ab und hat sich als Quasi-Standard für HTML-Dateien und andere Textdaten etabliert. Für die weltweite Zeichenkodierung hat UTF-8 eine zentrale Bedeutung.

Zeichencodierung – von ASCII zu Unicode

Damit der Computer Texte verarbeiten kann, müssen die Buchstaben und Zeichen in Bits und Bytes codiert werden. Für die Codierung haben sich verschiedene Standards entwickelt, die genau bestimmen, welche Bitfolgen welchen Zeichen entsprechen.

Da die Computertechnik anfangs ausschließlich englischsprachig funktionierte, war lange Zeit der ASCII-Zeichensatz der dominierende Standard. Aus historischen Gründen verwendet ASCII nur die letzten sieben Bits eines 8-Bit-Bytes, wodurch sich 128 unterschiedliche Zeichen darstellen ließen.

Um auch nicht englischsprachige Texte verarbeiten zu können, wurde ASCII um die sogenannten ANSI-Zeichensätze erweitert. Sie verwenden das ganze 8-Bit-Byte und erlauben die Codierung von 256 Zeichen. Da es viele verschiedene Sprachen mit unterschiedlichen Alphabeten gibt, entstanden mehrere zueinander inkompatible ANSI-Zeichensätze – beispielsweise für westeuropäische, osteuropäische und kyrillische Sprachen.

Tipp

Wenn Sie noch Fragen bezüglich Bytes haben, dann können Sie gerne den jeweiligen Glossar dazu besuchen und sich über das Thema informieren.

Die zunehmende Internationalisierung der Computertechnik und das Internet machten eine weltweit einheitliche Codierung nötig. So erschien 1991 die erste 16-Bit-Version des Unicode-Standards, der 1996 zum heutigen Umfang mit 1.112.064 möglichen Zeichen erweitert wurde. Der Zeichenvorrat ist groß genug, sodass alle Sprachen und viele zusätzliche Symbole enthalten sind.

Unicode und UTF-8

Unicode ist zunächst ein abstraktes Konzept, dass auf sogenannten Codepoints basiert. In vielen Sprachen gibt es Zeichenkombinationen, die einen eigenständigen Buchstaben bilden – beispielsweise die französischen Accents. Codepoints entsprechen einzelnen Buchstaben, Zeichenkombinationen oder Teilen davon. Unicode weist jedem Codepoint eine Nummer zu, definiert aber nicht, wie diese zu codieren sind. Dafür kommen die UTF-Codierungen zum Einsatz.

UTF steht für Unicode Transportation Format und bezeichnet konkrete Speicher- und Übertragungsformate für Unicode-Texte. Die verschiedenen UTF-Codierungen spezifizieren, wie die Codepoint-Nummern in Form von Bits und Bytes darzustellen sind. Die direkteste Möglichkeit Unicode zu codieren ist UTF-32, welches jeden Codepoint in 32 Bits sprich 4 Bytes – speichert. Der Nachteil dieser Methode ist die große Speicherplatz-Verschwendung bei Texten, die vornehmlich aus dem lateinischen Alphabet bestehen.

Um den Speicherverbrauch zu optimieren, haben sich Formate mit variabler Codierung durchgesetzt. Sie speichern häufig vorkommende Zeichen in wenigen und seltene Zeichen in vielen Bytes. Während UTF-16 zwei bis vier Bytes verwendet, speichert UTF-8 die häufigsten Zeichen in nur einem Byte. Obwohl UTF-16 den besten Kompromiss aus Speicherbedarf und Geschwindigkeit liefert, hat sich UTF-8 durchgesetzt, da es ASCII-kompatibel ist. Die ersten 128 Zeichen der UTF-8-Codierung entsprechen genau dem 7-Bit-ASCII-Zeichensatz, sodass reine ASCII-Texte keine Konvertierung erfordern.

UTF-8 im Web und bei E-Mails

Prinzipiell lassen sich Webseiten und E-Mails in allen bekannten Zeichensätzen speichern und übertragen. HTML-Dateien und E-Mails enthalten Metadaten, welche die verwendete Codierung angeben, sodass die Programme auf Empfängerseite wissen, wie die Inhalte zu decodieren sind. Jedoch funktioniert das nicht immer und mit allen Programmen.

Daher ist eine einheitliche Codierung ratsam, um unnötige Konvertierungen sowie Kompatibilitäts- und Darstellungsprobleme zu vermeiden. Sowohl das Internet Mail Consortium (IMC) als auch das Word Wide Web Consortium (W3C) empfehlen UTF-8 für alle E-Mails und Web-Dateien zu verwenden.

Tipp

Wenn Sie noch Fragen bezüglich eines Online Marketing Themas haben, dann können Sie gerne unseren Glossar besuchen und sich über das Thema informieren, wo Sie noch speziell Fragen haben.

Sie haben noch Fragen?

Kontaktieren Sie uns