UTF-8

Was ist UTF-8?

UTF-8 ist die Abk├╝rzung f├╝r den Begriff “8-Bit UCS Transformation Format”. Auf Deutsch bedeutet dies “Universelles 8-Bit-Zeichensatz-Umwandlungs-Format”. Es ist das am weitesten verbreitete┬áUnicode-Format f├╝r das Speichern und ├ťbertragen von Textdaten. Es l├Âst zunehmend die bisherigen ASCII- und ANSI-Zeichens├Ątze ab und hat sich als Quasi-Standard f├╝r HTML-Dateien und andere Textdaten etabliert. F├╝r die weltweite Zeichenkodierung hat UTF-8 eine zentrale Bedeutung.

Zeichencodierung ÔÇô von ASCII zu Unicode

Damit der Computer Texte verarbeiten kann, m├╝ssen die Buchstaben und Zeichen in Bits und Bytes codiert werden. F├╝r die Codierung haben sich verschiedene Standards entwickelt, die genau bestimmen, welche Bitfolgen welchen Zeichen entsprechen. Da die Computertechnik anfangs ausschlie├člich englischsprachig funktionierte, war lange Zeit der ASCII-Zeichensatz der dominierende Standard. Aus historischen Gr├╝nden verwendet ASCII nur die letzten sieben Bits eines 8-Bit-Bytes, wodurch sich 128 unterschiedliche Zeichen darstellen lie├čen.

Um auch nicht englischsprachige Texte verarbeiten zu k├Ânnen, wurde ASCII um die sogenannten ANSI-Zeichens├Ątze erweitert. Sie verwenden das ganze 8-Bit-Byte und erlauben die Codierung von 256 Zeichen. Da es viele verschiedene Sprachen mit unterschiedlichen Alphabeten gibt, entstanden mehrere zueinander inkompatible ANSI-Zeichens├Ątze ÔÇô beispielsweise f├╝r westeurop├Ąische, osteurop├Ąische und kyrillische Sprachen.

Tipp

Wenn Sie noch Fragen bez├╝glich Bytes haben, dann k├Ânnen Sie gerne den jeweiligen Glossar dazu besuchen und sich ├╝ber das Thema informieren.

Die zunehmende Internationalisierung der Computertechnik und das Internet machten eine weltweit einheitliche Codierung n├Âtig. So erschien 1991 die erste 16-Bit-Version des Unicode-Standards, der 1996 zum heutigen Umfang mit 1.112.064 m├Âglichen Zeichen erweitert wurde. Der Zeichenvorrat ist gro├č genug, sodass alle Sprachen und viele zus├Ątzliche Symbole enthalten sind.

Unicode und UTF-8

Unicode ist zun├Ąchst ein abstraktes Konzept, dass auf sogenannten Codepoints basiert. In vielen Sprachen gibt es Zeichenkombinationen, die einen eigenst├Ąndigen Buchstaben bilden ÔÇô beispielsweise die franz├Âsischen Accents. Codepoints entsprechen einzelnen Buchstaben, Zeichenkombinationen oder Teilen davon. Unicode weist jedem Codepoint eine Nummer zu, definiert aber nicht, wie diese zu codieren sind. Daf├╝r kommen die UTF-Codierungen zum Einsatz.

UTF steht f├╝r Unicode Transportation Format und bezeichnet konkrete Speicher- und ├ťbertragungsformate f├╝r Unicode-Texte. Die verschiedenen UTF-Codierungen spezifizieren, wie die Codepoint-Nummern in Form von Bits und Bytes darzustellen sind. Die direkteste M├Âglichkeit Unicode zu codieren ist UTF-32, welches jeden Codepoint in 32 Bits sprich 4 Bytes ÔÇô speichert. Der Nachteil dieser Methode ist die gro├če Speicherplatz-Verschwendung bei Texten, die vornehmlich aus dem lateinischen Alphabet bestehen.

Um den Speicherverbrauch zu optimieren, haben sich Formate mit variabler Codierung durchgesetzt. Sie speichern h├Ąufig vorkommende Zeichen in wenigen und seltene Zeichen in vielen Bytes. W├Ąhrend UTF-16 zwei bis vier Bytes verwendet, speichert UTF-8 die h├Ąufigsten Zeichen in nur einem Byte. Obwohl UTF-16 den besten Kompromiss aus Speicherbedarf und Geschwindigkeit liefert, hat sich UTF-8 durchgesetzt, da es ASCII-kompatibel ist. Die ersten 128 Zeichen der UTF-8-Codierung entsprechen genau dem 7-Bit-ASCII-Zeichensatz, sodass reine ASCII-Texte keine Konvertierung erfordern.

UTF-8 im Web und bei E-Mails

Prinzipiell lassen sich Webseiten und E-Mails in allen bekannten Zeichens├Ątzen speichern und ├╝bertragen. HTML-Dateien und E-Mails enthalten Metadaten, welche die verwendete Codierung angeben, sodass die Programme auf Empf├Ąngerseite wissen, wie die Inhalte zu decodieren sind. Jedoch funktioniert das nicht immer und mit allen Programmen. Daher ist eine einheitliche Codierung ratsam, um unn├Âtige Konvertierungen sowie Kompatibilit├Ąts- und Darstellungsprobleme zu vermeiden. Sowohl das Internet Mail Consortium (IMC) als auch das Word Wide Web Consortium (W3C) empfehlen UTF-8 f├╝r alle E-Mails und Web-Dateien zu verwenden.

Tipp

Wenn Sie noch Fragen bez├╝glich eines Online Marketing Themas haben, dann k├Ânnen Sie gerne unseren Glossar besuchen und sich ├╝ber das Thema informieren, wo Sie noch speziell Fragen haben.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte