UTF-8

UTF-8

Copyright © Shutterstock/TippaPatt

Was ist UTF-8?

UTF-8 ist die Abk√ľrzung f√ľr den Begriff “8-Bit UCS Transformation Format”. Auf Deutsch bedeutet dies “Universelles 8-Bit-Zeichensatz-Umwandlungs-Format”. Es ist das am weitesten verbreitete¬†Unicode-Format f√ľr das Speichern und √úbertragen von Textdaten. Es l√∂st zunehmend die bisherigen ASCII- und ANSI-Zeichens√§tze ab und hat sich als Quasi-Standard f√ľr HTML-Dateien und andere Textdaten etabliert. F√ľr die weltweite Zeichenkodierung hat UTF-8 eine zentrale Bedeutung.

Zeichencodierung ‚Äď von ASCII zu Unicode

Damit der Computer Texte verarbeiten kann, m√ľssen die Buchstaben und Zeichen in Bits und Bytes codiert werden. F√ľr die Codierung haben sich verschiedene Standards entwickelt, die genau bestimmen, welche Bitfolgen welchen Zeichen entsprechen. Da die Computertechnik anfangs ausschlie√ülich englischsprachig funktionierte, war lange Zeit der ASCII-Zeichensatz der dominierende Standard. Aus historischen Gr√ľnden verwendet ASCII nur die letzten sieben Bits eines 8-Bit-Bytes, wodurch sich 128 unterschiedliche Zeichen darstellen lie√üen.

Um auch nicht englischsprachige Texte verarbeiten zu k√∂nnen, wurde ASCII um die sogenannten ANSI-Zeichens√§tze erweitert. Sie verwenden das ganze 8-Bit-Byte und erlauben die Codierung von 256 Zeichen. Da es viele verschiedene Sprachen mit unterschiedlichen Alphabeten gibt, entstanden mehrere zueinander inkompatible ANSI-Zeichens√§tze ‚Äď beispielsweise f√ľr westeurop√§ische, osteurop√§ische und kyrillische Sprachen.

Tipp

Wenn Sie noch Fragen bez√ľglich Bytes haben, dann k√∂nnen Sie gerne den jeweiligen Glossar dazu besuchen und sich √ľber das Thema informieren.

Die zunehmende Internationalisierung der Computertechnik und das Internet machten eine weltweit einheitliche Codierung nötig. So erschien 1991 die erste 16-Bit-Version des Unicode-Standards, der 1996 zum heutigen Umfang mit 1.112.064 möglichen Zeichen erweitert wurde. Der Zeichenvorrat ist groß genug, sodass alle Sprachen und viele zusätzliche Symbole enthalten sind.

Unicode und UTF-8

Unicode ist zun√§chst ein abstraktes Konzept, dass auf sogenannten Codepoints basiert. In vielen Sprachen gibt es Zeichenkombinationen, die einen eigenst√§ndigen Buchstaben bilden ‚Äď beispielsweise die franz√∂sischen Accents. Codepoints entsprechen einzelnen Buchstaben, Zeichenkombinationen oder Teilen davon. Unicode weist jedem Codepoint eine Nummer zu, definiert aber nicht, wie diese zu codieren sind. Daf√ľr kommen die UTF-Codierungen zum Einsatz.

UTF steht f√ľr Unicode Transportation Format und bezeichnet konkrete Speicher- und √úbertragungsformate f√ľr Unicode-Texte. Die verschiedenen UTF-Codierungen spezifizieren, wie die Codepoint-Nummern in Form von Bits und Bytes darzustellen sind. Die direkteste M√∂glichkeit Unicode zu codieren ist UTF-32, welches jeden Codepoint in 32 Bits sprich 4 Bytes ‚Äď speichert. Der Nachteil dieser Methode ist die gro√üe Speicherplatz-Verschwendung bei Texten, die vornehmlich aus dem lateinischen Alphabet bestehen.

Um den Speicherverbrauch zu optimieren, haben sich Formate mit variabler Codierung durchgesetzt. Sie speichern häufig vorkommende Zeichen in wenigen und seltene Zeichen in vielen Bytes. Während UTF-16 zwei bis vier Bytes verwendet, speichert UTF-8 die häufigsten Zeichen in nur einem Byte. Obwohl UTF-16 den besten Kompromiss aus Speicherbedarf und Geschwindigkeit liefert, hat sich UTF-8 durchgesetzt, da es ASCII-kompatibel ist. Die ersten 128 Zeichen der UTF-8-Codierung entsprechen genau dem 7-Bit-ASCII-Zeichensatz, sodass reine ASCII-Texte keine Konvertierung erfordern.

UTF-8 im Web und bei E-Mails

Prinzipiell lassen sich Webseiten und E-Mails in allen bekannten Zeichens√§tzen speichern und √ľbertragen. HTML-Dateien und E-Mails enthalten Metadaten, welche die verwendete Codierung angeben, sodass die Programme auf Empf√§ngerseite wissen, wie die Inhalte zu decodieren sind. Jedoch funktioniert das nicht immer und mit allen Programmen. Daher ist eine einheitliche Codierung ratsam, um unn√∂tige Konvertierungen sowie Kompatibilit√§ts- und Darstellungsprobleme zu vermeiden. Sowohl das Internet Mail Consortium (IMC) als auch das Word Wide Web Consortium (W3C) empfehlen UTF-8 f√ľr alle E-Mails und Web-Dateien zu verwenden.

Tipp

Wenn Sie noch Fragen bez√ľglich eines Online Marketing Themas haben, dann k√∂nnen Sie gerne unseren Glossar besuchen und sich √ľber das Thema informieren, wo Sie noch speziell Fragen haben.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte