vb@rchiv
VB Classic
VB.NET
ADO.NET
VBA
C#
Brandneu! sevEingabe v3.0 - Das Eingabecontrol der Superlative!  
 vb@rchiv Quick-Search: Suche startenErweiterte Suche starten   Impressum  | Datenschutz  | vb@rchiv CD Vol.6  | Shop Copyright ©2000-2024
 
zurück
Rubrik: FAQ01.05.04

Der Unicode-Zeichensatz

Der Unicode-Zeichensatz ist quasi eine Erweiterung des einfachen 7-bit ASCII-Zeichensatzes. Während der dieser Zeichensatz 128 Zeichen beschreibt, ist es mit dem Unicode-Zeichensatz möglich, sämtliche Zeichen der heute existierenden Schriftsprachen zu kodieren. Auch alte Schriftsprachen, mathematische Formelzeichen, typographische Symbole (Dingbats), allgemeine Symbole, diakritische Zeichen usw. werden heute damit kodiert. Der Unicode-Zeichensatz umfasst somit bis jetzt 1.114.112 Zeichen.

Der Unicode-Zeichensatz beschreibt allerdings nicht, wie ein Zeichen auszusehen hat, sondern er definiert Zeichen und ihre Kodierung. Eine Definition lautet beispielsweise LATIN CAPITAL LETTER A WITH DIAERESIS (lateinischer Großbuchstabe A mit Umlaut) und die entsprechende Kodierung dez 196 bzw. hex 00C4. Wie dieses Zeichen auf dem Bildschirm oder auf Papier dargestellt wird, bleibt der verwendeten Software und der installierten Schriften überlassen.

Ein großer Teil der Schriftzeichen ist heute Schriftsprachen schon mit zwei Byte kodierbar. Dieser Kodierungsraum (code space) enthält 65536 Zeichen und wird als Basic Multilingual Plain BMP bezeichnet. Für die Kodierung weiterer Zeichen sind drei Bytes notwendig, mit dem aktuellen Unicode Standard wird sogar eine Kodierung mit vier Byte möglich. Dies entspräche einer möglichen Kodierung von 232 = 4.294.967.296 Zeichen.

Der Unicode wird über eine weitere Kodierung, UTF, in eine neue Bytesequenz gebracht, die an die weiter verarbeitenden Programme weiter geleitet wird. Es existieren mehrere Formate des UTF: UTF-5, UTF-7, UTF-8, UTF-16 und UTF-32. Am meisten verbreitet ist das UTF-8 Format, das fast alle Browser, Textverarbeitungsprogramme usw. umsetzen können. Gleichzeitig dient die Angabe UTF-8 in meta-tags von Webseiten und den Kodierungseinstellungen der Browser der Kenntlichmachung des verwandten Zeichensatzes.

Nun ist bei weitem nicht jede beliebige Schriftart automatisch in der Lage, den kompletten Unicode-Zeichensatz auch darzustellen. Insbesondere Fantasieschriftarten wie z.B. Parchment decken in der Regel höchstens den Latin-1 Zeichensatz oder die ISO-8859 Gruppe ab.

Fazit:

Wenn mir nun ein Text z.B. in der Arial Unicode vorliegt, aber zusätzlich kyrillische, japanische, chinesische, arabische Zeichen usw. verwendet wurden, wird dieser Text nicht richtig dargestellt, wenn der entsprechende Zeichensatz nicht auf dem Rechner vorhanden ist.

Erstelle ich selbst ein Dokument mit diesen fremden Zeichen, so ist es ratsam, bei der Weitergabe dieses Dokumentes auch den Zeichensatz mitzugeben (sofern dies gestattet ist). Nur dann kann der Empfänger das Dokument auch richtig lesen.

Diese Seite wurde bereits 5.485 mal aufgerufen.

nach obenzurück
 
   

Druckansicht Druckansicht Copyright ©2000-2024 vb@rchiv Dieter Otter
Alle Rechte vorbehalten.
Microsoft, Windows und Visual Basic sind entweder eingetragene Marken oder Marken der Microsoft Corporation in den USA und/oder anderen Ländern. Weitere auf dieser Homepage aufgeführten Produkt- und Firmennamen können geschützte Marken ihrer jeweiligen Inhaber sein.

Diese Seiten wurden optimiert für eine Bildschirmauflösung von mind. 1280x1024 Pixel