Rubrik: FAQ01.05.04 Der Unicode-Zeichensatz Der Unicode-Zeichensatz ist quasi eine Erweiterung des einfachen 7-bit ASCII-Zeichensatzes. Während der dieser Zeichensatz 128 Zeichen beschreibt, ist es mit dem Unicode-Zeichensatz möglich, sämtliche Zeichen der heute existierenden Schriftsprachen zu kodieren. Auch alte Schriftsprachen, mathematische Formelzeichen, typographische Symbole (Dingbats), allgemeine Symbole, diakritische Zeichen usw. werden heute damit kodiert. Der Unicode-Zeichensatz umfasst somit bis jetzt 1.114.112 Zeichen. Der Unicode-Zeichensatz beschreibt allerdings nicht, wie ein Zeichen auszusehen hat, sondern er definiert Zeichen und ihre Kodierung. Eine Definition lautet beispielsweise LATIN CAPITAL
LETTER A WITH DIAERESIS (lateinischer Großbuchstabe A mit Umlaut) und die entsprechende Kodierung Ein großer Teil der Schriftzeichen ist heute Schriftsprachen schon mit zwei Byte kodierbar. Dieser Kodierungsraum (code space) enthält 65536 Zeichen und wird als Basic Multilingual Plain BMP bezeichnet. Für die Kodierung weiterer Zeichen sind drei Bytes notwendig, mit dem aktuellen Unicode Standard wird sogar eine Kodierung mit vier Byte möglich. Dies entspräche einer möglichen Kodierung von 232 = 4.294.967.296 Zeichen. Der Unicode wird über eine weitere Kodierung, UTF, in eine neue Bytesequenz gebracht, die an die weiter verarbeitenden Programme weiter geleitet wird. Es existieren mehrere Formate des UTF: UTF-5, UTF-7, UTF-8, UTF-16 und UTF-32. Am meisten verbreitet ist das UTF-8 Format, das fast alle Browser, Textverarbeitungsprogramme usw. umsetzen können. Gleichzeitig dient die Angabe Nun ist bei weitem nicht jede beliebige Schriftart automatisch in der Lage, den kompletten Unicode-Zeichensatz auch darzustellen. Insbesondere Fantasieschriftarten wie z.B. Fazit: Wenn mir nun ein Text z.B. in der Arial Unicode vorliegt, aber zusätzlich kyrillische, japanische, chinesische, arabische Zeichen usw. verwendet wurden, wird dieser Text nicht richtig dargestellt, wenn der entsprechende Zeichensatz nicht auf dem Rechner vorhanden ist. Erstelle ich selbst ein Dokument mit diesen fremden Zeichen, so ist es ratsam, bei der Weitergabe dieses Dokumentes auch den Zeichensatz mitzugeben (sofern dies gestattet ist). Nur dann kann der Empfänger das Dokument auch richtig lesen. Diese Seite wurde bereits 5.471 mal aufgerufen. |
TOP! Unser Nr. 1 Neu! sevDataGrid 3.0 Mehrspaltige Listen, mit oder ohne DB-Anbindung. Autom. Sortierung, Editieren von Spalteninhalten oder das interaktive Hinzufügen von Datenzeilen sind ebenso möglich wie das Erstellen eines Web-Reports. Buchempfehlung Tipp des Monats April 2024 Skyfloy Chart von Microsoft und dazu noch gratis Tutorial für Microsoft Chart Controls für Microsoft .NET Framework 3.5 TOP Entwickler-Paket TOP-Preis!! Mit der Developer CD erhalten Sie insgesamt 24 Entwickler- komponenten und Windows-DLLs. Die Einzelkomponenten haben einen Gesamtwert von 1605.50 EUR... |
|||
Microsoft, Windows und Visual Basic sind entweder eingetragene Marken oder Marken der Microsoft Corporation in den USA und/oder anderen Ländern. Weitere auf dieser Homepage aufgeführten Produkt- und Firmennamen können geschützte Marken ihrer jeweiligen Inhaber sein. |