de.phhsnews.com


de.phhsnews.com / Was sind Zeichenkodierungen wie ANSI und Unicode, und wie unterscheiden sie sich?

Was sind Zeichenkodierungen wie ANSI und Unicode, und wie unterscheiden sie sich?


ASCII, UTF-8, ISO-8859 ... Sie haben vielleicht diese seltsamen Moniker herumschweben gesehen, aber was tun Sie meinen eigentlich? Lesen Sie weiter, wenn wir erklären, was Zeichencodierung ist und wie sich diese Akronyme auf den Klartext beziehen, den wir auf dem Bildschirm sehen.

Grundlegende Bausteine ​​

Wenn wir über geschriebene Sprache sprechen, sprechen wir davon, dass Buchstaben die Bausteine ​​von Wörtern sind. die dann Sätze, Absätze und so weiter aufbauen. Buchstaben sind Symbole, die Laute darstellen. Wenn Sie über Sprache sprechen, sprechen Sie über Gruppen von Lauten, die sich zu einer Art von Bedeutung zusammenfinden. Jedes Sprachsystem hat einen komplexen Satz von Regeln und Definitionen, die diese Bedeutungen bestimmen. Wenn Sie ein Wort haben, ist es nutzlos, wenn Sie nicht wissen, aus welcher Sprache es stammt, und Sie verwenden es mit anderen, die diese Sprache sprechen.

(Vergleich von Grantha-, Tulu- und Malayalam-Schriften, Bild aus Wikipedia)

In der Welt von Computern verwenden wir den Begriff "Charakter". Ein Charakter ist eine Art abstraktes Konzept, definiert durch spezifische Parameter, aber es ist die fundamentale Einheit der Bedeutung. Das lateinische "A" ist nicht dasselbe wie ein griechisches "Alpha" oder ein arabisches "Alif", weil sie unterschiedliche Kontexte haben - sie stammen aus verschiedenen Sprachen und haben leicht unterschiedliche Aussprachen - so können wir sagen, dass sie unterschiedliche Charaktere sind. Die visuelle Darstellung eines Zeichens wird als "Glyphe" bezeichnet und verschiedene Sätze von Glyphen werden als Zeichensätze bezeichnet. Gruppen von Zeichen gehören zu einem "Satz" oder einem "Repertoire".

Wenn Sie einen Absatz eingeben und die Schriftart ändern, ändern Sie nicht die phonetischen Werte der Buchstaben. Sie ändern, wie sie aussehen. Es ist nur kosmetisch (aber nicht unwichtig!). Einige Sprachen, wie altägyptisch und chinesisch, haben Ideogramme; diese repräsentieren ganze Ideen anstelle von Lauten, und ihre Aussprache kann über Zeit und Entfernung variieren. Wenn Sie ein Zeichen durch ein anderes ersetzen, ersetzen Sie eine Idee. Es ist mehr als nur das Ändern von Buchstaben, es verändert ein Ideogramm.

Zeichencodierung

(Bild aus Wikipedia)

Wie weiß der Computer, was auf der Tastatur angezeigt wird oder wie eine Datei geladen wird? Dafür ist die Zeichenkodierung zuständig. Text auf Ihrem Computer ist nicht wirklich Buchstaben, es ist eine Reihe von gepaarten alphanumerischen Werten. Die Zeichencodierung fungiert als Schlüssel, für den die Werte den Zeichen entsprechen, ähnlich wie die Orthografie festlegt, welche Töne welchen Buchstaben entsprechen. Morse-Code ist eine Art Zeichencodierung. Es wird erläutert, wie Gruppen langer und kurzer Einheiten wie Pieptöne Zeichen darstellen. Im Morsecode sind die Buchstaben nur englische Buchstaben, Zahlen und Punkte. Es gibt viele Computerzeichencodierungen, die sich in Buchstaben, Zahlen, Akzentzeichen, Interpunktionszeichen, internationale Symbole usw. übersetzen lassen.

Oft wird zu diesem Thema auch der Begriff "Codepages" verwendet. Sie sind im Wesentlichen Zeichencodierungen, wie sie von bestimmten Firmen oft mit leichten Modifikationen verwendet werden. Beispielsweise ist die Windows 1252-Codepage (früher als ANSI 1252 bezeichnet) eine modifizierte Form von ISO-8859-1. Sie werden meist als internes System verwendet, um auf standardisierte und modifizierte Zeichenkodierungen zu verweisen, die für dieselben Systeme spezifisch sind. Schon früh war die Zeichencodierung nicht so wichtig, da Computer nicht miteinander kommunizierten. Mit dem Aufkommen des Internets und dem häufigen Auftreten von Netzwerken wird es immer wichtiger, ohne dass wir es überhaupt merken.

Viele verschiedene Typen

(Bild von Sarah Sosiak)

Es gibt viele verschiedene Zeichencodierungen, und dafür gibt es viele Gründe. Welche Zeichencodierung Sie verwenden möchten, hängt davon ab, welche Bedürfnisse Sie haben. Wenn Sie auf Russisch kommunizieren, ist es sinnvoll, eine Zeichenkodierung zu verwenden, die Kyrillisch gut unterstützt. Wenn du auf Koreanisch kommunizierst, willst du etwas, das Hangul und Hanja gut repräsentiert. Wenn Sie ein Mathematiker sind, dann wollen Sie etwas, das alle wissenschaftlichen und mathematischen Symbole gut vertreten, sowie die griechischen und lateinischen Zeichen. Wenn Sie ein Witzbold sind, würden Sie vielleicht von einem umgedrehten Text profitieren. Und wenn Sie möchten, dass alle diese Arten von Dokumenten von einer bestimmten Person angezeigt werden, möchten Sie eine Codierung, die ziemlich häufig und leicht zugänglich ist.

Sehen wir uns einige der gebräuchlicheren an:

(Auszug der ASCII-Tabelle, Bild von asciitable.com)

  • ASCII - Der American Standard Code für Information Interchange ist eine der älteren Zeichenkodierungen. Es wurde ursprünglich auf der Grundlage von telegraphischen Codes entwickelt und entwickelte sich im Laufe der Zeit, um mehr Symbole und einige inzwischen veraltete, nicht gedruckte Steuerzeichen zu enthalten. Es ist wahrscheinlich so grundlegend, wie Sie es mit modernen Systemen schaffen können, da es sich auf das lateinische Alphabet ohne akzentuierte Zeichen beschränkt. Seine 7-Bit-Kodierung ermöglicht nur 128 Zeichen, weshalb weltweit mehrere inoffizielle Varianten verwendet werden.
  • ISO-8859 - Die am weitesten verbreitete Gruppe von Zeichenkodierungen der International Organization for Standardization ist die Nummer 8859 Jede spezifische Codierung wird durch eine Nummer bezeichnet, der oft ein beschreibender Moniker vorangestellt ist, z ISO-8859-3 (Lateinisch-3), ISO-8859-6 (Lateinisch / Arabisch). Es ist eine Obermenge von ASCII, was bedeutet, dass die ersten 128 Werte in der Codierung die gleichen wie ASCII sind. Es ist jedoch 8-Bit und erlaubt 256 Zeichen, also baut es von dort ab und enthält ein viel breiteres Array von Zeichen, wobei jede spezifische Kodierung sich auf einen anderen Satz von Kriterien konzentriert. Latin-1 enthielt eine Reihe akzentuierter Buchstaben und Symbole, wurde aber später durch eine überarbeitete Reihe namens Latin-9 ersetzt, die aktualisierte Glyphen wie das Euro-Symbol enthält.

(Auszug tibetischer Schrift, Unicode v4, von unicode.org)

  • Unicode - Dieser Kodierungsstandard zielt auf Universalität ab. Es enthält derzeit 93 Skripte in mehreren Blöcken organisiert, mit vielen weiteren in den Werken. Unicode funktioniert anders als andere Zeichensätze darin, dass jeder Wert, anstatt für ein Glyph direkt zu codieren, weiter zu einem "Codepunkt" geleitet wird. Dies sind hexadezimale Werte, die Zeichen entsprechen, aber die Glyphen selbst werden durch das Programm losgelöst bereitgestellt wie Ihr Webbrowser. Diese Codepunkte werden üblicherweise wie folgt dargestellt: U + 0040 (was in "@" übersetzt). Spezifische Codierungen unter dem Unicode-Standard sind UTF-8 und UTF-16. UTF-8 versucht, maximale Kompatibilität mit ASCII zu ermöglichen. Es ist 8-Bit, aber ermöglicht alle Zeichen über einen Substitutionsmechanismus und mehrere Wertepaare pro Zeichen. UTF-16 Gräben perfekte ASCII-Kompatibilität für eine umfassendere 16-Bit-Kompatibilität mit dem Standard.
  • ISO-10646 - Dies ist keine tatsächliche Codierung, nur ein Zeichensatz von Unicode, die von der ISO standardisiert wurde. Es ist hauptsächlich wichtig, weil es das von HTML verwendete Zeichenrepertoire ist. Einige der fortgeschritteneren Funktionen, die von Unicode zur Verfügung gestellt werden und Kollationierung von rechts nach links sowie von links nach rechts ermöglichen, fehlen. Dennoch funktioniert es sehr gut für die Verwendung im Internet, da es die Verwendung einer Vielzahl von Skripten ermöglicht und es dem Browser ermöglicht, die Glyphen zu interpretieren. Das erleichtert die Lokalisierung.

Welche Kodierung sollte ich verwenden?

Nun, ASCII funktioniert für die meisten Englisch-Sprecher, aber nicht für viel mehr. Häufiger sehen Sie ISO-8859-1, das für die meisten westeuropäischen Sprachen funktioniert. Die anderen Versionen von ISO-8859 funktionieren für kyrillische, arabische, griechische oder andere spezifische Skripts. Wenn Sie jedoch mehrere Skripts im selben Dokument oder auf derselben Webseite anzeigen möchten, ermöglicht UTF-8 eine wesentlich bessere Kompatibilität. Es funktioniert auch sehr gut für Leute, die richtige Interpunktion, mathematische Symbole oder aus dem Stegreif Zeichen, wie Quadrate und Checkboxen verwenden.

(Mehrere Sprachen in einem Dokument, Screenshot von gujaratsamachar.com)

Es gibt Nachteile für jeden Satz jedoch. ASCII ist in seinen Interpunktionszeichen begrenzt, so dass es für typografisch korrekte Bearbeitungen nicht besonders gut funktioniert. Haben Sie schon einmal aus Word kopiert / eingefügt, um eine seltsame Kombination von Glyphen zu erhalten? Das ist der Nachteil von ISO-8859, oder korrekter, seine angebliche Interoperabilität mit OS-spezifischen Codepages (wir schauen auf SIE, Microsoft!). Der Hauptnachteil von UTF-8 ist die fehlende Unterstützung bei der Bearbeitung und Veröffentlichung von Anwendungen. Ein anderes Problem besteht darin, dass Browser oft die Byte-Reihenfolge-Markierung eines UTF-8-codierten Zeichens nicht interpretieren und nur anzeigen. Dies führt dazu, dass unerwünschte Glyphen angezeigt werden. Und natürlich deklarieren eine Codierung und die Verwendung von Zeichen aus einer anderen, ohne sie auf einer Webseite richtig deklarieren / referenzieren zu müssen, macht es für Browser schwierig, sie richtig zu rendern und für Suchmaschinen, sie entsprechend zu indizieren.

Für Ihre eigenen Dokumente, Manuskripte usw. können Sie alles verwenden, was Sie für Ihre Arbeit benötigen. Was das Web angeht, so scheint es, dass die meisten Leute damit einverstanden sind, eine UTF-8-Version zu verwenden, die keine Byte-Order-Marke verwendet, aber das ist nicht ganz einstimmig. Wie Sie sehen können, hat jede Zeichencodierung ihre eigene Verwendung, ihren eigenen Kontext und ihre Stärken und Schwächen. Als Endanwender müssen Sie sich wahrscheinlich nicht damit befassen, aber jetzt können Sie den zusätzlichen Schritt ausführen, wenn Sie dies wünschen.


Wie schützt man einen Ordner unter Linux / Unix ohne Verschlüsselung?

Wie schützt man einen Ordner unter Linux / Unix ohne Verschlüsselung?

Wenn Sie keine Dateien auf Ihrem Computer verschlüsseln wollen oder wollen, aber das gelegentliche Snooping abbrechen möchten, was ist das? die beste Methode zum Passwortschutz Ihrer Ordner unter Linux / Unix? Der heutige SuperUser F & A Beitrag hat hilfreiche Antworten auf die Frage eines neugierigen Lesers.

(how-to)

So teilen Sie iWork-Dokumente von iCloud

So teilen Sie iWork-Dokumente von iCloud

Die Möglichkeit, Dokumente gemeinsam zu verwenden, ist in heutigen Office-Anwendungen eine unschätzbare, unterdurchschnittliche Fähigkeit. Die iWork Office-Suite von Apple ist nicht anders, was die Möglichkeit einschließt, nicht nur von OS X, sondern auch von iCloud zu teilen. Heute werden wir diskutieren, wie man iWork-Dokumente einschließlich Pages, Numbers und Keynote-Dateien teilt.

(how-to)