ASCII, UTF-8, ISO-8859 ... Sie haben vielleicht diese seltsamen Moniker herumschweben gesehen, aber was tun Sie meinen eigentlich? Lesen Sie weiter, wenn wir erklären, was Zeichencodierung ist und wie sich diese Akronyme auf den Klartext beziehen, den wir auf dem Bildschirm sehen.
Wenn wir über geschriebene Sprache sprechen, sprechen wir davon, dass Buchstaben die Bausteine von Wörtern sind. die dann Sätze, Absätze und so weiter aufbauen. Buchstaben sind Symbole, die Laute darstellen. Wenn Sie über Sprache sprechen, sprechen Sie über Gruppen von Lauten, die sich zu einer Art von Bedeutung zusammenfinden. Jedes Sprachsystem hat einen komplexen Satz von Regeln und Definitionen, die diese Bedeutungen bestimmen. Wenn Sie ein Wort haben, ist es nutzlos, wenn Sie nicht wissen, aus welcher Sprache es stammt, und Sie verwenden es mit anderen, die diese Sprache sprechen.
(Vergleich von Grantha-, Tulu- und Malayalam-Schriften, Bild aus Wikipedia)
In der Welt von Computern verwenden wir den Begriff "Charakter". Ein Charakter ist eine Art abstraktes Konzept, definiert durch spezifische Parameter, aber es ist die fundamentale Einheit der Bedeutung. Das lateinische "A" ist nicht dasselbe wie ein griechisches "Alpha" oder ein arabisches "Alif", weil sie unterschiedliche Kontexte haben - sie stammen aus verschiedenen Sprachen und haben leicht unterschiedliche Aussprachen - so können wir sagen, dass sie unterschiedliche Charaktere sind. Die visuelle Darstellung eines Zeichens wird als "Glyphe" bezeichnet und verschiedene Sätze von Glyphen werden als Zeichensätze bezeichnet. Gruppen von Zeichen gehören zu einem "Satz" oder einem "Repertoire".
Wenn Sie einen Absatz eingeben und die Schriftart ändern, ändern Sie nicht die phonetischen Werte der Buchstaben. Sie ändern, wie sie aussehen. Es ist nur kosmetisch (aber nicht unwichtig!). Einige Sprachen, wie altägyptisch und chinesisch, haben Ideogramme; diese repräsentieren ganze Ideen anstelle von Lauten, und ihre Aussprache kann über Zeit und Entfernung variieren. Wenn Sie ein Zeichen durch ein anderes ersetzen, ersetzen Sie eine Idee. Es ist mehr als nur das Ändern von Buchstaben, es verändert ein Ideogramm.
(Bild aus Wikipedia)
Wie weiß der Computer, was auf der Tastatur angezeigt wird oder wie eine Datei geladen wird? Dafür ist die Zeichenkodierung zuständig. Text auf Ihrem Computer ist nicht wirklich Buchstaben, es ist eine Reihe von gepaarten alphanumerischen Werten. Die Zeichencodierung fungiert als Schlüssel, für den die Werte den Zeichen entsprechen, ähnlich wie die Orthografie festlegt, welche Töne welchen Buchstaben entsprechen. Morse-Code ist eine Art Zeichencodierung. Es wird erläutert, wie Gruppen langer und kurzer Einheiten wie Pieptöne Zeichen darstellen. Im Morsecode sind die Buchstaben nur englische Buchstaben, Zahlen und Punkte. Es gibt viele Computerzeichencodierungen, die sich in Buchstaben, Zahlen, Akzentzeichen, Interpunktionszeichen, internationale Symbole usw. übersetzen lassen.
Oft wird zu diesem Thema auch der Begriff "Codepages" verwendet. Sie sind im Wesentlichen Zeichencodierungen, wie sie von bestimmten Firmen oft mit leichten Modifikationen verwendet werden. Beispielsweise ist die Windows 1252-Codepage (früher als ANSI 1252 bezeichnet) eine modifizierte Form von ISO-8859-1. Sie werden meist als internes System verwendet, um auf standardisierte und modifizierte Zeichenkodierungen zu verweisen, die für dieselben Systeme spezifisch sind. Schon früh war die Zeichencodierung nicht so wichtig, da Computer nicht miteinander kommunizierten. Mit dem Aufkommen des Internets und dem häufigen Auftreten von Netzwerken wird es immer wichtiger, ohne dass wir es überhaupt merken.
(Bild von Sarah Sosiak)
Es gibt viele verschiedene Zeichencodierungen, und dafür gibt es viele Gründe. Welche Zeichencodierung Sie verwenden möchten, hängt davon ab, welche Bedürfnisse Sie haben. Wenn Sie auf Russisch kommunizieren, ist es sinnvoll, eine Zeichenkodierung zu verwenden, die Kyrillisch gut unterstützt. Wenn du auf Koreanisch kommunizierst, willst du etwas, das Hangul und Hanja gut repräsentiert. Wenn Sie ein Mathematiker sind, dann wollen Sie etwas, das alle wissenschaftlichen und mathematischen Symbole gut vertreten, sowie die griechischen und lateinischen Zeichen. Wenn Sie ein Witzbold sind, würden Sie vielleicht von einem umgedrehten Text profitieren. Und wenn Sie möchten, dass alle diese Arten von Dokumenten von einer bestimmten Person angezeigt werden, möchten Sie eine Codierung, die ziemlich häufig und leicht zugänglich ist.
Sehen wir uns einige der gebräuchlicheren an:
(Auszug der ASCII-Tabelle, Bild von asciitable.com)
(Auszug tibetischer Schrift, Unicode v4, von unicode.org)
Nun, ASCII funktioniert für die meisten Englisch-Sprecher, aber nicht für viel mehr. Häufiger sehen Sie ISO-8859-1, das für die meisten westeuropäischen Sprachen funktioniert. Die anderen Versionen von ISO-8859 funktionieren für kyrillische, arabische, griechische oder andere spezifische Skripts. Wenn Sie jedoch mehrere Skripts im selben Dokument oder auf derselben Webseite anzeigen möchten, ermöglicht UTF-8 eine wesentlich bessere Kompatibilität. Es funktioniert auch sehr gut für Leute, die richtige Interpunktion, mathematische Symbole oder aus dem Stegreif Zeichen, wie Quadrate und Checkboxen verwenden.
(Mehrere Sprachen in einem Dokument, Screenshot von gujaratsamachar.com)
Es gibt Nachteile für jeden Satz jedoch. ASCII ist in seinen Interpunktionszeichen begrenzt, so dass es für typografisch korrekte Bearbeitungen nicht besonders gut funktioniert. Haben Sie schon einmal aus Word kopiert / eingefügt, um eine seltsame Kombination von Glyphen zu erhalten? Das ist der Nachteil von ISO-8859, oder korrekter, seine angebliche Interoperabilität mit OS-spezifischen Codepages (wir schauen auf SIE, Microsoft!). Der Hauptnachteil von UTF-8 ist die fehlende Unterstützung bei der Bearbeitung und Veröffentlichung von Anwendungen. Ein anderes Problem besteht darin, dass Browser oft die Byte-Reihenfolge-Markierung eines UTF-8-codierten Zeichens nicht interpretieren und nur anzeigen. Dies führt dazu, dass unerwünschte Glyphen angezeigt werden. Und natürlich deklarieren eine Codierung und die Verwendung von Zeichen aus einer anderen, ohne sie auf einer Webseite richtig deklarieren / referenzieren zu müssen, macht es für Browser schwierig, sie richtig zu rendern und für Suchmaschinen, sie entsprechend zu indizieren.
Für Ihre eigenen Dokumente, Manuskripte usw. können Sie alles verwenden, was Sie für Ihre Arbeit benötigen. Was das Web angeht, so scheint es, dass die meisten Leute damit einverstanden sind, eine UTF-8-Version zu verwenden, die keine Byte-Order-Marke verwendet, aber das ist nicht ganz einstimmig. Wie Sie sehen können, hat jede Zeichencodierung ihre eigene Verwendung, ihren eigenen Kontext und ihre Stärken und Schwächen. Als Endanwender müssen Sie sich wahrscheinlich nicht damit befassen, aber jetzt können Sie den zusätzlichen Schritt ausführen, wenn Sie dies wünschen.
Wie schützt man einen Ordner unter Linux / Unix ohne Verschlüsselung?
Wenn Sie keine Dateien auf Ihrem Computer verschlüsseln wollen oder wollen, aber das gelegentliche Snooping abbrechen möchten, was ist das? die beste Methode zum Passwortschutz Ihrer Ordner unter Linux / Unix? Der heutige SuperUser F & A Beitrag hat hilfreiche Antworten auf die Frage eines neugierigen Lesers.
So teilen Sie iWork-Dokumente von iCloud
Die Möglichkeit, Dokumente gemeinsam zu verwenden, ist in heutigen Office-Anwendungen eine unschätzbare, unterdurchschnittliche Fähigkeit. Die iWork Office-Suite von Apple ist nicht anders, was die Möglichkeit einschließt, nicht nur von OS X, sondern auch von iCloud zu teilen. Heute werden wir diskutieren, wie man iWork-Dokumente einschließlich Pages, Numbers und Keynote-Dateien teilt.