Version: 1.3
Last-modified: 1997-12-18
Posting-frequency: monthly
URL: http://www.westfalen.de/paefken/de.newusers/umlaute-faq.txt
Autor: Christof Awater <christof@paefken.westfalen.de>
Umlaute in E-Mail und Netnews
FAQ fuer de.newusers.questions
1) E-Mail und Netnews.
2) Wo ist das Problem?
3) Welche technischen Voraussetzungen muss ein Newsreader
erfuellen?
4) Welche News-/Mailreader koennen mit Umlauten umgehen?
5) Was soll ich tun, wenn mein Programm dies nicht kann?
6) Weiterfuehrende Literatur.
7) Copyright / GNU GPL / Dank
----------------------------------------------------------
1) E-Mail und Netnews.
----------------------
Diese FAQ gibt eine Einfuehrung in die Problematik von
Umlauten und anderen Sonderzeichen in E-Mail und
Netnews. Obwohl beide Kommunikationstechniken eigentlich
unabhaengig voneinander sind, entsteht bei beiden die
gleiche Problematik und dementsprechend ergeben sich
auch gemeinsame Loesungsmoeglichkeiten.
2) Wo ist das Problem?
----------------------
Im Usenet arbeiten viele verschiedene Computer mit sehr
unterschiedlicher Hardware und unterschiedlichen
Betriebssystemen zusammen. Deshalb mussten sich anfangs
die Betreiber der Rechner einigen, welcher Zeichensatz
und Zeichenkodierung verwendet werden sollte, also
welcher Buchstabe gemeint ist, wenn ein bestimmtes Byte
weitergegeben wird.
Dabei einigte man sich als kleinsten gemeinsamen Nenner
auf US-ASCII (american standard code of information
interchange). US-ASCII ist eine 7-Bit-Zeichenkodierung.
Das heisst, dass nur 127 Zeichen zur Verfuegung stehen,
waehrend eine 8-Bit-Zeichenkodierung 256 Zeichen zur
Verfuegung stellt. Dabei stellt beispielsweise die
(dezimale) Zahl 97 ein kleines a dar, die Zahl 98 ein
kleines b usw. US-ASCII enthaelt alle Buchstaben a-z,
A-Z, alle Ziffern 0-9 sowie einige wenige Sonderzeichen,
jedoch keine deutschen Umlaute. Dies war anfangs keine
grosse Einschraenkung, da ueberall Englisch gesprochen
wurde, wozu keine Umlaute und in der Regel auch keine
Sonderzeichen benoetigt werden.
Als sich das Usenet auch im deutschsprachigen Bereich
ausdehnte, fingen die Benutzer an, die deutschen Umlaute
mit ae, oe, ue und ss bzw sz zu umschreiben. Sehr
verbreitet war (und ist) auch die TeX-Schreibweise "a "o
und "u.
Zwar koennen inzwischen alle Computer Umlaute
darstellen, jedoch werden die nicht in US-ASCII
enthaltenen Zeichen teilweise unterschiedlich kodiert,
wodurch auf anderen Computern teilweise andere als die
gemeinten Zeichen dargestellt werden. Jeder
Windows-Benutzer (ANSI-Zeichenkodierung) kann dies
beobachten, wenn er einen unter MS-DOS geschriebenen
Text (meist code page 850) unter Windows ansieht.
Niemandem sollte ein Vorwurf gemacht werden, weil er
Umschreibungen fuer Umlaute wie z.B. "ae" verwendet.
Aehnliches gilt fuer die TeX-Schreibweise. Genausowenig
sollte jemand kritisiert werden, weil er Umlaute oder
Sonderzeichen verwendet, die der unten beschriebenen
korrekten Form genuegen.
3) Welche technischen Vorraussetzungen muss ein
Newsreader erfuellen?
------------------------------------------------
Der von 1992 stammende und in RfC 2045-2049 definierte
MIME-Standard (Multipurpose Internet Mail Extension)
gilt heute als die allgemein akzeptierte
Loesungsmoeglichkeit. Er beruht darauf, dass die
verwendete Zeichenkodierung im Header eines Artikels
angegeben ("deklariert") wird und dass 8bit-Zeichen
gegebenenfalls durch US-ASCII-Zeichen kodiert werden.
Das Programm des Empfaengers kann aufgrund dieser
Angaben erkennen, welches Zeichen tatsaechlich gemeint
war und dieses entsprechend darstellen.
Allerdings muss man zwischen Umlauten im Body (also dem
eigentlichen Text) und im Header (also Subject, From,
Organization, ...) differenzieren:
1. Umlaute im Body:
Dazu muss das Programm des Absenders folgendes in den
Header eines Artikels einfuegen:
1.1 eine Zeile "Content-Type:". Dort steht
1.1.1 der Daten-Typ, der verwendet wird. Ueblich
ist "text/plain", also einfacher Text.
1.1.2 der Zeichensatz, der verwendet wird. Alle
deutschen Umlaute befinden sich
beispielsweise in dem in Westeuropa
ueblichen Zeichensatz ISO-8859-1. Ausser
den deutschen Umlauten enthaelt er auch
alle Sonderzeichen der romanischen und
skandinavischen Sprachen. Dieser
Zeichensatz wird haeufig auch als Latin1
bezeichnet.
1.2 Eine Zeile "Content-Transfer-Encoding:".
Hier gibt es 3 Moeglichkeiten
1.2.1 8bit
Dabei werden die Umlaute einfach
unveraendert im Body gelassen. Das Programm
des Empfaengers weiss aus der
Content-Type-Zeile, in welchem Zeichensatz
diese Zeichen gemeint waren.
Diese in den Netnews meist benutzte
Moeglichkeit hat den Vorteil, dass auch
Leute mit Programmen ohne
Umlaut-Moeglichkeiten etwas damit anfangen
koennen, wenn (!) sie zufaellig den
gleichen Zeichensatz verwenden.
1.2.2 quoted-printable
Dabei werden die Umlaute in
7-Bit-Zeichenfolgen wie =D0 kodiert.
Diese Methode hat den Vorteil, dass sie
etwas sicherer ist, weil nur 7bit-Zeichen
vorkommen. Besonders beim Eintritt in Netze
mit anderen Uebertragungsstandards (Maus,
Fido) koennen Probleme mit 8bit-Zeichen
auftreten.
1.2.3 base64
Diese Form der Kodierung wird normalerweise
nur fuer Binaries (also Dateien jeglicher
Art, die nicht aus reinem Text bestehen)
verwendet.
1.3 eine Zeile "Mime-Version: 1.0" sollte
vorhanden sein.
2. Umlaute im Header:
Im Header duerfen keine 8-Bit-Zeichen stehen. Deshalb
werden hier Umlaute vom Newsreader kodiert und die
entsprechende Zeichenkodierung dazugeschrieben. Dies
sieht dann beispielsweise so aus:
Subject: =?ISO-8859-1?Q?L=FCsung?= des Umlautproblems
Da diese Kodierung immer nur US-ASCII-Zeichen
enthaelt, ist gewaehrleistet, dass kein 8-Bit-Code
im Header vorkommt, wie es die RfCs vorschreiben.
4) Welche News-/Mailreader koennen mit Umlauten umgehen?
---------------------------------------------------------
Die folgenden News- und Mailreader in ihrer jeweils
neusten Version beherrschen den korrekten Umgang mit
Umlauten sofern sie korrekt konfiguriert wurden:
AK-Mail, CrossPoint, Forte Agent, knews, MacSOUP,
Microsoft Internet News, Microsoft Outlook Express,
Netscape Navigator/Communikator, Mutt, Pegasus Mail,
pine, slrn, tin.
Forte Free Agent sowie Anawave Gravity koennen es nicht.
Ob es Dein Programm kann, solltest Du in der Anleitung
nachlesen koennen.
5) Was soll ich tun, wenn mein Programm dies nicht kann?
---------------------------------------------------------
Wenn Dein Programm nicht mit Umlauten umgehen kann, gibt
es verschiedene Moeglichkeiten, dieses Problem zu
umgehen:
a) Am sinnvollsten ist es sicherlich, sich Software zu
besorgen, die dem Standard entspricht. Vielleicht
gibt es auch eine aktuellere Version Deiner Software,
die inzwischen mit Umlauten umgehen kann. Du kannst
auch den Hersteller oder den Autor des Programms per
E-Mail darum bitten eine entsprechende Funktion in
die Software einzubauen.
b) Wenn die Software dies zulaesst, kannst Du die
erforderlichen Deklarationen per Hand in den Header
einfuegen und Umlaute ggf. kodieren. Dies ist jedoch
sehr umstaendlich.
c) Wenn Du selbst ein neues Subject schreibst, solltest
Du die Umlaute mit ae, ue, oe oder in der
TeX-Schreibweise umschreiben.
d) Beim Antworten auf ein ordnungsgemaess kodiertes
Subject (=?ISO...) solltest Du dieses genau so
lassen, wie Du es empfangen hat. Der Empfaenger des
eigenen Textes kann das Subject anschliessend wieder
dekodieren. Dies entspricht im Prinzip b).
e) Du kannst die Umlaute im Body eines Artikels mit ae,
oe und ue umschreiben. Dies muss dann jedoch auch mit
Text gemacht werden, den Du lediglich zitiert.
6) Weiterfuehrende Literatur
-----------------------------
Kostis, K.
"Umlaute im deutschsprachigen Usenet FAQ",
de.comp.standards, de.answers,
http://www.kostis.net/de/faq/umlaute/
Freed, N.; Borenstein, N.
RFC 2045: "Multipurpose Internet Mail Extensions,
Part One: Format of Internet Message Bodies",
ftp://ftp.fu-berlin.de/doc/rfc/rfc2045.txt
Freed, N.; Borenstein, N.
RFC 2046: "Multipurpose Internet Mail Extensions,
Part Two: Media Types",
ftp://ftp.fu-berlin.de/doc/rfc/rfc2046.txt
Moore, K.
RFC 2047: "Multipurpose Internet Mail Extensions,
Part Three: Message Header Extensions for Non-ASCII
Text", ftp://ftp.fu-berlin.de/doc/rfc/rfc2047.txt
Freed, N.; Borenstein, N.
RFC 2049: "Multipurpose Internet Mail Extensions,
Part Five: Conformance Criteria and Examples",
ftp://ftp.fu-berlin.de/doc/rfc/rfc2049.txt
In der Gruppe de.comp.standards lesen auch immer User
mit, die weitere Fragen beantworten koennen.
7) Copyright / GNU GPL / Dank
------------------------------
Umlaute in E-Mail und Netnews
FAQ fuer de.newusers.questions
Copyright 1997
Christof Awater
Dieser Text ist urheberrechtlich geschuetzt. Der Text
darf gemaess der GNU General Public License Version 2
oder einer spaeteren Version kostenlos ueber
elektronische wie auch physikalische Medien verbreitet
werden, solange dieser Copyright Hinweis nicht
entfernt wird.
Eine Kopie der GNU General Public License kann bezogen
ueber die Free Software Foundation, Inc., 675 Mass Ave,
Cambridge, MA 02139, USA.
Mein Dank fuer die Hilfe bei der Ausarbeitung dieses
Textes geht an
Dirk Nimmich
Hermann Roth
Werner Icking
Zippo Zimmermann
sowie alle anderen, die mir dabei geholfen haben.
Anregungen, Kommentare und Verbesserungsvorschlaege sind
jederzeit willkommen.
--
Christof Awater