Version: 1.3
Last-modified: 1997-12-18
Posting-frequency: monthly
URL: http://www.westfalen.de/paefken/de.newusers/umlaute-faq.txt
Autor: Christof Awater <christof@paefken.westfalen.de>

           Umlaute in E-Mail und Netnews
           FAQ fuer de.newusers.questions

1) E-Mail und Netnews.
2) Wo ist das Problem?
3) Welche technischen Voraussetzungen muss ein Newsreader
   erfuellen?
4) Welche News-/Mailreader koennen mit Umlauten umgehen?
5) Was soll ich tun, wenn mein Programm dies nicht kann? 
6) Weiterfuehrende Literatur.
7) Copyright / GNU GPL / Dank
----------------------------------------------------------

1)  E-Mail und Netnews.
----------------------
    Diese FAQ gibt eine Einfuehrung in die Problematik von
    Umlauten und anderen Sonderzeichen in E-Mail und
    Netnews. Obwohl beide Kommunikationstechniken eigentlich
    unabhaengig voneinander sind, entsteht bei beiden die
    gleiche Problematik und dementsprechend ergeben sich
    auch gemeinsame Loesungsmoeglichkeiten.

2)  Wo ist das Problem?
----------------------
    Im Usenet arbeiten viele verschiedene Computer mit sehr 
    unterschiedlicher Hardware und unterschiedlichen
    Betriebssystemen zusammen. Deshalb mussten sich anfangs
    die Betreiber der Rechner einigen, welcher Zeichensatz
    und Zeichenkodierung verwendet werden sollte, also
    welcher Buchstabe gemeint ist, wenn ein bestimmtes Byte
    weitergegeben wird.

    Dabei einigte man sich als kleinsten gemeinsamen Nenner
    auf US-ASCII (american standard code of information
    interchange). US-ASCII ist eine 7-Bit-Zeichenkodierung.
    Das heisst, dass nur 127 Zeichen zur Verfuegung stehen,
    waehrend eine 8-Bit-Zeichenkodierung 256 Zeichen zur
    Verfuegung stellt. Dabei stellt beispielsweise die
    (dezimale) Zahl 97 ein kleines a dar, die Zahl 98 ein
    kleines b usw. US-ASCII enthaelt alle Buchstaben a-z,
    A-Z, alle Ziffern 0-9 sowie einige wenige Sonderzeichen,
    jedoch keine deutschen Umlaute. Dies war anfangs keine
    grosse Einschraenkung, da ueberall Englisch gesprochen
    wurde, wozu keine Umlaute und in der Regel auch keine
    Sonderzeichen benoetigt werden.

    Als sich das Usenet auch im deutschsprachigen Bereich
    ausdehnte, fingen die Benutzer an, die deutschen Umlaute
    mit ae, oe, ue und ss bzw sz zu umschreiben. Sehr
    verbreitet war (und ist) auch die TeX-Schreibweise "a "o
    und "u. 

    Zwar koennen inzwischen alle Computer Umlaute
    darstellen, jedoch werden die nicht in US-ASCII
    enthaltenen Zeichen teilweise unterschiedlich kodiert,
    wodurch auf anderen Computern teilweise andere als die
    gemeinten Zeichen dargestellt werden. Jeder
    Windows-Benutzer (ANSI-Zeichenkodierung) kann dies
    beobachten, wenn er einen unter MS-DOS geschriebenen
    Text (meist code page 850) unter Windows ansieht.

    Niemandem sollte ein Vorwurf gemacht werden, weil er
    Umschreibungen fuer Umlaute wie z.B. "ae" verwendet.
    Aehnliches gilt fuer die TeX-Schreibweise. Genausowenig
    sollte jemand kritisiert werden, weil er Umlaute oder
    Sonderzeichen verwendet, die der unten beschriebenen
    korrekten Form genuegen.

3)  Welche technischen Vorraussetzungen muss ein
    Newsreader erfuellen?
------------------------------------------------
    Der von 1992 stammende und in RfC 2045-2049 definierte
    MIME-Standard (Multipurpose Internet Mail Extension)
    gilt heute als die allgemein akzeptierte
    Loesungsmoeglichkeit. Er beruht darauf, dass die
    verwendete Zeichenkodierung im Header eines Artikels
    angegeben ("deklariert") wird und dass 8bit-Zeichen
    gegebenenfalls durch US-ASCII-Zeichen kodiert werden.
    Das Programm des Empfaengers kann aufgrund dieser
    Angaben erkennen, welches Zeichen tatsaechlich gemeint
    war und dieses entsprechend darstellen.

    Allerdings muss man zwischen Umlauten im Body (also dem
    eigentlichen Text) und im Header (also Subject, From,
    Organization, ...) differenzieren:  

    1. Umlaute im Body:

       Dazu muss das Programm des Absenders folgendes in den
       Header eines Artikels einfuegen:

       1.1 eine Zeile "Content-Type:". Dort steht

           1.1.1 der Daten-Typ, der verwendet wird. Ueblich
                 ist "text/plain", also einfacher Text.

           1.1.2 der Zeichensatz, der verwendet wird. Alle
                 deutschen Umlaute befinden sich
                 beispielsweise in dem in Westeuropa
                 ueblichen Zeichensatz ISO-8859-1. Ausser
                 den deutschen Umlauten enthaelt er auch
                 alle Sonderzeichen der romanischen und
                 skandinavischen Sprachen. Dieser
                 Zeichensatz wird haeufig auch als Latin1
                 bezeichnet.

       1.2 Eine Zeile "Content-Transfer-Encoding:".
           Hier gibt es 3 Moeglichkeiten

           1.2.1 8bit
                 Dabei werden die Umlaute einfach
                 unveraendert im Body gelassen. Das Programm
                 des Empfaengers weiss aus der
                 Content-Type-Zeile, in welchem Zeichensatz
                 diese Zeichen gemeint waren.

                 Diese in den Netnews meist benutzte
                 Moeglichkeit hat den Vorteil, dass auch
                 Leute mit Programmen ohne
                 Umlaut-Moeglichkeiten etwas damit anfangen
                 koennen, wenn (!) sie zufaellig den
                 gleichen Zeichensatz verwenden.

           1.2.2 quoted-printable
                 Dabei werden die Umlaute in
                 7-Bit-Zeichenfolgen wie =D0 kodiert.

                 Diese Methode hat den Vorteil, dass sie
                 etwas sicherer ist, weil nur 7bit-Zeichen
                 vorkommen. Besonders beim Eintritt in Netze
                 mit anderen Uebertragungsstandards (Maus,
                 Fido) koennen Probleme mit 8bit-Zeichen 
                 auftreten.

           1.2.3 base64
                 Diese Form der Kodierung wird normalerweise
                 nur fuer Binaries (also Dateien jeglicher
                 Art, die nicht aus reinem Text bestehen)
                 verwendet.

           1.3 eine Zeile "Mime-Version: 1.0" sollte
               vorhanden sein. 

    2. Umlaute im Header:

       Im Header duerfen keine 8-Bit-Zeichen stehen. Deshalb
       werden hier Umlaute vom Newsreader kodiert und die
       entsprechende Zeichenkodierung dazugeschrieben. Dies
       sieht dann beispielsweise so aus:

       Subject: =?ISO-8859-1?Q?L=FCsung?= des Umlautproblems

       Da diese Kodierung immer nur US-ASCII-Zeichen
       enthaelt, ist gewaehrleistet, dass kein 8-Bit-Code
       im Header vorkommt, wie es die RfCs vorschreiben.

4)  Welche News-/Mailreader koennen mit Umlauten umgehen?
---------------------------------------------------------
    Die folgenden News- und Mailreader in ihrer jeweils
    neusten Version beherrschen den korrekten Umgang mit
    Umlauten sofern sie korrekt konfiguriert wurden:

    AK-Mail, CrossPoint, Forte Agent, knews, MacSOUP,
    Microsoft Internet News, Microsoft Outlook Express,
    Netscape Navigator/Communikator, Mutt, Pegasus Mail,
    pine, slrn, tin.

    Forte Free Agent sowie Anawave Gravity koennen es nicht.

    Ob es Dein Programm kann, solltest Du in der Anleitung
    nachlesen koennen.

5)  Was soll ich tun, wenn mein Programm dies nicht kann? 
---------------------------------------------------------
    Wenn Dein Programm nicht mit Umlauten umgehen kann, gibt
    es verschiedene Moeglichkeiten, dieses Problem zu
    umgehen:

    a) Am sinnvollsten ist es sicherlich, sich Software zu
       besorgen, die dem Standard entspricht. Vielleicht
       gibt es auch eine aktuellere Version Deiner Software,
       die inzwischen mit Umlauten umgehen kann. Du kannst
       auch den Hersteller oder den Autor des Programms per
       E-Mail darum bitten eine entsprechende Funktion in
       die Software einzubauen.

    b) Wenn die Software dies zulaesst, kannst Du die
       erforderlichen Deklarationen per Hand in den Header
       einfuegen und Umlaute ggf. kodieren. Dies ist jedoch
       sehr umstaendlich.
 
    c) Wenn Du selbst ein neues Subject schreibst, solltest
       Du die Umlaute mit ae, ue, oe oder in der
       TeX-Schreibweise umschreiben.

    d) Beim Antworten auf ein ordnungsgemaess kodiertes
       Subject (=?ISO...) solltest Du dieses genau so
       lassen, wie Du es empfangen hat. Der Empfaenger des
       eigenen Textes kann das Subject anschliessend wieder
       dekodieren. Dies entspricht im Prinzip b).
 
    e) Du kannst die Umlaute im Body eines Artikels mit ae,
       oe und ue umschreiben. Dies muss dann jedoch auch mit
       Text gemacht werden, den Du lediglich zitiert.

6)  Weiterfuehrende Literatur
-----------------------------
    Kostis, K.
        "Umlaute im deutschsprachigen Usenet FAQ",
        de.comp.standards, de.answers,
        http://www.kostis.net/de/faq/umlaute/

    Freed, N.; Borenstein, N.
        RFC 2045: "Multipurpose Internet Mail Extensions,
        Part One: Format of Internet Message Bodies",
        ftp://ftp.fu-berlin.de/doc/rfc/rfc2045.txt

    Freed, N.; Borenstein, N.
        RFC 2046: "Multipurpose Internet Mail Extensions,
        Part Two: Media Types",
        ftp://ftp.fu-berlin.de/doc/rfc/rfc2046.txt

    Moore, K.
        RFC 2047: "Multipurpose Internet Mail Extensions,
        Part Three: Message Header Extensions for Non-ASCII
        Text", ftp://ftp.fu-berlin.de/doc/rfc/rfc2047.txt

    Freed, N.; Borenstein, N.
        RFC 2049: "Multipurpose Internet Mail Extensions,
        Part Five: Conformance Criteria and Examples",
        ftp://ftp.fu-berlin.de/doc/rfc/rfc2049.txt

    In der Gruppe de.comp.standards lesen auch immer User
    mit, die weitere Fragen beantworten koennen.

7)  Copyright / GNU GPL / Dank
------------------------------
    Umlaute in E-Mail und Netnews
    FAQ fuer de.newusers.questions
    Copyright 1997
    Christof Awater 
    
    Dieser Text ist urheberrechtlich geschuetzt. Der Text
    darf gemaess der GNU General Public License Version 2
    oder einer spaeteren Version kostenlos ueber 
    elektronische wie auch physikalische Medien verbreitet
    werden, solange dieser Copyright Hinweis nicht
    entfernt wird.

    Eine Kopie der GNU General Public License kann bezogen
    ueber die Free Software Foundation, Inc., 675 Mass Ave,
    Cambridge, MA 02139, USA.

    Mein Dank fuer die Hilfe bei der Ausarbeitung dieses
    Textes geht an 

    Dirk Nimmich     
    Hermann Roth     
    Werner Icking    
    Zippo Zimmermann 

    sowie alle anderen, die mir dabei geholfen haben.
    Anregungen, Kommentare und Verbesserungsvorschlaege sind 
    jederzeit willkommen.

-- 
Christof Awater