Ingemars infall: Svårt tyda tecknen i sajberrymden -- del 2
Nej det är inte alltid lätt att förstå tecknen i cyberspace. Alla har vi någon gång fått e-post som varit nerlusad med skräptecken istället för våra egna svenska å, ä och ö. Varför blir det så? Och vad gör man åt det? Ingemars infall har svar på bägge frågorna. Del 1 kunde du läsa i förra numret av Björns Blandning. Del 2 följer här.
Internet accepterar inte åttabitarsformat. När du skickar ett e-brev över Internet hanteras det enligt föreskrifterna i ett av alla de protokoll som upprättats för att möjliggöra den binära trafiken, nämligen Simple mail transfer protocol, SMTP, upprättat i början av 80-talet, långt innan Internet blev var mans egendom.
I SMTP stadgas bland annat att om inget annat anges förväntas innehållet i brevet bestå av 7- bitars US-ASCII! I och med Internetboomen blev problemet med olika teckenuppsättningar uppenbart.
E-postmeddelanden skrivs i olika system och även på andra språk än engelska. Dessutom är nästan alla bifogade filer i åtta-bitarsformat, så kallade binärfiler, filer som innehåller formaterad text, kalkylark, bilder, ljud och film. För att kunna sändas över Internet måste därför binärfiler kodas till sjubitarsformat för att sedan kodas tillbaka till åttabitarsformat hos mottagaren. Utvecklingen accentuerade behovet av en övergripande standard!
För att överbrygga problemen med de olika teckentabellerna har man skapat en standard, MIME (Multiple Internet Mail Extensions) som alla nyare e-postprogram har inkluderat i programvaran. MIME använder teckentabellen Latin-1 (ISO 8859-1) och tekniken bygger på att det avsändande e-postprogrammet kodar om åttabitarstecknen till sju bitar enligt ett givet system. Det mottagande e-postprogrammet avkodar meddelandet enligt samma system, så att det återgår till åttabitarsformatet. MIME, QP och Base 64 MIME är ingenting annat än en samling överenskommelser som programtillverkarna förbundit sig att följa.
Två vanliga system som ingår i MIME är QP (Quoted-Printable) och Base64. QP går ut på att åttabitarstecken som t ex å, ä och ö konverteras till tre sjubitarstecken: "=" följt av tecknets nummer i teckentabellen, uttryckt i
det hexadecimala talsystemet. Tecken på plats nummer 229, dvs vårt "å", skrivs då som =E5.
QP kodar endast om de tecken som kan bli fel, dvs tecken som ligger på postition 128--255.
I ett vanligt e-postmeddelande behöver därför bara ett fåtal tecken kodas om och storlekspåverkan i kilobyte räknat är försumbar. Därför är QP det bästa alternativet för själva e-postmeddelandet.
Om de data som ska skickas innehåller stora mängder åttabitarsdata, som till exempel en bifogad bild- eller ljudfil, måste Base64-kodning användas. Base64 kodar hela meddelandet. Detta system är mer elaborerat och komplicerat, men tar mindre utrymme i anspråk.
Men även "enkla" textfiler som bifogas kan ställa till problem. De som använder Microsoft Word (och det gör ju de flesta) har någon gång stött på mysteriet att mottagaren fått en fil just med oläsliga tecken istället för den rappt skrivna artikel avsändaren skickat. Och detta trots att både sändare och mottagare har samma version av Word och samma operativsystem.
Mysteriets enkla svar är protokollrelaterat: Wordfiler med suffixet .doc (till skillnad från rena textfiler, med suffixet .txt, som man också kan skapa i Word) lägger till en överraskande stor mängd styrkoder för formatering av texten (indrag, textstil, tabeller, färg, etc) och dessa styrkoder är till 100 % binära, de använder alltså 8-bitars data.
Sändaren måste alltså alltid se till att i sitt e-postprogram ange att bifogade filer ska kodas med Base64 (detta är oftast förvalt) och mottagaren måste ha ett program för att läsa sin e-post som är modernt nog att kunna avkoda meddelandet.
Ingemar Härd ingemar.hard(snabel-a)bahnhof.se
Ingemar Härd är notisredaktör i papperstidningen Populär Kommunikation. http://www.popkom.se/page/7
Artikeln ovan ingick i det elektroniska kunskapsbrevet Björns Blandning nr 3/2007 från Populär Kommunikation. http://www.popkom.se/page/18
Copyright © 2007 Ingemar Härd och Populär Kommunikation
Skriv ut sidan
|