Ingemars infall: Svårt tyda tecknen i sajberrymden
Nej det är inte alltid lätt att förstå tecknen i cyberspace. Alla har vi någon gång fått e-post som varit nerlusad med skräptecken istället för våra egna svenska å, ä och ö. Varför blir det så? Och vad gör man åt det? Ingemars infall har svar på bägge frågorna.
I begynnelsen var ASCII. Akronymen står för American Standard Code for Information Interchange. Denna kod definierar 128 olika tecken, inklusive stora och små bokstäver (A till z), siffror, mellanslag, kommatecken, punkt, andra vanliga skrivtecken och de nödvändigaste styrtecknen. Däremot finns inte några koder för de svenska tecknen å, ä och ö. Eller, för den delen, för slovakiska diakritiska tecken.
Datorer använder ju som bekant det binära talsystemet för att utföra sin arbetsuppgifter och den enklaste illustrationen av en binär funktion är naturligtvis strömbrytaren till din läslampa -- antingen är den av eller på. Två grundlägen, alltså. Med binärt räknesätt blir det noll eller ett. Hur väl datorn sedan kan presentera sitt arbete är avhängigt hur många data-bitar den får lov att använda. En bit ger ju just bara av eller på, svart eller vitt.
Alla som jobbat det minsta lilla med bildbehandling vet att om bildskärmen bara kan visa 256 färger är det så gott som hopplöst att redigera bilder som ska tryckas. Ett färgfoto som ska redigeras för detta slutmedium ska innehålla 16,7 miljoner färgnyanser. Ett annat sätt att uttrycka det är att bilden innehåller 24 bitars färginformation. De 256 färgerna på bildskärmen motsvaras i sin tur av 8 bitars färginformation. Det skrivs ut så här: 2 upphöjt till 8 = 2x2x2x2x2x2x2x2. Det binära talsystemet har basen 2 och sålunda multiplicerar man detta tal med sig själv åtta gånger och får 256. Vad har detta med e-post att göra? Jo, även text är databitbaserad. Varje enskilt tecken består just av 8 databitar (vilket i sin tur bildar en byte, eller oktett) och sålunda kan man med detta utökade sätt att kombinera ettor och nollor bilda 256 olika tecken.
Men så var det inte från början. I begynnelsen var ASCII -- och 7 bitar. ASCII användes för telexterminaler och liknande, och det var naturligt att man valde denna standard för att koda text även i datorer.
Ursprungligen använde man alltså bara 7 av de 8 bitarna i en byte till att definiera skrivtecken, följaktligen fick man 128 och inte 256 möjligheter. Av de 128 bitarna gjorde man en teckentabell som kommit att kallas US-ASCII. Den fungerar fint med Unix och de stordatorsystem som användes på den tiden; i engelskspråkiga länder. 1981 lanserade IBM person-datorn, pc:n, och dess operativsystem använde åtta bitar för att presentera tecken. Den sista biten (som alltså gav platserna 128-255) användes för specialtecken, till exempel sådana som man kunde använda för att rita enkla grafiska figurer. Efter hand reviderades utrymmet; IBM PC fick nämligen stöd för språkspecifika teckentabeller.
När Apple lanserade sin berömda Macintosh och operativsystemet med samma namn gav det stöd för åtta bitars teckentabell. Apples programmerare lade fast kursen för hur och var de utökade tecknen skulle placeras ut i tabellen och på tangentbordet. De som gör grafiskt arbete i Windowsmiljö vet att det inte är alldeles enkelt att få fram specialtecken som till exempel gåsögon eller pratminus medan de på Macintosh finns lätt tillgängliga.
Andra, idag glömda operativsystem som CPM och Atari, hade egna tolkningar och inte blev det bättre av att Windows skapades. Microsoft använder nämligen en annan standard, ANSI. Till råga på allt använder inte DOS och Windows samma teckentabell. Så länge man höll sig inom det egna operativsystemet var det lugnt. Men så kom Internet... Fortsättning följer i nästa Ingemars ifall.
Ingemar Härd ingemar.hard(snabel-a)bahnhof.se
Ingemar Härd är notisredaktör i papperstidningen Populär Kommunikation. http://www.popkom.se/page/7
Artikeln ovan ingick i det elektroniska kunskapsbrevet Björns Blandning nr 2/2007 från Populär Kommunikation. http://www.popkom.se/page/18
Copyright © 2007 Ingemar Härd och Populär Kommunikation
Skriv ut sidan
|