Karhulla on asiaa

Ääkköset ja eri­kois­mer­kit URL-osoitteissa – käy­tet­tä­vyy­den ja yh­teen­so­pi­vuu­den haasteet

Ina Pekki

URL-osoite (Uniform Resource Locator) on sivuston tai tiedoston sijainti internetissä. Olemme aiemmin purkaneet mistä tasoista domain koostuu ja millainen domain on hyvä valinta. Nyt käsittelemme sitä, miksi url-osoitteissa ei suositella käytettävän ääkkösiä tai erikoismerkkejä.

Internetiä selaileville lienee selvää, että url-osoitteet mukailevat pääsääntöisesti tiettyä rakennetta, eri sanojen välissä on väliviiva ja ne sisältävät ns. tavallisia aakkosia. Moni ei tätä välttämättä olekaan sen enempää tullut miettineeksi. Sisällönhallintajärjestelmätkin tapaavat muuttaa sivujen urlit automaattisesti sopivaan muotoon niitä luodessa. Joskus kuitenkin vastaan tulee esimerkiksi PDF-tiedostoon vieviä osoitteita, jotka sisältävät välilyöntejä, kuten domain.xx/ohjeet%20ilmoittautumiseen.pdf, mikä näyttää kömpelöltä.

Koska url-osoitteen tarkoitus on tarjoilla kävijälle sujuva pääsy verkkosivustolle tai tiedostoon, on url-osoitteen hyvä olla mahdollisimman selkeä – siihen päästään pitämällä se lyhyehkönä ja kuvaavana noudattamalla url-osoitteita koskevaa standardia, johon ei suoraan kuulu kaikki kansainväliset merkit.

Miksi hyvä url ei sisällä ääkkösiä?

Väitän, että hyvä url-osoite noudattaa IETF:n (Internet Engineering Task Force) hallinoimaa URL-standardia, joka määrittelee kuinka verkkosivuston (tai muun, esim. tiedoston) sijainti internetissä ilmaistaan yksiselitteisesti ja universaalisti. Sen ansiosta URL-osoitteet ovat yhdenmukaisia ja luettavissa kaikilla verkkoselaimilla ja sovelluksilla ympäri maailmaa. URL-standardin muodollisesti ja tarkasti kuvaava dokumentti RFC 3986 määrittää, mitkä merkit URL-osoitteessa ovat sallittuja ja miten ne käsitellään.

Sallitut merkit URL-osoitteissa

  • Aakkoset ja numerot
    a-z, A-Z, 0-9
  • Erityiset ”turvalliset” merkit
    -, _, ., ~
  • Varatut merkit (reserved characters)
    :, /, ?, #, [, ], @, ja muita, jotka varataan tiettyihin tarkoituksiin URL:issa.

URL-standardi pohjautuu pitkälti ASCII-merkistöön, johon eivät kuulu ääkköset eivätkä erikoismerkit, kuten ä, ö tai €. ASCII onkin pohja monille tietojärjestelmille. Esimerkiksi internetin alkuperäiset protokollat, kuten HTTP ja DNS, suunniteltiin nimenomaan ASCII-yhteensopiviksi.

Mielestäni blogikirjoitus perustelee jo tässä kohdin miksi ääkköset ja erikoismerkit eivät ole ok URL-osoitteissa, mutta jatketaan vielä vähän pidemmälle.

Mitä sitten tapahtuu, jos url-osoite sisältää ei-sallittuja merkkejä?

Käytännössä ääkkösten käyttö URL-osoitteissa on mahdollista.

URLien enkoodaus

Jotta ääkkösiä ja muita erikoismerkkejä voidaan käyttää URL-osoitteissa, ne täytyy enkoodata. Tämä tarkoittaa, että merkit muunnetaan prosenttienkoodausta käyttäen (esim. ä → %C3%A4).

Esimerkkejä url-osoitteesta, jossa on käytetty ääkkösiä ja erikoismerkkejä:

domain.xx/ovatko hämähäkit pelottavia?

domain.xx/ovatko+h%C3%A4m%C3%A4h%C3%A4kit+pelottavia%3F

domain.xx/hasta-mañana

domain.xx/hasta-ma%C3%B1ana

äänetönörkki.fi

xn--netnrkki-zzaa5rb.fi

Kuten esimerkeistä näkee, tämä tekee URL-osoitteista pidempiä ja vaikealukuisempia. Näyttävät ne varmaan monen silmään myös epäilyttäviltäkin.

Enkoodaus ja dekoodaus tapahtuvat yleensä automaattisesti asiakasselaimessa ja palvelimella. Poluissa käytetty enkoodaus ei koske ns. ääkkösdomaineja, eli IDN-domaineja (Internationalized Domain Name), vaan niissä käytössä on oma koodauksensa, Punycode. Punycode muuntaa ääkkösiä sisältävät domainit muotoon, joka alkaa merkeillä xn--.

Ääkkösistä ja erikoismerkeistä johtuvia ongelmatilanteita

Jos ääkkösen ja erikoismerkin saaminen url-osoitteeseen on välttämätöntä tai haluat muuten vain leikkiä tulella, huomioi siitä ilmenevät haasteet. Vanhemmat selaimet ja palvelimet eivät välttämättä osaa tulkita ääkkösiä tai erikoismerkkejä oikein URL-osoitteissa. Järjestelmät, jotka eivät tue unicodea tai IDNA (Internationalized Domain Names in Applications) -standardeja, voivat hajottaa ääkköset virheelliseksi merkkijonoksi.

Linkki voi myös muuttua toimimattomaksi tai ohjata väärään paikkaan, jos sähköpostiohjelma, jolla ei ole täydellistä URL-tukea, käsittelee sen virheellisesti. Myöskään sosiaalisen median alustat, kolmannen osapuolen analytiikkatyökalut ja linkinlyhentäjät eivät aina tue ääkkösiä kunnolla, mikä voi sekin johtaa linkkien rikkoutumiseen tai väärään ohjaukseen.

SEO ja ääkköset URL-osoitteissa

Hakukoneet, kuten Google, ymmärtävät ääkkösiä ja enkoodattuja URL-osoitteita jollain tasolla, mutta niitä ne eivät välttämättä katso hyvällä. Lisäksi pitkät ja monimutkaiset URL:t voivat heikentää käyttäjäkokemusta ja siten epäsuorasti vaikuttaa sijoitukseen hakutuloksissa. Ihmiset voivat olla arkoja klikkaamaan ja jakamaan linkkejä, jotka sisältävät prosenttimerkkejä ja joista ei nää silmäilemällä, mitä ne koskevat – laskenut jako- ja klikkausmäärä heijastuu tilastoihin. Lyhyet ja selkeät URL-osoitteet ilman enkoodauksia ovatkin helpompia jakaa ja muistaa.

Pelaa varman päälle – yksinkertainen URL on parempi kaikille

Käytännössä ääkkösten käyttö URL-osoitteissa on mahdollista, mutta niiden välttäminen lisää yhteensopivuutta ja käytettävyyttä kaikilla alustoilla, ja noudattaa URL-standardia. Pahimmillaan sivusto voi näyttäytyä käyttäjälle toimimattomana ja epäluotettavalta käyttäjän kohdatessa virheilmoituksia ja oudon näköisiä url-osoitteita samalla, kun hakukoneoptimointikin heikkenee.

Miksi siis ottaa riskiä? Onkin kaikille helpompaa noudattaa standardien mukaista mallia url-osoitteiden kanssa.

Tykkäsitkö tästä jutusta?

0
0
0
0
Kenttä on validointitarkoituksiin ja tulee jättää koskemattomaksi.
Jaa juttu somessa
Tällä viikolla näitä luettiin eniten
  1. Blogi sivuston kävijämäärän kasvun moottorina
  2. Ääkköset ja erikoismerkit URL-osoitteissa – käytettävyyden ja yhteensopivuuden haasteet
  3. 9 tärkeintä Google Analytics -mittaria
Viime aikoina eniten reaktioita herättivät
Ota yhteyttä
Tilaa uutiskirje