Karhulla on asiaa

Kielimallit oligopolien polttoaineena

Kimmo Tapala • 11.2.2025 3

Tekoälyn maailmaa mullistava vaikutus on näkynyt vahvasti viime vuosina ja loppua ei ole ainakaan tällä hetkellä näkyvissä. Kirjoitin aikaisemmin tekoälyn aiheuttamasta FOMOsta, eli siitä, miten tekoälyhype on saanut monet pelkäämään jäävänsä kehityksen kelkasta. Nyt haluaisin hiukan enemmän keskittyä siihen, miksi tuo kyseinen kehityksen kelkka on suuntaamassa kohti männikköä, jossa törmäyksiltä välttyminen näyttää olevan yhä vaikeampaa.

Puolueeton? Yeah right…

Kuten aikaisemminkin totesin, en näe tekoälyä sen enempää messiaana kuin paholaisenakaan. Tekoäly on teknologiaa, joten siinä ei ole mitään sisäsyntyistä hyvyyttä tai pahuutta – se on työkalu. Tekoälyn ongelmat tiivistyvät siihen, miten riippuvainen se on datasta. Kielimallien koulutusdata on usein kerätty internetistä, ja jos olet joskus käynyt internetissä, niin tiedät, miten paljon suoranaista potaskaa siellä on. Internetin sisältöhän on yli 90-prosenttisesti silkkaa sontaa ja loput kymmenen prosenttia on kissoja. Kielimallia ei voi oikein verrata ihmiseen, mutta jos ihmislapsen kasvatus jätettäisiin kokonaan internetille, olisi tuloksena kyllä sellainen urvelo, että hänen kanssaan ei kukaan haluaisi olla tekemisissä. Tämä sama tulos olisi myös kielimallilla, jos se olisi saanut vapaan internet-kasvatuksen. Jotta kielimallit olisivat edes jokseenkin järkevän oloisia, on niiden koulutusdata tarkoin seulottua. Ja tämä on ongelma: kuka päättää, mikä on hyvää ja mikä huonoa?

Mikään instanssi ei ole puolueeton, joten on turhaa ajatella, että koulutusdata voitaisiin vain validoida jollain riippumattomalla taholla ja sillä selvä. Ei onnistu. Käytännössä millä tahansa alalla toimivat ”puolueettomat” tahot ovat kaukana puolueettomasta ja niiden tärkein tehtävä on toimia hyvinkin puolueellisina kumileimasimina niiden rahoittajille. Koulutusdataa toki on myös niin paljon, että sen läpikäynti todennäköisesti ulkoistettaisiin tekoälylle.

Vaikka koulutusdata olisi sataprosenttisen puolueetonta, on kielimalleihin pohjautuvien generatiivisten tekoälyjen perustavanlaatuisena ongelmana se, että ne voivat generoida vastauksia vain koulutusdatansa perusteella. Ne ovat tilastollisia läpileikkauksia koulutusdataansa – ne eivät ymmärrä mitään. Jos generatiivista tekoälyä pyydetään tuottamaan ratkaisu johonkin ongelmaan, se ratkaisee ongelman sillä tavalla, joka on parhaiten edustettuna sen koulutusdatassa. Koska koulutusdatassa vääjäämättä yliedustettuna ovat keskinkertaiset ratkaisut (juuri siksi ne ovat keskinkertaisia), vahvistuu keskinkertaisten ratkaisujen edustus entisestään tulevien kielimallisukupolvien koulutusdatassa ja ongelma sen kuin kasvaa. Tämä ongelma on erittäin hyvin nähtävissä tällä meidän toimialallamme, jossa vallalla ovat Node.js:ään ja React-sovelluskehykseen pohjautuvat ratkaisut. Niitä vastaan muiden teknologiavaihtoehtojen on hankala kilpailla, koska ne ovat jo tällä hetkellä niin yliedustettuina koulutusdatassa, että ne ovat muodostuneet de facto -standardeiksi.

Ja faktahan on se, että sekä koulutusdata että generatiiviset tekoälyt eivät todellakaan ole puolueettomia.

Oligopolit vahvistuvat

Oligopoli on taloustieteellinen termi, joka tarkoittaa sitä, että jollakin markkinalla on vain muutama toimija. Koska generatiivisilla tekoälyillä saattaa olla suurikin vaikutus ihmisten tekemiin valintoihin, ne voivat näin toimia markkinoita ohjaavina voimina. Jos esim. ajatellaan tilannetta, jossa vaikkapa Tesla olisi maksanut OpenAI:lle siitä, että Teslan positiivissävyinen edustus kielimallin koulutusdatassa olisi suurempi kuin muiden autovalmistajien, suosittelisi ChatGPT todennäköisesti Teslan autoja muita useammin. Koulutusdatan lisäksi kielimallien toimintaa voidaan säädellä puolueellisella vahvistusoppimisella, jossa mallia palkitaan tai rankaistaan sen tuottamista vastauksista. Tämä on tehokas tapa tuoda malliin puolueellisia näkökulmia niin, että niitä on käytännössä mahdotonta valvoa.

Teknologia: Lue lisää

Miten tämä sitten eroaa pitkään internetissä tehdystä hakukoneoptimoinnista tai -markkinoinnista? Hakukoneiden tuottamista hakutuloksista on yleensä jotenkin mahdollista erottaa maksetut mainokset (toistaiseksi) ja tuloksia pääsääntöisesti esitetään käyttäjälle useita – toisinaan jopa häkellyttävän paljon. Näistä kävijä voi valita mieleisensä ja klikata vain niitä, jotka vaikuttavat parhaiten vastaavan hänen tarpeitaan. ChatGPT:n kaltainen palvelu tuottaa sille esitettyyn kysymykseen korkeintaan muutaman vastauksen, joiden objektiivisuudesta ei ole mitään takeita. Käyttäjä on siis paljon enemmän kielimallin armoilla kuin hakukoneen.

Generatiivisen tekoälyn kanssa lörpötellessä tulee usein annettua paljon kaikenlaista kontekstia. Esim. mökkirannassa voi kysellä tietoja anopin melanoomahuolien aiheellisuudesta, Mercuryn perämoottorin yskimisestä sekä siitä, mistä voisi ostaa uuden umpion Octaviaan. Kaikki tämä tieto on markkinoijille arvokasta ja sitä voidaan käyttää hyväksi kohdennetussa mainonnassa. Koska ainakin ChatGPT:n on tarkoituskin oppia käyttäjästä lisätietoa käytön lomassa, ei käyttäjästä tunnu edes mitenkään erikoiselta, että jatkossa tekoäly osaa viitata oikein juuri siihen oikean vuosimallin Octaviaan. Ja tätä tietoa aivan varmasti käytetään markkinointiin, kunhan vain maksaja löytyy.

Generatiivisen tekoälyn palveluilla on valtavasti potentiaalia vaikutuskoneina, joissa:

käyttäjille kerrotaan asioista palvelun tuottajan määrittelemästä näkökulmasta
käyttäjien antamaa tietoa käytetään kohdentamaan haluttuja viestejä mahdollisimman tehokkaasti
käyttäjien tekemiä valintoja voidaan jossain määrin mitata ja valvoa

Tällaisena vaikutuskoneena ChatGPT:n kaltaiset tekoälyt voivat muodostaa ja entuudestaan vahvistaa oligopoleja. Pienten, aloittelevien toimijoiden on aina hankala kilpailla suuria, vakiintuneita toimijoita vastaan, mutta erityisen hankalaa siitä tulee kielimalleihin perustuvilla alustoilla, koska niiden näkökulmasta pieniä, uusia toimijoita ei ole olemassa ollenkaan. Lisäksi yllä mainittu manipulointi sekä käyttäjien tietojen hyväksikäyttö leikkaavat loputkin pienemmät toimijat pelistä pois.

Lainsäädäntö ja valvonta

Lainsäädäntöä ja valvontaa kielimallehin perustuville tekoälypalveluille voidaan toki kehittää, mutta se tapahtuu aina jälkijättöisesti. Lisäksi lähes minkä tahansa alan lainsäädäntöä ja valvontamekanismeja kehitetään yleensä yhdessä alan toimijoiden kanssa, jolloin on suuri vaara siinä, että lait ja valvontamekanismit lähinnä pönkittävät kunkin alan isoimpien toimijoiden asemaa. Tätä tapahtuu toki erityisesti Yhdysvalloissa, mutta emme me Euroopassakaan ole täysin immuuneja tälle ilmiölle. Toisaalta olisi absurdia ajatella, että tekoälyyn liittyvää lainsäädäntöä ja valvontaa kehitettäisiin kokonaan ilman esim. OpenAI:n osallistumista.

EU:n tekoälysäädös on yritys tuoda edes jotakin tolkkua tekoälykenttään, mutta sillä ei vielä pitkälle pötkitä. Esim. ChatGPT:lle ko. säädöksellä asetetut avoimuusvaatimukset ovat:

Käyttäjälle pitää kertoa, että sisältö on tekoälyn tuottamaa.
Järjestelmää on kehitettävä niin, että sillä ei voi tuottaa laitonta materiaalia (esim. tekijänoikeuksia loukkaavaa).
Palvelun tulee julkaista yhteenvetoja koulutusdatassa olevasta tekijänoikeuksin suojatusta materiaalista.

Näiden lisäksi mainitaan, että ”suuren vaikutuksen” tekoälyjärjestelmät joutuvat läpikäymään perinpohjaisen selvityksen. Hei kamoon! ”Perinpohjainen selvitys” tarkoittaa määrämuotoista ja riittävän pitkää dokumenttia, jossa on sopiva määrä allekirjoituksia ja mukavan tuore päivämäärä. Mites se manipulointiaspekti? Lähdeviittaukset? Järjestelmäkehote?

En ole AI-doomeri, mutta…

Totuttua fraasia mukaillen: ”Monet parhaista ystävistänikin ovat tekoälyjä.” En ihan oikeasti ole mikään AI-doomeri, mutta en todellakaan luota generatiivisten tekoälypalveluiden taustalla oleviin yrityksiin. Rahaa virtaa tekoälybisneksessä aivan h*lvetisti (kts. Project Stargate), joten ihan inhimillinen ahneus, turhamaisuus ja vallanhimo ovat väkisinkin läsnä. Moneen kertaan toitottamani tekoälyn suljettu luonne on oikeasti ongelma, jota todennäköisesti lähdetään ratkomaan vasta siinä vaiheessa, kun ulostetta on jo hyvän aikaa lentänyt useampaankin tuulettimeen. Pitäisikö vaihtaa ne ruusunpunaiset lasit vaikka ulosteelta suojaaviin sukelluslaseihin ja snorkkeliin?

Kielimallit oligopolien polttoaineena

Puolueeton? Yeah right…

Oligopolit vahvistuvat

Teknologia: Lue lisää

Lainsäädäntö ja valvonta

En ole AI-doomeri, mutta…

Tykkäsitkö tästä jutusta?

Karhulla on asiaa

WordPress-lisäosat: laatua ja tehoa – mutta myös riskejä

Tuuli kääntyy EU:ssa – miten käy yritysten digitaalisten palveluiden sääntelylle?

Verkkosivun kävijäpolun 8 sudenkuoppaa – käyttäjätutkimuksilla tunnistettuja kehittämisen paikkoja verkkopalveluissa

Lähetä viesti

Kielimallit oligopolien polt­toai­nee­na

Puolueeton? Yeah right…

Oligopolit vahvistuvat

Teknologia: Lue lisää

Lainsäädäntö ja valvonta

En ole AI-doomeri, mutta…

TILAA KARHULLA ON ASIAA -UUTISKIRJE

Tykkäsitkö tästä jutusta?

Karhulla on asiaa

WordPress-lisäosat: laatua ja tehoa – mutta myös riskejä

Tuuli kääntyy EU:ssa – miten käy yritysten digitaalisten palveluiden sääntelylle?

Verkkosivun kävijäpolun 8 sudenkuoppaa – käyttäjätutkimuksilla tunnistettuja kehittämisen paikkoja verkkopalveluissa

Lähetä viesti

TILAA KARHULLA ON ASIAA -UUTISKIRJE

Kielimallit oligopolien polttoaineena