
Kielimallit oligopolien polttoaineena
Tekoälyn maailmaa mullistava vaikutus on näkynyt vahvasti viime vuosina ja loppua ei ole ainakaan tällä hetkellä näkyvissä. Kirjoitin aikaisemmin tekoälyn aiheuttamasta FOMOsta, eli siitä, miten tekoälyhype on saanut monet pelkäämään jäävänsä kehityksen kelkasta. Nyt haluaisin hiukan enemmän keskittyä siihen, miksi tuo kyseinen kehityksen kelkka on suuntaamassa kohti männikköä, jossa törmäyksiltä välttyminen näyttää olevan yhä vaikeampaa.
Puolueeton? Yeah right…
Kuten aikaisemminkin totesin, en näe tekoälyä sen enempää messiaana kuin paholaisenakaan. Tekoäly on teknologiaa, joten siinä ei ole mitään sisäsyntyistä hyvyyttä tai pahuutta – se on työkalu. Tekoälyn ongelmat tiivistyvät siihen, miten riippuvainen se on datasta. Kielimallien koulutusdata on usein kerätty internetistä, ja jos olet joskus käynyt internetissä, niin tiedät, miten paljon suoranaista potaskaa siellä on. Internetin sisältöhän on yli 90-prosenttisesti silkkaa sontaa ja loput kymmenen prosenttia on kissoja. Kielimallia ei voi oikein verrata ihmiseen, mutta jos ihmislapsen kasvatus jätettäisiin kokonaan internetille, olisi tuloksena kyllä sellainen urvelo, että hänen kanssaan ei kukaan haluaisi olla tekemisissä. Tämä sama tulos olisi myös kielimallilla, jos se olisi saanut vapaan internet-kasvatuksen. Jotta kielimallit olisivat edes jokseenkin järkevän oloisia, on niiden koulutusdata tarkoin seulottua. Ja tämä on ongelma: kuka päättää, mikä on hyvää ja mikä huonoa?
Mikään instanssi ei ole puolueeton, joten on turhaa ajatella, että koulutusdata voitaisiin vain validoida jollain riippumattomalla taholla ja sillä selvä. Ei onnistu. Käytännössä millä tahansa alalla toimivat ”puolueettomat” tahot ovat kaukana puolueettomasta ja niiden tärkein tehtävä on toimia hyvinkin puolueellisina kumileimasimina niiden rahoittajille. Koulutusdataa toki on myös niin paljon, että sen läpikäynti todennäköisesti ulkoistettaisiin tekoälylle.
Vaikka koulutusdata olisi sataprosenttisen puolueetonta, on kielimalleihin pohjautuvien generatiivisten tekoälyjen perustavanlaatuisena ongelmana se, että ne voivat generoida vastauksia vain koulutusdatansa perusteella. Ne ovat tilastollisia läpileikkauksia koulutusdataansa – ne eivät ymmärrä mitään. Jos generatiivista tekoälyä pyydetään tuottamaan ratkaisu johonkin ongelmaan, se ratkaisee ongelman sillä tavalla, joka on parhaiten edustettuna sen koulutusdatassa. Koska koulutusdatassa vääjäämättä yliedustettuna ovat keskinkertaiset ratkaisut (juuri siksi ne ovat keskinkertaisia), vahvistuu keskinkertaisten ratkaisujen edustus entisestään tulevien kielimallisukupolvien koulutusdatassa ja ongelma sen kuin kasvaa. Tämä ongelma on erittäin hyvin nähtävissä tällä meidän toimialallamme, jossa vallalla ovat Node.js:ään ja React-sovelluskehykseen pohjautuvat ratkaisut. Niitä vastaan muiden teknologiavaihtoehtojen on hankala kilpailla, koska ne ovat jo tällä hetkellä niin yliedustettuina koulutusdatassa, että ne ovat muodostuneet de facto -standardeiksi.
Ja faktahan on se, että sekä koulutusdata että generatiiviset tekoälyt eivät todellakaan ole puolueettomia.
Oligopolit vahvistuvat
Oligopoli on taloustieteellinen termi, joka tarkoittaa sitä, että jollakin markkinalla on vain muutama toimija. Koska generatiivisilla tekoälyillä saattaa olla suurikin vaikutus ihmisten tekemiin valintoihin, ne voivat näin toimia markkinoita ohjaavina voimina. Jos esim. ajatellaan tilannetta, jossa vaikkapa Tesla olisi maksanut OpenAI:lle siitä, että Teslan positiivissävyinen edustus kielimallin koulutusdatassa olisi suurempi kuin muiden autovalmistajien, suosittelisi ChatGPT todennäköisesti Teslan autoja muita useammin. Koulutusdatan lisäksi kielimallien toimintaa voidaan säädellä puolueellisella vahvistusoppimisella, jossa mallia palkitaan tai rankaistaan sen tuottamista vastauksista. Tämä on tehokas tapa tuoda malliin puolueellisia näkökulmia niin, että niitä on käytännössä mahdotonta valvoa.
Teknologia: Lue lisää
Miten tämä sitten eroaa pitkään internetissä tehdystä hakukoneoptimoinnista tai -markkinoinnista? Hakukoneiden tuottamista hakutuloksista on yleensä jotenkin mahdollista erottaa maksetut mainokset (toistaiseksi) ja tuloksia pääsääntöisesti esitetään käyttäjälle useita – toisinaan jopa häkellyttävän paljon. Näistä kävijä voi valita mieleisensä ja klikata vain niitä, jotka vaikuttavat parhaiten vastaavan hänen tarpeitaan. ChatGPT:n kaltainen palvelu tuottaa sille esitettyyn kysymykseen korkeintaan muutaman vastauksen, joiden objektiivisuudesta ei ole mitään takeita. Käyttäjä on siis paljon enemmän kielimallin armoilla kuin hakukoneen.
Generatiivisen tekoälyn kanssa lörpötellessä tulee usein annettua paljon kaikenlaista kontekstia. Esim. mökkirannassa voi kysellä tietoja anopin melanoomahuolien aiheellisuudesta, Mercuryn perämoottorin yskimisestä sekä siitä, mistä voisi ostaa uuden umpion Octaviaan. Kaikki tämä tieto on markkinoijille arvokasta ja sitä voidaan käyttää hyväksi kohdennetussa mainonnassa. Koska ainakin ChatGPT:n on tarkoituskin oppia käyttäjästä lisätietoa käytön lomassa, ei käyttäjästä tunnu edes mitenkään erikoiselta, että jatkossa tekoäly osaa viitata oikein juuri siihen oikean vuosimallin Octaviaan. Ja tätä tietoa aivan varmasti käytetään markkinointiin, kunhan vain maksaja löytyy.
Generatiivisen tekoälyn palveluilla on valtavasti potentiaalia vaikutuskoneina, joissa:
- käyttäjille kerrotaan asioista palvelun tuottajan määrittelemästä näkökulmasta
- käyttäjien antamaa tietoa käytetään kohdentamaan haluttuja viestejä mahdollisimman tehokkaasti
- käyttäjien tekemiä valintoja voidaan jossain määrin mitata ja valvoa
Tällaisena vaikutuskoneena ChatGPT:n kaltaiset tekoälyt voivat muodostaa ja entuudestaan vahvistaa oligopoleja. Pienten, aloittelevien toimijoiden on aina hankala kilpailla suuria, vakiintuneita toimijoita vastaan, mutta erityisen hankalaa siitä tulee kielimalleihin perustuvilla alustoilla, koska niiden näkökulmasta pieniä, uusia toimijoita ei ole olemassa ollenkaan. Lisäksi yllä mainittu manipulointi sekä käyttäjien tietojen hyväksikäyttö leikkaavat loputkin pienemmät toimijat pelistä pois.
Lainsäädäntö ja valvonta
Lainsäädäntöä ja valvontaa kielimallehin perustuville tekoälypalveluille voidaan toki kehittää, mutta se tapahtuu aina jälkijättöisesti. Lisäksi lähes minkä tahansa alan lainsäädäntöä ja valvontamekanismeja kehitetään yleensä yhdessä alan toimijoiden kanssa, jolloin on suuri vaara siinä, että lait ja valvontamekanismit lähinnä pönkittävät kunkin alan isoimpien toimijoiden asemaa. Tätä tapahtuu toki erityisesti Yhdysvalloissa, mutta emme me Euroopassakaan ole täysin immuuneja tälle ilmiölle. Toisaalta olisi absurdia ajatella, että tekoälyyn liittyvää lainsäädäntöä ja valvontaa kehitettäisiin kokonaan ilman esim. OpenAI:n osallistumista.
EU:n tekoälysäädös on yritys tuoda edes jotakin tolkkua tekoälykenttään, mutta sillä ei vielä pitkälle pötkitä. Esim. ChatGPT:lle ko. säädöksellä asetetut avoimuusvaatimukset ovat:
- Käyttäjälle pitää kertoa, että sisältö on tekoälyn tuottamaa.
- Järjestelmää on kehitettävä niin, että sillä ei voi tuottaa laitonta materiaalia (esim. tekijänoikeuksia loukkaavaa).
- Palvelun tulee julkaista yhteenvetoja koulutusdatassa olevasta tekijänoikeuksin suojatusta materiaalista.
Näiden lisäksi mainitaan, että ”suuren vaikutuksen” tekoälyjärjestelmät joutuvat läpikäymään perinpohjaisen selvityksen. Hei kamoon! ”Perinpohjainen selvitys” tarkoittaa määrämuotoista ja riittävän pitkää dokumenttia, jossa on sopiva määrä allekirjoituksia ja mukavan tuore päivämäärä. Mites se manipulointiaspekti? Lähdeviittaukset? Järjestelmäkehote?
En ole AI-doomeri, mutta…
Totuttua fraasia mukaillen: ”Monet parhaista ystävistänikin ovat tekoälyjä.” En ihan oikeasti ole mikään AI-doomeri, mutta en todellakaan luota generatiivisten tekoälypalveluiden taustalla oleviin yrityksiin. Rahaa virtaa tekoälybisneksessä aivan h*lvetisti (kts. Project Stargate), joten ihan inhimillinen ahneus, turhamaisuus ja vallanhimo ovat väkisinkin läsnä. Moneen kertaan toitottamani tekoälyn suljettu luonne on oikeasti ongelma, jota todennäköisesti lähdetään ratkomaan vasta siinä vaiheessa, kun ulostetta on jo hyvän aikaa lentänyt useampaankin tuulettimeen. Pitäisikö vaihtaa ne ruusunpunaiset lasit vaikka ulosteelta suojaaviin sukelluslaseihin ja snorkkeliin?