Johdanto

Luuletko, että Grok3 tulee olemaan esikoulutettujen mallien "päätepiste"?

Elon Musk ja xAI-tiimi julkaisivat virallisesti Grokin uusimman version, Grok3:n, livestriimin aikana. Ennen tätä tapahtumaa merkittävä määrä asiaan liittyvää tietoa yhdistettynä Muskin jatkuvaan mainoshypetykseen nostivat maailmanlaajuiset odotukset Grok3:a kohtaan ennennäkemättömälle tasolle. Vain viikko sitten Musk totesi itsevarmasti livestriimin aikana kommentoidessaan DeepSeek R1:tä: "xAI on julkaisemassa paremman tekoälymallin." Livenä esitetyn datan perusteella Grok3:n kerrotaan ylittäneen kaikki nykyiset valtavirran mallit matematiikan, luonnontieteiden ja ohjelmoinnin vertailuarvoissa. Musk jopa väitti, että Grok3:a käytetään SpaceX:n Mars-lentoihin liittyviin laskennallisiin tehtäviin, ennustaen "Nobel-palkinnon tasoisia läpimurtoja kolmen vuoden kuluessa". Nämä ovat kuitenkin tällä hetkellä vain Muskin väitteitä. Julkaisun jälkeen testasin Grokin uusinta beta-versiota ja esitin klassisen temppukysymyksen suurille malleille: "Kumpi on suurempi, 9.11 vai 9.9?" Valitettavasti ilman mitään tarkentimia tai merkintöjä niin sanottu älykkäin Grok3 ei vieläkään pystynyt vastaamaan tähän kysymykseen oikein. Grok3 ei onnistunut tunnistamaan kysymyksen merkitystä tarkasti.

Tämä testi herätti nopeasti huomattavaa huomiota monien ystävien keskuudessa, ja sattumalta useat vastaavat testit ulkomailla ovat osoittaneet Grok3:n kamppailevan fysiikan/matematiikan peruskysymysten, kuten "Mikä pallo putoaa ensin Pisan kaltevasta tornista?", kanssa. Siksi sitä on humoristisesti leimattu "neroksi, joka ei ole halukas vastaamaan yksinkertaisiin kysymyksiin".

Grok3 on hyvä, mutta ei parempi kuin R1 tai O1-Pro.

Grok3 koki "epäonnistumisia" monissa yleisten tietojen testeissä käytännössä. xAI-julkaisutilaisuuden aikana Musk demonstroi Grok3:n käyttöä Path of Exile 2 -pelin hahmoluokkien ja tehosteiden analysointiin. Hän väitti pelaavansa peliä usein, mutta useimmat Grok3:n antamat vastaukset olivat virheellisiä. Musk ei huomannut tätä ilmeistä ongelmaa suoratoiston aikana.

Tämä virhe ei ainoastaan tarjonnut ulkomaisille netinkäyttäjille lisää todisteita Muskin pilkkaamisesta "korvikkeen löytämisestä" pelaamisesta, vaan se herätti myös merkittäviä huolenaiheita Grok3:n luotettavuudesta käytännön sovelluksissa. Tällaisen "neron" luotettavuus erittäin monimutkaisissa sovellustilanteissa, kuten Marsin tutkimustehtävissä, on edelleen kyseenalainen, todellisista ominaisuuksistaan riippumatta.

Tällä hetkellä monet testaajat, jotka saivat pääsyn Grok3:een viikkoja sitten, ja ne, jotka testasivat mallin ominaisuuksia vasta eilen muutaman tunnin ajan, ovat kaikki samaa mieltä: "Grok3 on hyvä, mutta se ei ole parempi kuin R1 tai o1-Pro."

Kriittinen näkökulma Nvidian mullistamiseen

Julkaisun yhteydessä virallisesti esitellyssä PPT:ssä Grok3:n osoitettiin olevan "paljon edellä" Chatbot Arenalla, mutta tässä käytettiin taitavasti graafisia tekniikoita: tulostaulukon pystyakseli listasi vain tuloksia pistevälillä 1400–1300, joten alkuperäinen 1 %:n ero testituloksissa näyttää tässä esityksessä poikkeuksellisen merkittävältä.

Todellisissa mallien pisteytystuloksissa Grok3 on vain 1–2 % DeepSeek R1:tä ja GPT-4.0:aa edellä, mikä vastaa monien käyttäjien kokemuksia käytännön testeissä, joissa "ei havaittua eroa". Grok3 ylittää seuraajansa vain 1–2 %.

Vaikka Grok3 on saanut korkeammat pisteet kuin mikään tällä hetkellä julkisesti testattu malli, monet eivät ota tätä vakavasti: loppujen lopuksi xAI:tä on aiemmin kritisoitu "pisteiden manipuloinnista" Grok2-aikakaudella. Kun tulostaululla rangaistiin vastausten pituudesta, pisteet laskivat huomattavasti, minkä vuoksi alan sisäpiiriläiset usein kritisoivat "korkean pistemäärän, mutta alhaisen kyvyn" ilmiötä.

Olipa kyse sitten tulostaulujen "manipuloinnista" tai kuvitusten suunnittelukikoista, ne paljastavat xAI:n ja Muskin pakkomielteen ajatuksesta "johtaa joukon" mallien ominaisuuksissa. Musk maksoi näistä katoista kovan hinnan: lanseerauksen aikana hän kerskui käyttäneensä 200 000 H100-grafiikkasuoritinta (väitti "yli 100 000" suoratoiston aikana) ja saavuttaneensa 200 miljoonan tunnin kokonaiskoulutusajan. Tämä sai jotkut uskomaan, että se edustaa jälleen yhtä merkittävää etua grafiikkasuoritinteollisuudelle ja pitää DeepSeekin vaikutusta alaan "typeränä". Merkillepantavaa on, että jotkut uskovat, että pelkkä laskentateho on mallien koulutuksen tulevaisuus.

Jotkut netinkäyttäjät vertasivat kuitenkin 2000 H800-näytönohjaimen kulutusta kahden kuukauden aikana DeepSeek V3:n tuottamiseksi ja laskivat, että Grok3:n todellinen harjoitusvirrankulutus on 263 kertaa V3:n. Ero DeepSeek V3:n, joka sai 1402 pistettä, ja Grok3:n välillä on hieman alle 100 pistettä. Näiden tietojen julkaisun jälkeen monet ymmärsivät nopeasti, että Grok3:n "maailman vahvimman" tittelin takana on selkeä rajahyötyvaikutus – logiikka, jonka mukaan suuremmat mallit tuottavat vahvempaa suorituskykyä, on alkanut osoittaa vähenevää tuottoa.

Vaikka Grok2:lla oli "korkea pistemäärä, mutta heikko kyky", sillä oli valtava määrä korkealaatuista ensimmäisen osapuolen dataa X (Twitter) -alustalta käytön tukemiseksi. Grok3:n koulutuksessa xAI kohtasi kuitenkin luonnollisesti OpenAI:n nykyisen "katon" – premium-koulutusdatan puute paljastaa nopeasti mallin ominaisuuksien rajallisen hyödyllisyyden.

Grok3:n kehittäjät ja Musk ovat todennäköisesti ensimmäiset, jotka ymmärtävät ja tunnistavat nämä tosiasiat syvällisesti. Siksi Musk on toistuvasti maininnut sosiaalisessa mediassa, että käyttäjien nyt kokema versio on "vielä vasta beta" ja että "täysversio julkaistaan tulevina kuukausina". Musk on ottanut Grok3:n tuotepäällikön roolin ja ehdottaa käyttäjiä antamaan palautetta erilaisista kohtaamistaan ongelmista kommenttiosiossa. Hän saattaa olla maailman seuratuin tuotepäällikkö.

Silti Grok3:n suorituskyky herätti epäilemättä hälytyksiä niissä, jotka toivoivat luottavansa "massiiviseen laskennalliseen tehoon" vahvempien suurten mallien kouluttamiseksi: Microsoftin julkisesti saatavilla olevien tietojen perusteella OpenAI:n GPT-4:n parametrikoko on 1,8 biljoonaa parametria, yli kymmenen kertaa GPT-3:n koko. Huhujen mukaan GPT-4.5:n parametrikoko saattaa olla vielä suurempi.

Malliparametrien koon kasvaessa myös koulutuskustannukset nousevat pilviin. Grok3:n myötä kilpailijoiden, kuten GPT-4.5:n ja muiden, jotka haluavat jatkaa "rahan polttamista" saavuttaakseen paremman mallin suorituskyvyn parametrikoon avulla, on otettava huomioon nyt selvästi näkyvissä oleva katto ja pohdittava, miten se voidaan ylittää. Tällä hetkellä OpenAI:n entinen päätutkija Ilja Sutskever oli aiemmin todennut viime joulukuussa: "Meille tuttu esikoulutus tulee päättymään", mikä on noussut uudelleen esiin keskusteluissa ja johtanut pyrkimyksiin löytää todellinen polku suurten mallien kouluttamiseen.

Iljan näkökulma on herättänyt hälytyksen alalla. Hän ennakoi tarkasti saatavilla olevan uuden datan välittömän loppumisen, mikä johtaa tilanteeseen, jossa suorituskykyä ei voida enää parantaa tiedonkeruun avulla, verraten sitä fossiilisten polttoaineiden loppumiseen. Hän totesi, että "kuten öljy, myös ihmisten tuottama sisältö internetissä on rajallinen resurssi". Sutskeverin ennusteiden mukaan seuraavan sukupolven malleilla, esikoulutuksen jälkeen, on "todellinen autonomia" ja "ihmisaivojen kaltaiset päättelykyvyt".

Toisin kuin nykyiset valmiiksi koulutetut mallit, jotka ensisijaisesti perustuvat sisällön yhteensovittamiseen (aiemmin opitun mallin sisällön perusteella), tulevaisuuden tekoälyjärjestelmät pystyvät oppimaan ja luomaan menetelmiä ongelmien ratkaisemiseksi ihmisaivojen "ajattelua" muistuttavalla tavalla. Ihminen voi saavuttaa perustason taidon aiheessa pelkällä ammattikirjallisuudella, kun taas suuri tekoälymalli vaatii miljoonia datapisteitä saavuttaakseen vain perustason tehokkuuden. Vaikka sanamuotoa muutettaisiin hieman, näitä perustavanlaatuisia kysymyksiä ei välttämättä ymmärretä oikein, mikä osoittaa, että mallin älykkyys ei ole aidosti parantunut: artikkelin alussa mainitut perustavanlaatuiset mutta ratkaisemattomat kysymykset edustavat selkeää esimerkkiä tästä ilmiöstä.

Johtopäätös

Jos Grok3 kuitenkin onnistuu paljastamaan alalle raa'an voiman lisäksi, että "esikoulutetut mallit lähestyvät loppuaan", sillä olisi merkittäviä vaikutuksia alalle.

Ehkä Grok3:n ympärillä olevan hulinan vähitellen laantuessa näemme lisää Fei-Fei Lin kaltaisia tapauksia, joissa "viritetään tehokkaita malleja tietyllä tietojoukolla vain 50 dollarilla" ja lopulta löydetään todellinen polku AGI:hin.