Tekoälyn vedenkulutus: Miksi virusluonteiset luvut ovat harhaanjohtavia

Muutaman kuukauden välein uusi otsikko väittää, että ChatGPT:lle kysymys kuluttaa pullollisen vettä. Luvut kuulostavat hälyttäviltä, ja ne leviävät nopeasti. Mutta kun tutustuu näiden väitteiden taustalla olevaan metodologiaan, kuva muuttuu huomattavasti epäselvemmäksi. Tekoälyn vedenkulutuksesta on tullut kipupiste kestävyyskeskusteluissa, mutta netissä kiertävät virusluonteiset tilastot puuttuvat usein kontekstista, jota tarvitaan ymmärtämään, mitä ne todella tarkoittavat. Todellisuus on monimutkaisempi, ja monissa tapauksissa paljon vähemmän dramaattinen kuin kriitikot antavat ymmärtää.

Netissä kiertävät tekoälyn vedenkulutustilastot vääristelevät usein todellisuutta yhdistämällä kertaluontoisen mallin koulutuksen jatkuvisiin kyselyihin ja soveltamalla pahimman skenaarion jäähdytystilanteita yleisesti. Googlen todelliset mittaukset osoittavat, että tyypillinen tekstikehote käyttää noin 0,26 millilitraa vettä – lähes 2 000 kertaa vähemmän kuin virusluonteiset väitteet antavat ymmärtää. Vaikka datakeskusten laajentuminen vesistressin alueilla ansaitsee huomiota, alan jalanjälki pysyy pienenä verrattuna maatalouteen tai teollisuuteen, ja tehokkuuden parannukset vähentävät edelleen kyselyä kohti tapahtuvaa resurssinkäyttöä merkittävästi.

Virusluonteiset väitteet tekoälystä ja vedestä

Useimmin siteerattu luku viittaa siihen, että yksittäinen ChatGPT-keskustelu (joka usein määritellään 20–50 kysymykseksi) käyttää 500 ml vettä. Tämä luku on peräisin vuoden 2023 tutkimuksesta, joka arvioi myös, että GPT-3:n kouluttaminen Microsoftin Yhdysvaltain datakeskuksissa voisi suoraan haihduttaa 700 000 litraa puhdasta makeaa vettä. Tilasto on teknisesti ottaen tarkka kyseisessä skenaariossa, mutta se on irrotettu kontekstistaan ja sovellettu laajasti kaikkiin tekoälyvuorovaikutuksiin riippumatta mallista, sijainnista tai infrastruktuurista.

Se, mikä alkoi kapeana havaintona tietyn mallin kouluttamisesta tietyissä laitoksissa, muuttui yleiseksi tuomioksi kaikkea tekoälyn käyttöä vastaan. Se on ongelma. Koulutus tapahtuu kerran, mutta päättely (inference) tapahtuu miljardeja kertoja. Näiden yhdistäminen johtaa villisti harhaanjohtaviin johtopäätöksiin.

Otsikot vs. todellisuus

Väite “pullollinen vettä per kysely” yhdistää koulutuksen päättelyyn, jättää huomiotta alueelliset erot jäähdytysmenetelmissä ja olettaa pahimmat mahdolliset skenaariot. Googlen omat mittaukset kertovat toisen tarinan: mediaani Gemini Apps -tekstikehote kuluttaa vain 0,26 millilitraa vettä, eli suunnilleen viisi pisaraa. Tämä on lähes 2 000 kertaa vähemmän kuin yllä mainitut väitteet antavat ymmärtää.

Ristiriita näiden lukujen välillä paljastaa, kuinka paljon metodologialla on merkitystä. Tutkimus, joka mittaa koulutusta Arizonassa kesällä, tuottaa dramaattisesti erilaisia lukuja kuin tutkimus, joka mittaa päättelyä Suomessa talvella.

Miten nämä luvut lasketaan

Useimmat hälyttävimmät arviot perustuvat kohdistusmenetelmiin, jotka osoittavat kaiken datakeskuksen vedenkäytön tekoälykuormille, vaikka nämä laitokset ajaisivat lukemattomia muita palveluja. Ne käyttävät usein huippukulutuslukuja vettä vaativista jäähdytysjärjestelmistä kuumissa ilmastoissa ja soveltavat näitä lukuja globaalisti. Tutkimusviitekehykset, jotka yrittävät arvioida tekoälyn ympäristöjalanjälkeä, myöntävät ydinesesteen: kaupalliset tekoälytarjoajat eivät julkista mallikohtaisia päättelytietoja, mikä pakottaa tutkijat tekemään oletuksia, jotka voivat dramaattisesti paisuttaa arvioita.

Miten datakeskusten jäähdytys todellisuudessa toimii

Tekoälyn vedenkulutuksen ymmärtäminen edellyttää ymmärrystä siitä, miten datakeskukset hallitsevat lämpöä. Palvelimet tuottavat lämpöä laskennan aikana, ja tämä lämpö on poistettava laiterikkojen estämiseksi. Valittu menetelmä riippuu suuresti ilmastosta, paikallisista resursseista ja tehokkuusprioriteeteista. Laitos Phoenixissa toimii hyvin eri tavalla kuin laitoksessa Tukholmassa, mutta kriitikot kohtelevat niitä usein identtisinä laskiessaan ympäristövaikutuksia.

Jäähdytysjärjestelmät selitettynä

Perinteinen ilmajäähdytys käyttää tuulettimia ja ilmastointia, kuluttaen suhteellisen vähän vettä mutta enemmän sähköä. Haihduttava jäähdytys, joka on yhä suositumpi suurissa laitoksissa, vaihtaa vettä energiatehokkuuteen käyttämällä haihtumista lämmön hajottamiseen. Uudemmat lähestymistavat, kuten upotusnestejäähdytys, upottavat laitteiston ei-johtavaan nesteeseen, poistaen vedenkäytön kokonaan.

Valinta riippuu paikallisista olosuhteista. Yritykset sijoittavat yhä useammin laitoksia alueille, joissa vesistressi on pienin ja uusiutuvaa energiaa on runsaasti, mikä tekee yleistyksistä luonnostaan harhaanjohtavia.

Vedenotto vs. vedenkulutus

Kriitikot sekoittavat usein vedenoton ja vedenkulutuksen. Vedenotto tarkoittaa lähteestä otettua vettä; kulutus tarkoittaa vettä, joka ei palaa. Monet jäähdytysjärjestelmät ottavat vettä, käyttävät sitä ja palauttavat suurimman osan takaisin lähteeseen. Tällä erolla on valtava merkitys: laitos voi ottaa miljoonia litroja vettä, mutta kuluttaa todellisuudessa vain murto-osan tästä. Arvioitaessa yritysten turvallisia tekoälyratkaisuja, tämän eron ymmärtäminen auttaa erottamaan aitojen huolenaiheiden ja paisuteltujen tilastojen väliset erot.

Tekoälyn vedenkulutuksen lukujen asettaminen kontekstiin

Luvut ilman kontekstia johtavat harhaan. Datakeskukset aiheuttavat noin 0,2 % Yhdysvaltain makean veden kulutuksesta. Tämä kuulostaa valtavalta, kunnes vertaa sitä muihin toimialoihin. Maatalous aiheuttaa noin 70 % maailmanlaajuisesta makean veden vedosta. Yksittäinen golfkenttä Arizonassa käyttää enemmän vettä vuosittain kuin monet datakeskukset. Kysymys ei ole siitä, käyttääkö tekoäly vettä; vaan siitä, onko tämä käyttö suhteessa sen arvoon ja vertautuuko se vaihtoehtoihin.

Toimialavertailut

Harkitse näitä suhteita:

Yhden kilon naudanlihan tuottaminen vaatii maailmanlaajuisesti noin 15 000 litraa vettä. Suurin osa tästä on kuitenkin sateen kastelua (“vihreää vettä”); todellinen “sininen vesi” (joista ja pohjavesistä otettu) on Yhdysvalloissa noin 2 000 litraa, mikä on edelleen valtava määrä digitaalisiin palveluihin verrattuna.
Yhden puuvillaisen t-paidan valmistus käyttää noin 2 700 litraa vettä, mikä johtuu suurelta osin puuvillan suuresta kasteluntarpeesta ja intensiivisestä värjäysprosessista.
Tyypillinen puolijohdefabriikka kuluttaa miljardeja litroja vuosittain.
Lämpövoimalat käyttävät huomattavasti enemmän vettä kuin kaikki datakeskukset yhteensä.

Datakeskusten osuus Yhdysvaltain kokonaisvedenkäytöstä on edelleen pieni. Tekoälyteollisuuden jalanjälki, vaikka se kasvaakin, pysyy vaatimattomana verrattuna vakiintuneisiin toimialoihin, jotka kohtaavat harvoin vastaavaa tarkastelua. Kukaan ei jaa virusluonteisia julkaisuja aamukahvinsa vesijalanjäljestä, vaikka yksittäisen kupin tuottaminen vaatii noin 140 litraa vettä, kun otetaan huomioon papujen kasvatus ja käsittely.

Arkipäivän toiminnot

Googlen mittaukset asettavat tekoälykyselyt perspektiiviin: yksittäinen tekstikehote käyttää energiaa, joka vastaa television katselua alle yhdeksän sekunnin ajan. Videoiden suoratoisto, sähköpostipalvelimien ylläpito ja älypuhelinten lataaminen kuluttavat kaikki resursseja. Netflix-tottumuksesi tai Instagram-selaamisesi tukeva infrastruktuuri käyttää samanlaisia jäähdytysjärjestelmiä. Tekoälyn eristäminen ja vertailukelpoisten digitaalisten toimintojen sivuuttaminen luo vääristyneen kuvan teknologian ympäristövaikutuksista.

Mitä teknologiayritykset todellisuudessa tekevät

Kertomus, jonka mukaan teknologiayritykset jättävät ympäristöasiat huomiotta, ei vastaa todellisuutta. Suuret palveluntarjoajat ovat sijoittaneet voimakkaasti tehokkuuden parantamiseen ja vaihtoehtoisiin vesilähteisiin. Google vähensi datakeskuksiensa energiapäästöjä 12 % vuonna 2024, vaikka sähkön kysyntä kasvoi 27 %. Microsoft on sitoutunut olemaan veden suhteen positiivinen vuoteen 2030 mennessä. Nämä saattavat olla vain PR-lausuntoja, mutta ne edustavat usein miljardien investointeja infrastruktuuriin.

Toimialalla on vahvat taloudelliset kannustimet vähentää kulutusta. Vesi- ja energiantuet vaikuttavat suoraan kateisiin, mikä tekee tehokkuuden parantamisesta kannattavaa pelkästään altruismin sijaan.

Juomakelvottomat vesilähteet

Monet modernit datakeskukset käyttävät jäähdytykseen kierrätettyä jätevettä, puhdistettua harmaata vettä tai merivettä sen sijaan, että kilpailisivat kunnallisista juomavesivarannoista. Sijaintipäätökset asettavat yhä useammin etusijalle alueet, joilla on runsaasti vettä ja puhdas energiaverkko. Cornell-yliopiston tutkijat havaitsivat, että älykäs sijoittuminen yhdistettynä operatiiviseen tehokkuuteen voisi vähentää tekoälyn vesivaikutuksia 86 % verrattuna pahimpiin skenaarioihin. Keskilänsi ja “tuulivyöhykkeen” osavaltiot tarjoavat parhaat yhdistetyt hiili- ja vesiprofiilit uusille laitoksille.

Tehokkuuden parannukset

Googlen datakeskukset käyttävät nyt 84 % vähemmän yleisenergiaa kuin toimialan keskiarvo. Viimeisen 12 kuukauden aikana mediaanin Gemini-tekstikehotteiden energia- ja hiilijalanjälki laski vastaavasti 33-kertaisesti ja 44-kertaisesti. Vedenkäytön tehokkuusmittarit ovat parantuneet tasaisesti koko alalla. Nämä saavutukset kerryttyvät: tehokkaammat mallit, jotka toimivat tehokkaammalla laitteistolla tehokkaammissa laitoksissa, vähentävät dramaattisesti kyselyä kohti tapahtuvaa resurssinkäyttöä.

Todellinen kestävyyskeskustelu

Kaikkien tekoälyn ympäristöhuolien hylkääminen olisi yhtä harhaanjohtavaa kuin virusluonteisten tilastojen kritiikitön hyväksyminen. Ala kohtaa todellisia haasteita, erityisesti nopean laajentumisen osalta vesistressin alueilla. Yli 160 uutta tekoälydatakeskusta on ilmestynyt Yhdysvaltoihin viimeisen kolmen vuoden aikana, joitakin alueille, jotka kohtaavat jo kuivuutta. Kysymys ei ole siitä, onko tekoälyllä ympäristövaikutuksia; vaan siitä, hoidetaanko näitä vaikutuksia vastuullisesti ja ovatko ne suhteessa tuotettuihin hyötyihin.

Aidot huolenaiheet vs. paniikki

Validiikkeja kritiikkiä ovat muun muassa palveluntarjoajien läpinäkyvyyden puute, laitosten keskittyminen jo valmiiksi stressaantuneille alueille ja riittämätön sääntely vesioikeuksien osalta. Mikä on liioiteltua: väitteet, joiden mukaan tekoäly on ainutlaatuisen tuhoava verrattuna muihin digitaalisiin palveluihin, tai että yksittäiset kyselyt edustavat merkittävää ympäristöhaittaa. Arvioitaessa tekoälypalveluita, jotka eivät kouluta dataillasi, ympäristöjalanjälki ansaitsee huomiota yksityisyyden lisäksi, mutta paniikin ajamat tilastot eivät auta ketään tekemään tietoon perustuvia päätöksiä.

Parempia kysymyksiä esitettäväksi

Kysymyksen “kuinka paljon vettä tekoäly käyttää?” sijaan kannattaa kysyä: Missä tämä datakeskus sijaitsee ja millainen on paikallinen vesitilanne? Mitä jäähdytysteknologiaa se käyttää? Mikä on energialähde? Julkaiseeko palveluntarjoaja varmennettuja ympäristömittareita? Nämä kysymykset tuottavat toiminnallista tietoa. Läpinäkyvyyden vaatiminen ja aidosti tehokkuutta parantavia palveluntarjoajia tukeminen luo parempia kannustimia kuin harhaanjohtavien tilastojen jakaminen.

Pienemmän vaikutuksen vaihtoehto: Avoimen lähdekoodin tekoäly

Mallin valinta vaikuttaa ympäristöjalanjälkeen enemmän kuin useimmat käyttäjät ymmärtävät. Päättelymallit, kuten o3 ja DeepSeek-R1, ylittävät 29 Wh pitkää kehotetta kohti, mikä on yli 65 kertaa enemmän kuin pienempien mallien kulutus. Todellisiin tarpeisiisi sopivan kokoisten mallien valinta vähentää resurssienkulutusta uhraamatta hyötyä. Avoimen lähdekoodin mallit toimivat usein hajautetummalla ja tehokkaammalla infrastruktuurilla kuin massiiviset omistusoikeudelliset järjestelmät.

Miksi avoimen lähdekoodin mallit käyttävät vähemmän vettä

Viimeaikaiset innovaatiot avoimen lähdekoodin tekoälyssä ovat parantaneet tehokkuutta dramaattisesti arkkitehtuurien, kuten asiantuntijaseosten (Mixture-of-Experts, MoE), avulla. Sen sijaan, että koko malli suoritettaisiin jokaista sanaa varten, nämä mallit aktivoivat vain pienen osan verkostaan. Esimerkiksi hiljattain julkaistu avoimen lähdekoodin malli MiniMax M2.5 sisältää 230 miljardia parametria, mutta aktivoi päättelyn aikana vain noin 10 miljardia (4,3 %). Vastaavasti GLM-5 sisältää 744 miljardia parametria, mutta aktivoi vain 40 miljardia.

Tämä tarkoittaa, että näiden erittäin kyvykkäiden avoimen lähdekoodin mallien ajaminen vaatii huomattavasti vähemmän laskentatehoa, energiaa ja lopulta jäähdytysvettä verrattuna massiivisiin tiheisiin malleihin, jotka aktivoivat satoja miljardeja parametreja jokaista yksittäistä tokenia varten. GDPR-yhteensopivien tekoälyvaihtoehtojen ymmärtäminen johtaa usein näiden erittäin tehokkaiden vaihtoehtojen löytämiseen, jotka tuottavat vastaavia liiketuloksia murto-osalla resurssijalanjälkeä.

Kokeile DentroChattia: Euroopan kestävä tekoälyvaihtoehto

Eurooppalaiset datakeskukset toimivat tyypillisesti viileämmässä ilmastossa ja puhtaammilla energiaverkoilla, mikä vähentää sekä vesi- että hiilijalanjälkeä. Esimerkiksi suuret pohjoismaiset datakeskusoperaattorit, kuten atNorth raportoi, saavuttavat vedenkäytön tehokkuuslukeman (WUE) vain 0,1 litraa per kWh. Tämä on huomattavasti alle alan keskiarvon 1,8 L/kWh. Lisäksi Suomen, Islannin ja Ruotsin laitokset kierrättävät aktiivisesti palvelinlämpöä kaukolämpöön ja elintuotantoon veden haihduttamisen sijaan.

DentroChat ajaa avoimen lähdekoodin malleja eurooppalaisessa infrastruktuurissa, tarjoten matalamman vaikutuksen vaihtoehdon GPT:lle tai Claudelle käyttäjille, jotka välittävät kestävyydestä yksityisyyden ohella. Tehokkaiden mallien, suotuisien sijaintien ja läpinäkyvien toimintojen yhdistelmä edustaa sitä, miltä vastuullinen tekoälyn käyttöönotto voi näyttää.