Tekoäly, joka ei käytä dataasi koulutukseen: Miksi se on tärkeää

Useimmat ihmiset eivät kysy yhtä kysymystä käyttäessään tekoälytyökaluja: mitä tapahtuu sille, mitä kirjoitan?

Useimpien tekoälypalveluiden kohdalla vastaus liittyy koulutukseen. Keskustelusi, kysymyksesi, lataamasi asiakirjat – niistä tulee usein koulutusdataa mallin seuraavaa versiota varten. Sanojesi ansiosta tekoälystä tulee älykkäämpi. Vastineeksi saat… no, oikeastaan mitään. Paitsi tietoisuuden siitä, että yksityiset ajatuksesi on nyt leivottu järjestelmään, jota miljoonat muut tulevat käyttämään.

Joillekin tämä on hyväksyttävä kompromissi. Toisille – erityisesti yrityksille – se on kaupan katkaiseva tekijä. Tässä on syy, miksi tekoälyllä, joka ei kouluta itseään dataillasi, on väliä, ja mihin kannattaa kiinnittää huomiota.

Miten tekoälyn koulutus oikeasti toimii

Tekoälyn kielimallit oppivat käsittelemällä valtavia määriä tekstiä. Mitä enemmän tekstiä, sitä älykkäämpi mallista tulee. Alkukoulutuksen jälkeen yritykset jatkavat usein malliensa parantamista todellisten käyttäjien keskusteluilla.

Tätä kutsutaan hienosäädöksi (fine-tuning) tai vahvistusoppimiseksi (reinforcement learning). Se toimii näin:

Käyt keskustelua tekoälyn kanssa
Keskustelu tallennetaan yrityksen palvelimille
Insinöörit arvioivat sitä (tai antavat toisen tekoälyn arvioida sitä) laadun varmistamiseksi
Hyödylliset esimerkit valitaan koulutukseen
Mallin seuraava versio oppii niistä – mukaan lukien sanoistasi

Keskustelustasi tulee osa mallin tietämystä. Ja kun se on kerran siellä, sitä ei voi poistaa. Neuroverkkokoulutuksessa ei ole “kumoa”-painiketta.

Miksi yritykset haluavat datasi

Koulutusdatan luominen on kallista. Ihmisten palkkaaminen laadukkaan tekstin kirjoittamiseen maksaa. Olemassa olevan tekstin lisensointi maksaa. Mutta käyttäjien keskustelut? Ne ovat ilmaisia.

Aina kun kysyt tekoälyltä kysymyksen, tarjoat useita asioita:

Esimerkin siitä, miten ihmiset muotoilevat pyyntöjä – arvokasta aikomuksen ymmärtämiseksi
Signaalin siitä, mitkä aiheet ovat tärkeitä – arvokasta priorisoinnin kannalta
Demonstraation siitä, mitkä vastaukset ovat hyödyllisiä – arvokasta parantamisen kannalta

Siksi monet tekoälypalvelut ovat ilmaisia tai halpoja. Maksat datalla rahan sijaan.

Ongelma koulutusdataksi tulemisessa

Satunnaisessa henkilökohtaisessa käytössä koulutus ei ehkä haittaa sinua. Mutta mieti, mitä tapahtuu, kun datastasi tulee osa mallia:

Tietosi saattavat tulla muiden näkyville Tekoälymallit eivät tallenna tekstiä sanasta sanaan (yleensä), mutta ne oppivat malleja. Jos käsittelet jotain riittävän ainutlaatuista, siitä saattaa kulkeutua sirpaleita tekoälyn muiden kanssa käymiin keskusteluihin.

Menetät hallinnan pysyvästi Kun dataa on käytetty koulutukseen, se on upotettu mallin painoihin. Poistamista ei ole. Yrityksen pyytäminen “unohtamaan” datasi ei toimi, kun kyseinen data on nyt jakautunut miljardien parametrien kesken.

Luottamuksellinen tieto muuttuu jaetuksi Jos käsittelet liikesalaisuuksia, asiakastietoja tai patentoituja menetelmiä, tieto voi periaatteessa vaikuttaa tekoälyn antamiin vastauksiin kilpailijoille.

Oikeudellinen riski kasvaa Yrityksille tekoälyn käyttö, joka kouluttaa itsensä datallanne, voi luoda vastuuta. Jos asiakkaan tiedot päätyvät vaikuttamaan tekoälyn tulosteisiin, kuka on vastuussa?

Tekoälyn, joka ei kouluta itseään dataillasi, kohdalla mitään näistä ongelmista ei ole.

Mitä “ei kouluta dataillasi” oikeasti tarkoittaa

Yritykset muotoilevat käytäntönsä huolellisesti. Tässä ovat keskeiset erot:

“Koulutuksesta voi kieltäytyä” Monet palvelut antavat sinun kieltäytyä koulutukseen käytöstä. Oletus on kuitenkin yleensä osallistuminen. Ja sinun on luotettava siihen, että kieltäytymisvalinta todella toimii kaikissa heidän järjestelmissään.

“Yritysversio ei kouluta” Jotkut yritykset lopettavat datan käytön koulutukseen vain maksavien yritysasiakkaiden kohdalla. Ilmaiset ja peruskäyttäjät ovat yhä pelissä.

“Dataa säilytetään turvallisuussyistä” Vaikka sitä ei käytettäisi koulutukseen, dataasi saatetaan tallentaa “luottamuksen ja turvallisuuden” tarkoituksissa. Tämä tarkoittaa, että ihmiset saattavat yhä lukea sitä.

“Ei koulutusta, piste” Selkein käytäntö: keskustelujasi ei koskaan käytetä mallien kouluttamiseen, riippumatta tilaustasosta. Tätä tekoälyn, joka ei kouluta itseään dataillasi, pitäisi tarkoittaa.

Lue pienellä painetut ehdot. Näiden käytäntöjen välillä on väliä.

Milloin sillä on eniten väliä

Joissain käyttötapauksissa koulutuksen riski on pieni. Toisissa se on kriittinen:

Lakiasiat Asianajaja-asiakas -salassapito on olemassa syystä. Tekoälyn kanssa käytyjen oikeudellisten asioiden keskustelujen ei pitäisi muuttua koulutusdataksi, joka saattaa nousta esiin muissa yhteyksissä.

Lääketieteelliset keskustelut Terveystiedot ovat arkaluontoisia. HIPAA on olemassa suojaamaan niitä. Tekoäly, joka kouluttaa itseään lääketieteellisillä kysymyksilläsi, heikentää tätä suojaa.

Liiketoimintastrategia Kilpailevista suunnitelmista, hinnoittelustrategioista tai tuotekarttoista keskusteleminen tekoälyn kanssa, joka kouluttaa itseään, on olennaisesti samaa kuin lähettäisi tiedot suoraan tuleville kilpailijoille.

Koodi ja immateriaalioikeudet Kehittäjät käyttävät usein tekoälyä koodaukseen. Jos kyseinen koodi on omistusoikeuden alaista, sen käyttäminen koulutukseen tarkoittaa, että tekoäly saattaa ehdottaa vastaavia malleja muille.

Henkilökohtaiset asiat Joitakin asioita kertoisit tekoälylle vain, koska luotat sen olevan yksityinen. Koulutus rikkoo tämän luottamuksen.

Miten DentroChat lähestyy tätä

DentroChat toimii selkeän periaatteen mukaisesti: datasi on sinun. Se tarkoittaa:

Ei koulutusta keskusteluilla – keskustelusi eivät paranna mallejamme
Ei koulutusta ladatuilla tiedostoilla – asiakirjasi pysyvät sinun asiakirjoinasi
Ei datan myymistä – emme ole data-alalla
EU-infrastruktuuri – kaikki pysyy Euroopassa GDPR:n alaisuudessa

Tekoäly on jo koulutettu julkisella datalla. Se ei tarvitse yksityisiä keskustelujasi toimiakseen hyvin. Olemme irrottaneet liiketoimintamallimme datan keruusta.

Maksat palvelusta. Se on kauppa. Datasi ei ole osa sitä.

Kysymykset tekoälytarjoajille

Jos arvioit tekoälytyökaluja ja haluat tekoälyn, joka ei kouluta itseään dataillasi, kysy nämä kysymykset:

Käytetäänkö dataani koulutukseen? Koskaan? – Pyydä selkeä kyllä tai ei -vastaus.
Entä ilmainen versio? – Käytännöt vaihtelevat usein hinnoittelutason mukaan.
Mitä säilytetään ja kuinka kauan? – Koulutus ei ole ainoa riski.
Missä dataani käsitellään? – Jurisdiktio vaikuttaa oikeudelliseen suojeluun.
Voinko saada tietojen käsittelysopimuksen? – Yrityskäytössä tällä on väliä.
Mistä tämä on dokumentoitu? – Suulliset vakuutukset eivät riitä.

Mikä tahansa epäröinti tai epämääräisyys vastauksissa on varoitusmerkki.

Markkinat ovat muuttumassa

Varhaiset tekoälypalvelut kohtelivat käyttäjien dataa hyödynnettävänä resurssina. Mutta markkinat ovat kypsyneet. Yhä useammat käyttäjät ymmärtävät kompromissit. Yhä useammat yritykset vaativat selkeitä datakäytäntöjä. Viranomaiset kiinnittävät huomiota.

Tekoäly, joka ei kouluta itseään dataillasi, on muuttumassa kilpailueduksi, ei vain idealistiseksi kannaksi. Yritykset, jotka kunnioittavat datan rajoja, löytävät asiakkaita, jotka arvostavat tätä kunnioitusta.

Tämä on terveellistä. Se ohjaa alaa malleihin, joissa käyttäjät ovat asiakkaita, ei tuotteita.

Yhteenveto

Tekoäly on hyödyllinen. Siinä ei ole kysymystä. Kysymys on siitä, mitä luovutat käyttääksesi sitä.

Useimpien tekoälypalveluiden kohdalla luovutat yksityisyydestäsi. Keskusteluistasi tulee koulutusdataa. Kysymyksesi auttavat rakentamaan jonkun toisen tuotteen seuraavaa versiota. Asiakirjasi imeytyvät järjestelmään, jota et hallitse.

Tekoälyn, joka ei kouluta itseään dataillasi, kohdalla et luovu mistään muusta kuin tilausmaksusta. Keskustelusi pysyvät sinun keskusteluinasi. Asiakirjasi pysyvät sinun asiakirjoinasi. Tekoäly toimii yhtä hyvin – se vain ei kerää arvoa syötteistäsi.

Se ei ole rajoitus. Niin sen olisi aina pitänyt olla.