De som skaper kunstig intelligens (KI) har en drøm om å lage systemer som er mye smartere enn oss. Og ifølge Berkeley-professor Stuart Russell sitter vi på et høyhastighetstog i gal retning. Russell er en av de fremste KI-forskerne i verden og har skrevet den ledende læreboka i KI. I Oslo denne uken utfordret han statsminister Støre til å ta på alvor truslene fra KI og tenke nytt om hvordan KI må reguleres om vi skal ha noe håp om en lys framtid.

Russell ble kjent for allmennheten da han signerte et opprop i mars 2023 hvor han og en rekke andre ledende forskere tok til orde for at det å «redusere risikoen for utslettelse fra KI bør være en global prioritet på linje med andre samfunnsrisikoer som pandemier og atomkrig».

Russells logikk er enkel. De smarteste gruppene har en tendens til å dominere. Slik vi har utmanøvrert og underlagt oss andre arter, kan en superintelligent KI utmanøvrere og underlegge seg mennesker.

Noen, som Facebooks KI-sjef Yann LeCun, mener KI-system umulig kan dominere mennesker. Dominans kommer av et evolusjonært instinkt innprentet i mennesker og KI-systemer har ikke en slik bakgrunn.

Men årsaken til at vill natur hogges ned og dyr behandles som industrielle produkter, er ikke vond vilje, men at vi ignorerer andres interesser når de er i konflikt med våre egne. Likeledes kan det gå galt om superintelligente KI-systemer har mål som er i konflikt med våre egne, selv om de ikke har begjær etter makt.

Det er ikke vanskelig å se hvordan det kan gå galt. De relativt dumme KI-systemene som styrer innholdsstrømmen på sosiale medier har allerede skapt mye skade, blant annet i form av avhengighet, ekstremisme og helseproblemer blant unge jenter.

Eller si noen forsøker å trene en KI til å redusere mest mulig lidelse. KI-systemer er trent til å nå sine mål mest mulig effektivt. Den enkleste måten å redusere mest mulig lidelse, er å utslette mennesker og alle andre levende vesener. Uten følende vesener, ingen lidelse. Slik ville KI dominert som følge av en målkonflikt, ikke vond vilje.

Det er heller ikke bare å skru av superintelligente systemer når de viser seg å handle i konflikt med våre interesser. Fortsatt funksjon er nødvendig for å oppnå KI-ens mål og vil være et delmål KI-en vil nå, med nebb og klør.

At våre interesser kolliderer med KI-systemets mål, er kjent som «alignmentproblemet». En norsk oversettelse kan være harmoniproblemet. To individer er i harmoni med hverandre i den grad deres mål er forenlige med hverandre. Hvis vi kan trene KI-systemer til å adoptere våre verdier, vil vi ha skapt harmonisk KI. Et slikt system vil ikke være en trussel, selv om de er smartere enn oss.

Dessverre er vi langt fra å forstå hvordan vi skal lage harmonisk KI. Russell mener at dagens KI-paradigme aldri vil greie det. Det er tre grunner til at det er slik:

Å spesifisere med noen grad av sikkerhet hva som er menneskehetens mål forutsetter en løsning på et av filosofiens vanskeligste problemer: Hva er godt?

Selv om vi skulle greie å få klarhet i hvilke verdier KI-en bør styre etter, er det vanskelig å gå fra teori til praksis. Russell kaller dette Kong Midas-problemet, etter kongen som ønsket at alt han pekte på skulle bli gull, men som ikke forskutterte at det vil lede til en gullforgylt, men ensom tilværelse.

Selv om KI-en oppfører seg akkurat som vi vil i løpet av treningen og testingen, kan vi få store overraskelser som følge av at den tilegnet seg andre mål under treningen enn vi trodde.

Russell foreslår et alternativt KI-paradigme. Framfor å trene KI-er til å bli maksimalt treffsikre og skråsikre, bør vi trene dem til å bli velvillige og ydmyke hjelpere som er usikre og skånsomme. Hvis KI-en vet den er feilbarlig vil den heller sjekke en ekstra gang. Hvis den er skånsom vil den gjøre mindre skade hvis den først trår feil.

For at et slikt paradigme skal vinne fram, krever det både teknologiske framskritt og regulatoriske nyvinninger. Det holder ikke å vise til at vi har teknologinøytral lovgivning, slik digitaliseringsminister Karianne Tung har for vane å gjøre. Hvis KI-systemer som lager uhelbredelig skade slippes på markedet, holder det ikke å si at vi har lover mot å skade andre.

Innenfor atomkraft og medisin har vi teknologispesifikke lover som krever en høyere sikkerhetsstandard. Vi antar ikke at produkter som ikke er bevist utrygge er trygge. Utviklerne må derimot bevise at produktene de lager er trygge. Russell mener vi trenger en lignende lovgivning for KI.

Tross dets appell, er det mye en kan utsette på Russells spesifikke forslag. Hvordan er KI-en ment å håndtere menneskers interne målkonflikter? Skal en KI forsøke å stoppe en person som på mandag sa de ikke vil drikke, men er i ferd med å ta sin tredje øl på fredag? Det er ikke så enkelt som at en KI bør lytte til hva personen helst vil hvis personen har inkonsistente ønsker.

Russell unnslipper heller ikke harmoniproblemet, bare denne gang mellom mennesker. Hvis KI-er er trent til å alltid tilfredsstille mennesket som eier dem, vil en KI være en like villig hjelper av terrororganisasjoner som barnehager. Det kan vi ikke tillate.

En løsning på dette problemet er å kreve at KI-er må ta innover seg alle menneskers interesser. Men en KI som er like serviceinnstilt overfor naboen som eieren, vil trolig ikke være populær på markedet. I tillegg, hvis KI-en skal tilfredsstille alle berørte parter, er det vanskelig å se at KI-en kan være en velvillig og ydmyk hjelper. Den vil snarere bli en utilitaristisk overdommer.

En bedre modell er å kreve at KI-system som fremmer eierens behov gjør det på en måte som både er i overensstemmelse med lover og regler og allmennmoralen. Vi oppnår aldri full harmoni. Men kanskje viser dagens samfunnsorden at det vi trenger er regler og normer som sikrer noenlunde harmoni, ikke en perfekt balansering av menneskers ulike interesser. Om det er nok for superintelligente aktør, er jeg imidlertid ikke så sikker på.

