KI brukt til å gjenskape stemmen til pasient etter sykdom

Stemmen Alexis «Lexi» Bogan hadde før sykdommen, var sprudlende. Hun elsket å synge til Taylor Swift og Zach Bryan i bilen. Hun hadde en boblende latter og deltok høylytt i politiske samtaler med venner. På videregående var hun sopran i koret.

Så forsvant stemmen hennes. I august i fjor måtte legene fjerne en farlig hjernesvulst. Etter operasjonen fikk Bogan problemer med å svelge og kunne så vidt si hei til foreldrene sine.

Etter måneder med rehabilitering kom hun seg, men talen var fortsatt sterkt svekket. Både hennes egen familie og venner slet med å forstå hva hun ville si. For fremmede var det svært vanskelig.

Fikk tilbake stemmen

Så, i april i år, fikk 21-åringen tilbake sin gamle stemme. Ikke den ekte, men en stemme generert av kunstig intelligens (KI) som hun kan få fram fra en telefonapp.

Stemmen hennes ble trent inn i løpet av en 15-sekunders frekvens av tenåringsstemmen hennes. Den ble hentet fra en video der hun demonstrerer matlaging under et skoleprosjekt.

Nå kan den syntetiske, men bemerkelsesverdig ekte KI-stemme si nesten hva hun vil. Og den lyder som hennes, om enn unge stemme.

Alexis skriver inn noen få ord eller setninger på telefonen, og appen leser det opp umiddelbart. Ingen har lenger noen problemer med å forstå henne.

Les også: Kunstig intelligens kan skape skjult energikrise

Har blitt kritisert

Eksperter har imidlertid i sterke ordelag advart mot den KI-genererte stemmekloningsteknologien.

Slike KI-genererte etterligninger kan både føre til telefonsvindel, påvirke demokratiske valg og krenke verdigheten til mennesker – levende eller døde – som aldri har samtykket i å få stemmen deres gjenskapt for å si ting de kanskje aldri en gang har ment noe om.

Store teknologiselskaper er svært forsiktige med å åpne opp for bruken av slik teknologi. Men teknologien er i full gang likevel.

Mange har fått et sjokk

Politikere og kjendiser har opplevd å få stemmen deres gjenskapt og misbrukt. Velgere i den amerikanske delstaten New Hampshire mottok telefoner tidligere i år der en stemme, som hørtes ut som president Joe Biden, ba dem om å ikke stemme i nominasjonsvalget.

I Danmark laget opposisjonspartiet Dansk Folkeparti nylig en deepfake-video av landets statsminister Mette Frederiksen, som i videoen sier at regjeringen vil avskaffe pinsen, påsken og julen. Videoen var laget ved å manipulere videoer og lydopptak av statsministeren ved hjelp av kunstig intelligens.

Amerikanske myndigheter anklaget nylig en ansatt på en videregående skole i Maryland for å ha brukt KI for å skape et falskt lydklipp av skolens rektor som kom med rasistiske bemerkninger.

Norsk-amerikanske David Menkin er stemmeskuespiller og er blant annet stemmen til karakteren Breach fra spillet Valorant.

Ifølge NRK har han den siste tiden oppdaget flere ganger at stemmen hans har blitt brukt til å si ting han ikke står for eller har sagt.

Les også: Fire av ti nordmenn har trodd at KI-genererte opptak var ekte

I det godes tjeneste

Men teknologien kan også brukes i det godes tjeneste. Det mener i hvert fall Bogan og et team av leger ved det amerikanske sykehuset Rhode Islands Lifespan.

Bogan er en av de første personene – og den eneste med hennes tilstand – som har vært i stand til å gjenskape en tapt stemme med OpenAIs nye stemmemotor.

Noen andre KI-leverandører, som programvareselskapet ElevenLabs, har testet lignende teknologi for personer med talevansker og tap – deriblant for en advokat som nå bruker stemmeklonen i rettssalen.

– Vi håper at Bogan kan være en banebryter ettersom teknologien utvikler seg, sier nevrokirurgen Rohaid Ali.

Millioner av mennesker med svekkelser etter slag, kreft i halsen eller nevrogenerative sykdommer kan ha nytte av denne teknologien, sier han.

– Vi må være bevisst på risikoen, men vi kan ikke glemme pasienten og de sosiale godene teknologien kan ha for disse, mener legen Fatima Mirza, som også har jobbet med prosjektet.

– Vi har vært i stand til å gi Bogan tilbake hennes sanne stemme, og hun er i stand til å snakke på måter som er riktig for henne, tilføyer hun.

Les også: Opposisjonsparti laget deepfake-video av Danmarks statsminister: – Over streken

15 sekunder var nok

– Det var nesten som en del av identiteten min ble tatt fra meg da jeg mistet stemmen, forteller Bogan.

Bogan måtte altså gå noen år tilbake for å finne et passende opptak av stemmen sin for å trene opp KI-systemet til hvordan hun snakket. Stemmen kom fra en video der hun forklarte hvordan man lager en pastasalat.

Legene hennes matet KI-systemet med bare et klipp på 15 sekunder. Lydene fra resten av videoen gjorde resten vanskelig å bruke. Men de 15 sekundene var alt OpenAI trengte – noe som var et klart fremskritt fra tidligere teknologi som har krevd langt lengre opptak.

Noen få sekunders opptak kan altså være avgjørende for fremtidige pasienter. En kort talemelding til en pårørende kan kanskje være nok.

Les også: Mye lettere å lage «deepfakes»: – En utfordring for demokratiet

Noen umerkelige feil

Da de testet den for første gang, ble alle involverte overrasket over kvaliteten på stemmeklonen. Sporadiske feil – et feil uttalt ord, en manglende intonasjon – men stort sett var feilene umerkelige. Så i april i år utstyrte legene Bogan med en spesialbygd telefonapp som bare hun kan bruke.

– Jeg blir så emosjonell hver gang jeg hører stemmen hennes, forteller moren Pamela Bogan med tårer i øynene.

– Jeg synes det er kjempebra, sier Bogan selv om KI-stemmen sin. Den har bidratt til å få tilbake selvtilliten min, forteller hun.

Bogan bruker nå appen rundt 40 ganger om dagen og sender tilbakemeldinger som hun håper vil kunne hjelpe fremtidige pasienter.

Les også: – Hvorfor skal ansvaret legges på redde, nedbrutte jenter? (+)

En tenåringsstemme

Et av hennes første eksperimenter med appen var å snakke med barna på førskolen der hun jobber som lærerassistent. Hun skrev «ha ha ha ha» og ventet en robotstemme i retur. Til hennes overraskelse hørtes det ut som hennes gamle latter.

Men Bogan er mindre sikker på hva som vil skje når hun blir eldre og om KI-stemmen hennes fortsetter å være tenåringsstemmen.

– Kanskje teknologien også kan få stemmen min til å høres eldre ut, undres hun.

Les også: Donald Trump på bunn i ny undersøkelse: Kan bli tidenes verste president

---

Fakta om kunstig intelligens

* Generativ kunstig intelligens (KI) er en type kunstig intelligens som skaper et vidt spekter av data som tekst, dataprogrammer, bilder, 3D-modeller, video eller lyd.

* Teknologien som brukes, kalles maskinlæring, dyp læring og nevrale nett som benytter informasjon som blir matet inn til å generere nye data på egen hånd.

* Generativ KI kan brukes til å automatisere en rekke tjenester, som snakkeroboter i nettbutikker og banker, svare på epost eller skrive programvare. Maskinlæring kan også brukes til å trene opp andre databaserte assistenter.

* Det er en flora av KI-tjenester i dag.

Kilder: Store norske leksikon, generativeai.net, tek.no

---

Fakta om hvordan avsløre KI-generert lyd

Faktisk.no har laget tips for hvordan man kan avsløre KI-generert lyd:

* Lytt etter små og unaturlig «hakk». Lytt også etter plutselige endringer i tone eller inkonsekvent akustikk. Begge deler kan være tegn på manipulasjon.

* Hvem står bak: Som med alt innhold du presenteres for i sosiale medier, bør du tenke over hvem som sprer budskapet.

* KI-detektorene: Det finnes en rekke såkalte KI-detektorer, nettsider der du kan laste opp lydklipp, og få et pekepinn på hvor sannsynlig det er at klippet er KI-generert.

* Kontekst: Still spørsmål ved lydklippet du lurer på om kan være KI-generert. Hvor sannsynlig er det at USAs president Joe Biden ville oppfordret velgere til ikke å stemme?

Kilde: Faktisk.no

---