Digital etik

När din röst rymmer hemifrån

Att klona en röst kan göras med mindre än en minuts inspelning idag. Men har du koll på vem som använder din röst och till vad?

Per Axbom

19 apr 2023

Din dotter ringer från semestern och säger med panik i rösten att hon och hennes kompis har problem med en betalning. Snälla, du behöver Swisha kompisen så att de kan betala för hotellrummet. Vad gör du? Tryggast är att lägga på och ringa upp din dotter. Hur mycket det än låter som Sofia så kanske det inte alls är det.

Bedrägerier med klonade röster är på framväxt. Telefonsamtal där människor luras på pengar har en lång tradition, men det nya idag är att rösten i andra änden kan vara en röst du känner igen. Kanske en röst du delar bostad med.

Min podd-kollega James och jag har skämtat om att det finns flera hundra timmars ljudmaterial med våra röster från över ett decennium av poddande och föreläsningar som publicerats online. I mitt fall även på svenska. Det går att få våra röster att säga vad som helst. Jag har låtit min familj förstå dilemmat med detta.

Din röst är också i riskzonen

Men sanningen är att även din röst kan vara lika utsatt idag. De nya verktygen behöver bara en inspelad minut av din röst för att skapa en trovärdig kopia. Sextio sekunder. Ja, Microsoft påstår sig kunna göra det på tre. Sedan kan din röst säga vad som helst*.

*Än så länge är detta framför allt sant när det gäller engelsktalande röster. Men även denna utveckling går förstås hisnande snabbt och fler språk är runt hörnet.

Den som tänker att deras röst i alla fall inte finns inspelad i någon större utsträckning tänker säkert inte på alla samtal som spelas in i 'utbildningssyfte', alla video-möten man deltar på där man kanske ställer frågor, fester där det spelas in filmer eller alla de mikrofoner som finns närvarande i vår vardag hela tiden och kan aktiveras på distans. Det är nästan svårt att inte ibland spela in sig själv av misstag.

Din chef kallar in dig till sitt kontor och undrar vad du menade med ditt samtal igår kväll där du sa upp dig. Men du har inte alls ringt. Ett kul 'practical joke' av en kollega eller en föraning om värre saker som kan komma?

Vad kan hända?

I april 2023 kunde vi läsa om Jennifer som fick ett samtal av en kidnappare där hennes dotter först sa "Mamma, jag har gjort bort mig..." och sedan, under det att kidnapparen ställde sina krav, snyftade i bakgrunden "mamma, snälla, hjälp mig". Tilltaget lyckades inte då ett separat samtal verifierade att dottern befann sig trygg och säker hos en kompis. Men Jennifer var under samtalet helt övertygad om att det var hennes dotter i andra änden.

I Australien används röster för att verifiera identitet hos banker och hos skattemyndigheten. Det har visat sig att röstkloner kan användas för att lura systemen för att komma åt konton. Tack och lov behöver man också känna till en pin-kod, vilket kan hjälpa till att stoppa en stor del av försöken.

Men tänk på de gånger du blivit ombedd att bekräfta en prenumeration via en inspelning av din röst. Din röst. Som du förutsätter att ingen annan har.

En chat-tjänst på Telegram låter dig beställa swatting-tjänster som använder röstkloner. Det är ett fenomen där kriminella lurar en blåljus-tjänst till att skicka polis eller utryckningspersonal till någons adress. I senaste avsnittet av Cyber berättas om hur den används för att skicka utryckningsfordon till skolor som hotas av sprängdåd, av datorgenerade röster.

När vet du om nästa bedrägeri kommer innehålla en röst som tillhör dig eller någon i din närhet? Kan den egentligen sägas tillhöra dig längre?

Självklart finns goda användningsområden

Redan 2007 testade jag att använda en tjänst vid namn ReadSpeaker för att få mina blogginlägg upplästa. Det bidrog till att fler kunde ta del av mina texter och var självklart positivt för att öka tillgängligheten på min webbplats.

På samma sätt ger dessa verktyg en röstkvalitet som leder till än bättre tillgänglighet: det blir behagligare att lyssna till. Och det går även med dessa till exempel att göra om nyheter och artiklar till en podcast, utan att behöva yttra ett ord.

Jag som idag på egen hand läser in mina blogginlägg till en podcast skulle alltså kunna låta detta automatiseras. Än så länge håller jag mig försiktigt skeptisk till att själv gå den vägen, eftersom jag skulle förlora så många andra av fördelarna med att läsa högt, som kan förbättra såväl text som inläsning.

Om valet står mellan att göra text tillgänglig på ett automatiserat sätt (inte så gediget) och att inte göra det alls, så känns det spontant bättre att det faktiskt görs. Men ett skifte där klonade röster blir gängse får förstås effekten att många som arbetar med rösten som yrke (reklam, inläsning av böcker, dubbning med mera) får allt svårare att hitta arbete. Många av dessa personer har redan avtvingats rättigheter till sina egna röster(!)

Effektivisering behöver såväl eftertanke som omtanke

För kreatörer som jag själv finns det förstås ytterligare fördelar i att kunna erbjuda innehåll i flera format och på så sätt också nå fler med mitt innehåll på ett sätt som bättre passar den som läser eller lyssnar eller varvar mellan dessa format.

Och redan nu är det så att människor med funktionsnedsättningar som gör att de förlorar sin talförmåga kan erbjudas att kommunicera via tekniska verktyg med röster som de en gång haft eller som de önskar att de fått. En teknik känd som voice banking görs oerhört mycket mer effektiv när man inte behöver spela in flera timmar av sin röst. Även om det går att önska mer inkludering av personer med de faktiska behoven i dessa utvecklingsprocesser.

Men huruvida vi ska kunna generera nya låtar med kända artisters röster, och om du ska få låta avlidna personer i din närhet ge röst åt dina egna digitala assistenter, är förstås också sådant vi kommer behöva ta ställning till framöver. Spelar det någon roll om musiken vi lyssnar på är AI-genererad om vi inte vet om det?

Jag skulle trots allt önska att vi skyndade långsammare.

Riskmedvetenhet kräver transparens

Mitt budskap är som alltid att samtidigt som vi pratar om fördelar med digitalisering måste vi vara öppna och tydliga med alla problem som skapas. Det är först då vi blir bättre på att också bemöta, mitigera och hantera risker. Först då skapar vi det sociala trycket som tvingar företag att bli mer försiktiga i en annars otyglad framfart.

I min engelska podd Carefully kommer jag i nästa avsnitt använda en röstklon för delar av ljudet. Prenumerera om du vill försöka lista ut vilka delar av avsnittet som inte är jag som pratar, vilket avslöjas i slutet. Jag lägger ett exempel i den svenska podden Omtanke också.

Vi har en fördel i Sverige (många skulle säkert säga nackdel) och det är att dessa klon-verktyg har kommit betydligt längre när det gäller just engelska röster och uttal. Men det kan också invagga oss i falsk trygghet. Oavsett vilken falang man tillhör så ger det oss trots allt mer tid för reflektion kring lämpliga användningsområden innan den stora vågen av syntetiska röster slår emot oss. Och redan idag kan din röstklon tala mer än 30 språk.

Vad tänker du när du hör om den här utvecklingen? Vilka fördelar och risker ser du för dig själv och andra?