Fördelar och risker med syntetisk video och röst

Fördelar och risker med syntetisk video och röst

I videon nedan, en minut lång, pratar jag sju språk. Egentligen kan jag bara tala två av dem. Inget av ljudet du hör är faktiskt jag som talar, även om det låter väldigt mycket som min röst. Och videon? Trots hur det ser ut är det inte jag som rör på munnen. På vissa sätt imponerande och på andra sätt tämligen obehagligt.

En kort sammanställning från sju olika videor där jag säger samma budskap, men varje segment på olika språk. Alla fullängdsvideor kan ses i slutet av artikeln.

För att uppnå det här resultatet gjorde jag en två minuters-inspelning av mig själv när jag pratade på engelska om vardagliga saker. Jag laddade upp denna som input till det generativa verktyget som tillhandahålls av en tjänst som kallas HeyGen. Den videon gav ett röstavtryck som kan användas för ett växande antal språk, idag mer än 25. Och ärligt talat, den genererade engelska rösten låter verkligen som jag.

När det gäller videon, så är scenen där jag ser ut att stå faktiskt där jag stod när jag spelade in originalvideon. Men huvud-, hand-, ögon- och läpprörelser genereras alla baserat på vad jag vill att min digitala tvilling, eller docka, ska säga. Jag skriver text i en ruta och tillbaka får jag en video med mig, talandes språket som texten skrevs på.

Observera också att tjänsten inte har några problem med rörelse i bakgrunden, vilket är något jag ville testa.

Din personliga docka kommer att säga vad som helst

För att vara tydlig: jag använder budgetversionen av den här tjänsten. Låt oss säga att jag vill ha en helkroppsversion av mig själv med anpassningsbara bakgrunder. Jag skulle åstadkomma det genom att spela in några minuter av mig själv när jag pratar i en green screen-studio. Lite dyrare, men inte alls krångligt

I syfte att väcka dina fantasi till att föreställa sig vad som är möjligt är detta förmodligen tillräckligt.

Jag kan se fördelar här för många typer av roller. Utbildare, chefer och presentatörer som behöver göra tillkännagivanden eller korta handledningar. En digital docka kan också helt enkelt läsa upp mötesprotokoll eller rapporter för personer som helst inte vill – eller inte kan – läsa.

Fördelar

Vissa fördelar är lätta att ta till sig:

  • Det finns inget behov av omtagningar eftersom det inte förekommer stamning, stakande eller snubblande över ord. Tekniskt strul lyser också med sin frånvaro och tidsbesparingarna blir därför kolossala.
  • Om jag vill ändra ett ord i det jag säger i videon betyder det att jag bokstavligen bara ändrar ordet i manuset. Ljudet av min virtuella röst förändras inte över dagen som det gör i verkligheten, där jag ofta måste spela in långa segment igen för att inte dra uppmärksamhet till skillnader i röstläge.
  • Jag behöver inte sätta upp en kamera, fixa belysningen eller ens klä på mig. Den visuella scenen är redan etablerad. Kom ihåg att du kan skapa ett konto för att ha ett urval av scener för olika tillfällen. Du behöver bara en två minuters källvideo för varje scen.
  • Jag kan skapa versioner av samma video på flera språk, inklusive de jag inte kan. Ja, denna nytta kan förstås leda till en rad problem.

Risker

Vilka är då riskerna?

  • Om du automatiskt översätter till språk du inte behärskar kan ditt budskap bli grammatiskt felaktigt, förvirrande eller till och med kränkande på sätt som du inte hade tänkt dig. Att ha någon språkkunnig som ansvarar för kvalitetssäkring är fortfarande ett måste.
  • Okonventionella uttal kommer sannolikt att hända då och då också, och hände mig när jag skapade en svensk röst. Jag behärskar förstås språket och blev inte jätte­imponerad av hur vissa ord uttalades. Eller vilka ord som valdes vid automatisk översättning. Du måste anta att detta sker för alla språk.
  • Människor kan känna sig lurade och tappa förtroendet om du inte är transparent med vad som verkligen pågår. Tydlighet kring teknikanvändning kommer att ha betydelse. Och även när folk är medvetna kan de känna att du tar ohederliga genvägar och inte lägger ner förväntat arbete. Ditt specifika sammanhang kommer att ha betydelse.
  • Överanvändning. Ja, när något är enkelt nog är det troligt att det kommer att sättas i bruk i många situationer där det faktiskt inte är så användbart eller relevant. Detta påverkar också den långsiktiga kvaliteten, och tilliten hos mottagarna.
  • När du använder en tredjepartstjänst se till att du förstår hur – och under vilka omständigheter – materialet du använder som input (dina videor och ditt textinnehåll/manus) kan användas av leverantören för att finjustera tjänsten. Du vill försäkra dig om att inget känsligt innehåll hamnar på oönskade platser och att du inte avsäger dig rättigheter för andra att använda din avbild.
  • Vem får styra din digitala tvilling? Den smidiga och friktionsfria upplevelsen av att ha en virtuell docka som du enkelt kan delegera kontroll över till andra kan naturligtvis slå tillbaka. Du kanske plötsligt tycker att din avbild säger saker som du inte riktigt har gått med på. Och om tillit blir ett problem, hur kommer förtroendet för den här typen av virtuella presentationer påverkas över tid?

Utöver dessa risker så kommer syntetisk video naturligtvis också att fungera som verktyg för missbruk och övergrepp. Jag nämnde kort att kontrollen över någons digitala tvilling innebär att du kan ge sken av att de säger vad som helst – och lura ett stort antal människor. Detta kan innefatta allt från smaklösa skämt till att få någon att hetsa till våld eller häva ur sig rasistiska kommentarer.

När det gäller övergrepp vill jag öka medvetenheten om det faktum att många unga kvinnor utsätts för att bli virtuella skådespelare i pornografiska filmer mot sin vilja, med mycket liten makt att invända eller ställa förövare inför rätta. Och även om lagar och tillsynsåtgärder förbättras, är många liv redan förstörda så snart det kränkande innehållet publiceras. Om du någon gång stöter på dylikt innehåll, rapportera det alltid till polisen omedelbart.

Tänk på hur ... men också varför och när och vem ... och varför inte

Fler och fler individer och organisationer kommer sannolikt att använda generativ programvara för att producera syntetisk video. Om du tror att det finns fördelar för dig och din verksamhet bör du sätta igång att lära dig. Men du måste också överväga och hantera användningsfall där transparens, pålitlighet och risker spelar in. Ett felsteg kan radera alla upplevda fördelar på några sekunder, om tilliten går förlorad.

Kanske viktigast av allt är nog att du själv bara som varandes en människa på den här planeten förmodligen måste vara medveten om just detta: det är enkelt och billigt nu för vem som helst att använda någon annans ansikte och få dem att säga vad som helst. På vilket språk som helst. ⏹

🧰
Listan över fördelar och risker i det här inlägget är inte uttömmande. Det finns metoder och verktyg för att avslöja etiska dilemman och hantera dem. I Elementen inom AI-etik hittar du en kartläggning av potentiella skador som kan hjälpa dig att styra ditt arbete. Element som inte nämns i detta inlägg är till exempel miljöpåverkan och exploatering av arbetare. Säg till om jag kan hjälpa till som rådgivare.

P.S. Jag lutar mer och mer åt att kalla det dockvideo, eller marionettvideo, snarare än syntetisk video. Vad tycker du?


Alla filmer

Här finns fullängdsversionerna av filmerna med mig som säger samma meddelande på sju olika språk. Jag har också inkluderat en version av mig som talar svenska med min egen röst, för att kunna jämföra. Videon för det klippet genereras alltså baserat på min riktiga röst, och det kan vara bra att veta att det också är ett alternativ att använda ljud som ingång för videoskapandet.


Vidare läsning

Diagram: Bias in Machine Learning
Understand the stages of machine learning where bias can, and often will, contribute to harm.
Elementen inom AI-etik
Låt oss prata om skada som orsakas av människor som implementerar AI.
Deepfake-porr med valfri person från Instagram
Tekniken blir hela tiden bättre och billigare. Porrindustrin växer i alla led. Nu är nämligen alla en potentiell porrskådis mot sin egen vilja. Och för unga kvinnor är det i princip omöjligt att skydda sig från att utnyttjas. Det går nu att till en låg kostnad skapa porrfilmer med vem