En ting er, at dygtige high tech udviklere længe har kunne skabe video med personer, der taler ord, de aldrig har sagt. En anden ting er, når processen bliver så enkel, at vi alle kan gøre det.
Det punkt har den såkaldte deep fake-teknologi ramt efter IO-firmaet Synthesia netop har lanceret en editor, hvor man selv indtaster sin tekst og minutter senere har en video med en person, der speaker teksten.
At Synthesia oven i købet kan få “studieværten” til at speake den samme tekst på 34 sprog, gør kun mulighederne endnu større.
Synthesias kvalitet kan stadig forbedres, men tjek denne video og bedøm selv. Den er skabt lige så hurtigt som, denne artikels indledning kunne kopieres ind i Synthesias brugerflade. Nogenlunde lige så let, som at poste et opslag på Facebook eller sende en mail.
Synthesia, er som det ofte er med ny teknologi, stærkest på verdenssprogene. Men de oplyser, at de meget snart lancerer en forbedret dansk stemme. Det vil formentlig betyde bedre rytme, pauser og betoninger.
Tjek til sammenligning, hvor Synthesia speaker på engelsk. I øvrigt et sprog, der tilbydes med både engelsk, amerikansk, australsk og indisk dialekt.
tEKSTEN TIL DENNE VIDEO ER HENTET FRA EN bbc-ARTIKEL
Deep fakes er mest kendt for de mulige negative og manipulerende udnyttelsespotentialer. Men i hænderne på good guys er potentialet også stort. Det gælder også i medieverden, hvor deep fakes kan kombineres med robotgenererede tekster og på den måde skabe uendelige nyhedsindslag.
BBC har allerede eksperimenteret med syntetiske vejrudsigter, hvor en af stationens vejrværter bruges til at speake vejrudsigter for selv den mindste flække. Det sker ved at, robotter skriver speaken på baggrund af meteorologiske data, som derefter fodres ind i deep fake-maskinen, som så spytter en video ud efter brugernes ønsker.
Reuters er Synthesias seneste mediesamarbejde. Her har de bygget en nyhedsmaskine, der ved hjælp af automatisering og deepfake-teknologi kan producere hele nyhedsindslag med sportsresultater, billeder af mål og videospeak fra en sportsvært.
Teknologien bag deep fake er, at en vært har indtalt en masse replikker og tal og at kunstig intelligens derefter modellerer værtens ansigt, når ordene skal artikuleres.
I Synthesias nye editor, kan man i øjeblikket vælge mellem syv forskellige værter. (faktisk seks, men den ene vært fås med og uden udslået hår)Men man kan også skabe sin egen vært ved at uploade optagelser af en selv eller en anden person, som oplæser et manuskript. Processen tager cirka 15 minutter en gang for alle.
Synthesias fokus er egentlig ikke medieverden, men derimod alle andre virksomheder og organisationer, der har brug for kommunikation. Video kan i mange tilfælde være mere effektive redskaber end rundsendte memoer til personalet, og når firmaets CEO lige pludselig kan kommunikere på 34 forskellige sprog uden i øvrigt at have været involveret i andet end de 15 minutter, hun speakede første gang, ja så kan enhver formentlig se mulighederne.
I medieverden skal deep fake først og fremmest opfattes som en overbygning til den eksisterende robotartikel-teknologi.
Ud over det, er det også oplagt, at deep fake kan bruges som et text-to-view tilbud til mediebrugere, der hælder til video, ligesom flere og flere medier anvender text-to-speech for at få artikler oplæst.
Synthesias editor er lige nu i beta og man skal ansøge om at få adgang.