Presentation av SORA: ett nytt text till video-verktyg från OpenAI

Profilbild

När ChatGPT introducerades och möjliggjorde direkt kommunikation med artificiell intelligens (AI), kunde ingen ha förutsett att samma innovatörer snart skulle skapa ett system som kan generera hyperrealistiska videor från endast textbeskrivningar. AI-revolutionen är här och den är kontroversiell, banbrytande och revolutionerande. Hur den kommer att förändra världen är fortfarande oklart, men liksom de flesta innovationer har den möjlighet att förändra allt.

AI-dilemmat

Artificiell intelligens är just nu det hetaste ämnet i teknikvärlden. Ingenjörer, teknikföretag och nystartsföretag strävar efter att skapa allt mer kraftfulla AI-system som kan göra fantastiska saker åt oss. Åsikterna går dock isär kring om detta är något positivt eller inte, och vad syftet med att utveckla AI egentligen är.

Frågetecknen rör främst de etiska implikationerna av AI och säkerhet. Hur ska vi kunna avgöra om en video genererad av AI är äkta eller falsk? Hur kan vi säkerställa att den inte används för politiska syften? Är AI ett hot mot mänskliga jobb inom en rad yrken, med tanke på hur effektivt och produktivt det kan vara? En del människor är oroade över att AI kommer att ta över världen och ersätta människor, som vi kan se i filmen Ex Machina.

Oavsett om du är för den här tekniken eller inte, är sanningen att AI är här och att det precis som de flesta revolutionerande uppfinningar har både goda och dåliga sidor. De uppenbara fördelarna är att det förbättrar våra liv och vårt arbete, sjukvård, utbildning, affärer och så vidare. Människor har i själva verket alltid strävat framåt, och detta är bara nästa steg i den industriella revolutionens utveckling. Men hur revolutionerande är det?

“Om vår era är den nästa industriella revolutionen som många säger, är AI garanterat en av dess drivkrafter.”

Fei Fei Li, en amerikansk datavetare född i Kina

En ny revolution inom visuell AI

OpenAI har presenterat Sora, företagets senaste system med artificiell intelligens, som kan omvandla skriftliga beskrivningar till realistiska bilder. För tillfället kan Soras AI-modell skapa upp till 60 sekunder långa videoklipp som bygger på enbart text eller text- och bildinstruktioner. En del av grunden för Sora har hämtats från OpenAI:s tidigare innovationer, inklusive GPT Big Language-modellerna och bildgeneratorn DALL-E. 

Hur OpenAI:s innovation förvandlar text till hyperrealistiska videor

I videon nedan presenteras Sora tillsammans med en titt på hur systemet kan skapa en video med endast text. Exemplen omfattar golden retrievers som leker i snön, en filmtrailer med en skådespelare med realistiskt utseende och en övertygande vy med en kvinna i Tokyo. Samtliga ser ut att vara skickade från någons kamera.  Alla videor som skapats följde de textkommandon som matats in och presenterades i mycket realistiska vyer som ser ut att komma från kameror eller drönare, och är som OpenAI säger, “genererade av Sora utan modifieringar”.

https://www.youtube.com/watch?v=HK6y8DAPN_0

Soras lansering

Sora är den senaste AI-innovationen som kan producera realistiska videor från textdata. Den finns inte offentligt tillgänglig ännu eftersom OpenAI har begränsat dess användning till en utvald grupp visuella artister, formgivare och filmskapare som nu testar den och lämnar information till företaget. Företaget planerar dock att släppa den till allmänheten inom en nära framtid. 

Hittills har ett antal experter uttalat sin åsikt om Sora-modellen. Till exempel har Jim Fan från Nvidia sagt att det är en “datadriven fysikmotor” som kan simulera världar, och anser att det är en mycket bättre innovation än de andra “kreativa verktygen” från OpenAI. Å andra sidan ifrågasätter Gary Marcus, vd för Robust.AI och Geometric Intelligence (förvärvat av Uber), den modell för generativ AI som Sora använde för videosyntes och exaktheten i den video som skapats: “Systemet försöker göra en uppskattning av världen, men det är helt enkelt inte särskilt bra på sitt jobb“. Enligt CBS News har den nya tekniken gjort vissa AI-experter “skräckslagna”. 

Riskerna med AI-genererat innehåll

Revolutionen inom visuellt generativ AI innebär potentiella förändringar i arbetssättet för de flesta branscher, från kreativa yrkespersoner som formgivare, innehållsskapare och filmskapare, där skådespelare kan ersättas eller bilder ändras, till media- och nöjesföretag och journalister. Även om det finns stort intresse kring framstegen inom AI-teknik tack vare den här modellen för videoskapande, finns det också en oro för risken att artificiella “deepfake”-videor kan öka den falska informationen världen över inför exempelvis de globala valen under 2024. En del kändisar har redan blivit utsatta och trakasserade genom falska nyheter. Scarlett Johansons AI-genererade röst och ansikte användes till exempel i en annons utan hennes tillstånd

För att säkerställa ansvarsfull användning av visuellt generativ AI, kommer höga etiska standarder, juridiska ramverk och tekniska lösningar (till exempel kontroll av autenticitet och vattenmärken) att krävas i allt högre grad allt eftersom tekniken utvecklas. Förra året lade USA:s president Joe Biden fram en ny verkställande order om AI, som kräver extra säkerhetsåtgärder och vattenstämplar för att tydligt identifiera arbete som skapats av artificiell intelligens.

Framtiden för visuellt generativ AI 

Branschen genomgår ett paradigmskifte och framtiden för visuella medier kommer snart att förändras dramatiskt. Visuella AI-system kommer att bli mer sofistikerade och möjliggöra skapandet av allt mer utförliga och realistiska bilder, filmer och virtuella miljöer. Detta kan leda till kreativa metoder för att framföra berättelser, skapa anpassat innehåll och tillhandahålla engagerande virtuella upplevelser med förstärkt verklighet. Utvecklingen av AI innebär inte främst att människor kommer att förlora sina jobb; i stället skapar det möjligheter för samarbete mellan människor och AI med tidigare otänkbara resultat.

I avsaknad av lämpliga lagar medför dessa möjligheter en lång rad allvarliga frågetecken. För att minska dessa risker är det avgörande att företag som OpenAI, Google, Meta och nystartade företag som Runway, som arbetar med text till video-AI-projekt, följer strikta riktlinjer. På OpenAI:s webbsida finns information om att företaget “vidtar flera viktiga säkerhetsåtgärder innan Sora görs tillgänglig i OpenAI:s produkter”, så låt oss hoppas att den riktiga AI-eran inleds först när myndigheter och organisationer har tillgång till lämpliga regler och bestämmelser.


Total
0
Shares
Tidigare inlägg

Rollen som tekniken spelar för hållbarhet inom livsmedel

Nästa inlägg

En guide till infraröda (IR) lysdioder från Intelligent LED Solutions

Relaterade inlägg