SORA: Nowe narzędzie do konwersji tekstu na wideo od OpenAI

Avatar photo

Gdy na rynek wprowadzono ChatGPT, umożliwiając nam bezpośrednią komunikację ze sztuczną inteligencją (AI), nikt nie przewidywał jeszcze, że ci sami innowatorzy już wkrótce stworzą system zdolny do generowania hiperrealistycznych filmów wideo na podstawie prostych opisów tekstowych. Jesteśmy świadkami rewolucji AI – przełomowej i kontrowersyjnej zarazem. Nadal nie wiadomo, w jaki sposób zmieni ona świat, choć jak większość innowacji, ma szansę zmienić dosłownie wszystko.

Dylemat sztucznej inteligencji

Sztuczna inteligencja pozostaje gorącym tematem w świecie technologii. Nie ustają wysiłki, by stworzyć coraz potężniejsze systemy sztucznej inteligencji, które będą w stanie robić dla nas niezwykłe rzeczy. Opinie na temat korzyści płynących z rozwoju sztucznej inteligencji są jednak podzielone.

Obawy dotyczą głównie etycznych aspektów sztucznej inteligencji i kwestii bezpieczeństwa. Czy filmy wideo stworzone przez sztuczną inteligencję będą możliwe do odróżnienia od prawdziwych nagrań? Jak zagwarantować, żeby nie zostały wykorzystane do celów politycznych? Czy sztuczna inteligencja stanowi zagrożenie dla ludzkich miejsc pracy, biorąc pod uwagę jej wydajność? Niektórzy obawiają się wręcz, że sztuczna inteligencja przejmie kontrolę nad światem, jak w filmie Ex Machina.

Jak w przypadku większości rewolucyjnych wynalazków, sztuczna inteligencja ma zarówno swoje dobre, jak i złe strony. Oczywiste zalety to usprawnienie naszego codziennego życia i sposobu pracy, poprawa opieki zdrowotnej, edukacji, biznesu i tym podobnych. Ludzie od wieków wciąż opracowują nowe technologie, a rozwój sztucznej inteligencji to tylko kolejny etap rewolucji przemysłowej. Na czym jednak polega ta rewolucja?

„Jeśli w erze, w której żyjemy, odbywa się kolejna rewolucja przemysłowa – jak twierdzi wiele osób – sztuczna inteligencja jest z pewnością jedną z jej sił napędowych”.

Fei-Fei Li, amerykańska informatyczka pochodzenia chińskiego

Wizualna rewolucja AI

Firma OpenAI zaprezentowała swój najnowszy system sztucznej inteligencji o nazwie Sora, który potrafi przekształcać teksty w realistyczne wizualizacje. Model nowej sztucznej inteligencji pozwala na tworzenie filmów o długości do 60 sekund jedynie na podstawie tekstu lub tekstu i obrazu. Niektóre elementy systemu Sora zostały zaczerpnięte z wcześniejszych innowacji OpenAI, w tym dużych modeli językowych GPT i generatora obrazów DALL-E. 

W jaki sposób innowacja OpenAI zamienia tekst w hiperrealistyczne filmy wideo?

Na poniższym filmie przedstawiono możliwości Sory do generowania filmów wideo na podstawie wyłącznie tekstu. Wśród prezentowanych przykładów znajdują się psy bawiące się na śniegu, zwiastun filmowy z udziałem realistycznie wyglądającego aktora oraz niezwykle realistyczny film przedstawiający kobietę spacerującą po Tokio.Filmy zostały stworzone zgodnie z wprowadzonymi komendami tekstowymi, zaprezentowane w bardzo realistycznych ujęciach, takich jak widok z kamer lub dronów, i jak twierdzi OpenAI, „wygenerowane przez Sorę bez modyfikacji”.

Premiera Sory

Ostatnia innowacja AI jest na razie dostępna tylko dla wybranej grupy artystów wizualnych, projektantów i filmowców, którzy testują jej możliwości i dostarczają firmie informacji zwrotnych. OpenAI planuje jednak publiczne udostępnienie Sory już wkrótce. 

Kilku ekspertów wyraziło już swoją opinię na temat projektu Sora. Jim Fan z Nvidii powiedział na przykład, że jest to „silnik fizyczny oparty na danych”, który może symulować światy, i uznał go za znacznie lepszą innowację niż inne „kreatywne zabawki” OpenAI. Z kolei Gary Marcus, dyrektor generalny Robust.AI i Geometric Intelligence (przejętej przez Uber), kwestionował generatywny model sztucznej inteligencji, który Sora wykorzystała do syntezy wideo, a także trafność wyprodukowanych przez nią filmów: „System próbuje przybliżyć świat, ale nie jest w tym zbyt dobry”. Jak podaje CBS News, nowa technologia „przeraziła” niektórych ekspertów sztucznej inteligencji. 

Ryzyko związane z treściami generowanymi przez sztuczną inteligencję

Wizualna rewolucja generatywnej sztucznej inteligencji oznacza zmiany w sposobie pracy w wielu sektorach. Praca twórców filmowych, projektantów, aktorów, dziennikarzy i nie tylko może zmienić się, a nawet zostać zastąpiona przez nowe rozwiązania. Pomimo entuzjazmu związanego z postępem technologii sztucznej inteligencji, wynikającym z tego modelu tworzenia wideo, pojawiają się obawy dotyczące ryzyka, że filmy deepfake nasilą dezinformację i zakłócą przepływ informacji na całym świecie, na przykład podczas wyborów w 2024 roku. Ofiarami fałszywych wiadomości stały się już niektóre gwiazdy. W jednej z reklam wykorzystano wygenerowane przez AI głos i twarz Scarlett Johansson bez jej zgody

W miarę rozwoju tej technologii zagwarantowanie odpowiedzialnego korzystania z wizualnie generatywnej sztucznej inteligencji będzie wymagało coraz silniejszych standardów etycznych, ram prawnych i rozwiązań technologicznych (takich jak sprawdzanie autentyczności i znak wodny). W ubiegłym roku prezydent USA Joe Biden ogłosił wydanie nowego rozporządzenia wykonawczego w sprawie sztucznej inteligencji, które wzywa do wprowadzenia dodatkowych środków bezpieczeństwa i znaków wodnych w celu wyraźnej identyfikacji treści stworzonych przez sztuczną inteligencję.

Przyszłość generatywnej wizualnej sztucznej inteligencji

W branży sztucznej inteligencji dochodzi do zmiany paradygmatu, a wkrótce będziemy świadkami radykalnej zmiany w świecie mediów wizualnych. Systemy wizualne AI staną się bardziej wyrafinowane i pozwolą na tworzenie coraz bardziej wyszukanych i realistycznych obrazów, filmów i środowisk wirtualnych. To z kolei może prowadzić do kreatywnych metod opowiadania historii, tworzenia spersonalizowanych treści oraz tworzenia ciekawych doświadczeń w wirtualnej i rozszerzonej rzeczywistości. Rozwój sztucznej inteligencji nie musi oznaczać, że ludzie staną się zbędni; tworzy on raczej możliwości współpracy człowieka ze sztuczną inteligencją w celu osiągnięcia wcześniej niewyobrażalnych rezultatów.

Potencjał ten niesie jednak ze sobą szereg poważnych obaw w związku z brakiem odpowiednich przepisów. Aby zredukować te zagrożenia, ważne jest, aby firmy takie jak OpenAI, Google, Meta czy start-upy AI zaangażowane w projekty typu text-to-video, przestrzegały ścisłych wytycznych. Na stronie OpenAI znajduje się informacja o tym, że firma „podejmuje szereg znaczących kroków w zakresie bezpieczeństwa przed udostępnieniem Sory w produktach OpenAI”. Miejmy więc nadzieję, że prawdziwa era sztucznej inteligencji rozpocznie się dopiero wtedy, gdy rządy i organizacje będą dysponować odpowiednimi zasadami i przepisami.


Total
0
Shares
Poprzedni post

Przewodnik po diodach LED na podczerwień (IR) od Intelligent LED Solutions

Następny post

Jak wykorzystuje się roboty w przemyśle spożywczym

Powiązane posty