Runway Gen-4-მა ხელოვნური ინტელექტის ვიდეოს უდიდესი პრობლემა გადაჭრა: პერსონაჟების თანმიმდევრულობა სცენებში

Runway AI Inc.-მა დღეს გამოუშვა ხელოვნური ინტელექტის ვიდეოების გენერირების ყველაზე მოწინავე მოდელი და შევიდა კონკურენციის შემდეგ ფაზაში, რათა შექმნას ინსტრუმენტები, რომლებსაც შეუძლიათ კინოწარმოების ტრანსფორმაცია. ახალი Gen-4 სისტემა წარმოადგენს პერსონაჟებისა და სცენების თანმიმდევრულობას მრავალ კადრში — შესაძლებლობას, რომელიც აქამდე თითქმის ყველა ხელოვნური ინტელექტის ვიდეო გენერატორს გაურბოდა.

ნიუ-იორკში დაფუძნებული სტარტაპი, რომელსაც მხარს უჭერენ Google, Nvidia და Salesforce, უშვებს „Gen-4“-ს ყველა ფასიანი აბონენტისა და საწარმოს მომხმარებლისთვის, დამატებითი ფუნქციები კი ამ კვირის ბოლოს იგეგმება. მომხმარებლებს შეუძლიათ შექმნან ხუთ და ათ წამიანი კლიპები 720p გარჩევადობით.

გამოშვება მოხდა OpenAI-ის მიერ გამოსახულების გენერირების ახალი ფუნქციის გამოშვებიდან სულ რამდენიმე დღეში, რომელიც ასევე იძლევა პერსონაჟების თანმიმდევრულობას მის სურათებში. გამოშვებამ კულტურული ფენომენი შექმნა, მილიონობით მომხმარებელი ითხოვდა Studio Ghibli-ს სტილის სურათებს ChatGPT-ის საშუალებით. სწორედ Ghibli-ს სტილის თანმიმდევრულობამ ჩეთებში გამოიწვია ფურორი.

ვირუსული ტენდენცია იმდენად პოპულარული გახდა, რომ დროებით გათიშა OpenAI-ის სერვერები, რის გამოც აღმასრულებელმა დირექტორმა სემ ალტმანმა დაწერა ტვიტერზე, რომ „ჩვენი GPU-ები დნება“ უპრეცედენტო მოთხოვნის გამო. Ghibli-ს სტილის სურათებმა ასევე გამოიწვია ცხარე დებატები საავტორო უფლებების შესახებ, ბევრი კითხულობდა, შეუძლიათ თუ არა ხელოვნური ინტელექტის კომპანიებს კანონიერად მიბაძონ გამორჩეულ მხატვრულ სტილებს.

ვიზუალური უწყვეტობა: ხელოვნური ინტელექტის კინოწარმოების დაკარგული ნაწილი აქამდე

თუ პერსონაჟების თანმიმდევრულობამ გამოიწვია მასიური ვირუსული ზრდა OpenAI-ის გამოსახულების ფუნქციისთვის, შეიძლება იგივე მოხდეს Runway-ში ვიდეოსთვის?

პერსონაჟებისა და სცენების თანმიმდევრულობა — ერთი და იგივე ვიზუალური ელემენტების შენარჩუნება მრავალ კადრსა და კუთხეში — იყო ხელოვნური ინტელექტის ვიდეო გენერირების აქილევსის ქუსლი. როდესაც პერსონაჟის სახე ოდნავ იცვლება კადრებს შორის ან ფონის ელემენტი ქრება აუხსნელად, კონტენტის ხელოვნური ბუნება მაყურებლებისთვის მაშინვე აშკარა ხდება.

გამოწვევა გამომდინარეობს იქიდან, თუ როგორ მუშაობს ეს მოდელები ფუნდამენტურ დონეზე. წინა ხელოვნური ინტელექტის გენერატორები თითოეულ კადრს განიხილავდნენ, როგორც ცალკე შემოქმედებით ამოცანას, რომელთა შორის მხოლოდ სუსტი კავშირები არსებობდა. წარმოიდგინეთ, რომ ოთახში სავსე მხატვრებს სთხოვოთ, თითოეულმა დახატოს ფილმის ერთი კადრი ისე, რომ არ ნახონ, რა იყო მანამდე ან მის შემდეგ — შედეგი ვიზუალურად დანაწევრებული იქნება.

Runway-ის Gen-4, როგორც ჩანს, გაუმკლავდა ამ პრობლემას იმით, რომ შექმნა ის, რაც ვიზუალური ელემენტების მუდმივი მეხსიერებაა. მას შემდეგ, რაც პერსონაჟი, ობიექტი ან გარემო შეიქმნება, სისტემას შეუძლია მისი რენდერი სხვადასხვა კუთხიდან მისი ძირითადი ატრიბუტების შენარჩუნებით. ეს არ არის მხოლოდ ტექნიკური გაუმჯობესება; ეს არის განსხვავება საინტერესო ვიზუალური ნაწყვეტების შექმნასა და რეალური ისტორიების მოყოლას შორის.

ვიზუალური მითითებების გამოყენებით, ინსტრუქციებთან ერთად, Gen-4 საშუალებას გაძლევთ შექმნათ ახალი სურათები და ვიდეოები თანმიმდევრული სტილით, საგნებით, ადგილებით და სხვა. რაც საშუალებას იძლევა უწყვეტობა და კონტროლი თქვენს ისტორიებში.

მოდელის ნარატიული შესაძლებლობების შესამოწმებლად, ჩვენ შევკრიბეთ… A_TAG_9
— Runway (@runwayml) A_TAG_10

Runway-ის დოკუმენტაციის მიხედვით, Gen-4 მომხმარებლებს საშუალებას აძლევს მიაწოდონ საგნების საცნობარო სურათები და აღწერონ კომპოზიცია, რომელიც მათ სურთ, ხელოვნური ინტელექტი კი წარმოქმნის თანმიმდევრულ გამოსახულებებს სხვადასხვა კუთხიდან. კომპანია აცხადებს, რომ მოდელს შეუძლია რეალისტური მოძრაობის მქონე ვიდეოების რენდერი საგნის, ობიექტისა და სტილის თანმიმდევრულობის შენარჩუნებით.

მოდელის შესაძლებლობების საჩვენებლად, Runway-მ გამოუშვა რამდენიმე მოკლემეტრაჟიანი ფილმი, რომელიც მთლიანად Gen-4-ით არის შექმნილი. ერთ-ერთი ფილმი, „Gen-4 სისტემა1“, აჩვენებს მოდელის ვიზუალურ ეფექტებს რეალისტური ცხოველების კინემატოგრაფიულ ნიუ-იორკის გარემოში განთავსებით. მეორე, სახელწოდებით „Gen-4 სისტემა2“, მოგვითხრობს მკვლევარებზე, რომლებიც ეძებენ იდუმალ ყვავილს და ერთ კვირაზე ნაკლებ დროშია გადაღებული.

Gen-4 სისტემა3

სახის ანიმაციიდან მსოფლიო მოდელებამდე: Runway-ის ხელოვნური ინტელექტის კინოწარმოების ევოლუცია

Gen-4 ეფუძნება Runway-ის წინა ინსტრუმენტებს. ოქტომბერში კომპანიამ გამოუშვა Gen-4 სისტემა4, ფუნქცია, რომელიც კინორეჟისორებს საშუალებას აძლევს გადაიღონ სახის გამომეტყველება სმარტფონის ვიდეოდან და გადაიტანონ ისინი ხელოვნური ინტელექტის მიერ გენერირებულ პერსონაჟებზე. მომდევნო თვეში Runway-მ დაამატა გაფართოებული Gen-4 სისტემა5 თავის Gen-3 Alpha Turbo მოდელს, რაც მომხმარებლებს საშუალებას აძლევს მასშტაბირება გააკეთონ სცენებში პერსონაჟების ფორმების შენარჩუნებით.

ეს ტრაექტორია ავლენს Runway-ის სტრატეგიულ ხედვას. მაშინ როდესაც კონკურენტები ფოკუსირებულნი არიან ოდესმე უფრო რეალისტური ერთჯერადი სურათების ან კლიპების შექმნაზე, Runway აწყობდა სრული ციფრული წარმოების მილსადენის კომპონენტებს. მიდგომა უფრო ჰგავს იმას, თუ როგორ მუშაობენ რეალური კინორეჟისორები — ასახავს შესრულების, დაფარვისა და ვიზუალური უწყვეტობის პრობლემებს, როგორც ურთიერთდაკავშირებულ გამოწვევებს და არა იზოლირებულ ტექნიკურ დაბრკოლებებს.

სახის ანიმაციის ინსტრუმენტებიდან თანმიმდევრულ მსოფლიო მოდელებამდე ევოლუცია იმაზე მეტყველებს, რომ Runway-ს ესმის, რომ ხელოვნური ინტელექტის დახმარებით კინოწარმოებამ უნდა მიჰყვეს ტრადიციული წარმოების ლოგიკას, რათა იყოს ჭეშმარიტად სასარგებლო. ეს არის განსხვავება ტექნიკური დემონსტრაციის შექმნასა და ინსტრუმენტების შექმნას შორის, რომლებიც პროფესიონალებს რეალურად შეუძლიათ თავიანთ სამუშაო პროცესში ჩართონ.

ხელოვნური ინტელექტის ვიდეოს მილიარდი დოლარის ბრძოლა მწვავდება

ფინანსური შედეგები მნიშვნელოვანია Runway-სთვის, რომელიც, როგორც ცნობილია, აგროვებს Gen-4 სისტემა6, რომელიც კომპანიას 4 მილიარდ დოლარად შეაფასებდა. ფინანსური ანგარიშების მიხედვით, სტარტაპი მიზნად ისახავს მიაღწიოს Gen-4 სისტემა7 ახალი პროდუქტების და ვიდეო გენერირების მოდელების API-ს გაშვების შემდეგ.

Runway-მ ჰოლივუდური პარტნიორობა განახორციელა, Gen-4 სისტემა8, რათა შექმნას ხელოვნური ინტელექტის ვიდეო გენერირების მორგებული მოდელი სტუდიის 20000-ზე მეტი სათაურის კატალოგზე დაყრდნობით. კომპანიამ ასევე დააარსა Gen-4 სისტემა9, რომელიც კინორეჟისორებს სთავაზობს 1 მილიონ დოლარამდე ფილმების გადასაღებად ხელოვნური ინტელექტის გამოყენებით.

„ჩვენ გვჯერა, რომ საუკეთესო ისტორიები ჯერ კიდევ მოსაყოლია, მაგრამ ტრადიციული დაფინანსების მექანიზმები ხშირად უგულებელყოფენ ახალ და განვითარებად ხედვებს უფრო დიდ ინდუსტრიულ ეკოსისტემაში“, — განმარტავს Runway თავისი ფონდის ვებსაიტზე.

თუმცა, ტექნოლოგია შეშფოთებას იწვევს კინოინდუსტრიის პროფესიონალებში. Google0, რომელიც Google1-ის მიერ არის დაკვეთილი, აჩვენა, რომ ხელოვნური ინტელექტის მიმღები კინოწარმოების კომპანიების 75%-მა შეამცირა, გააერთიანა ან გააუქმა სამუშაო ადგილები. კვლევა პროგნოზირებს, რომ 2026 წლისთვის გენერაციული ხელოვნური ინტელექტის გავლენის ქვეშ მოექცევა 100000-ზე მეტი აშშ-ს გასართობი ინდუსტრიის სამუშაო ადგილი.

საავტორო უფლებების საკითხები ხელოვნური ინტელექტის შემოქმედებით აფეთქებას მოჰყვება

სხვა ხელოვნური ინტელექტის კომპანიების მსგავსად, Runway საავტორო უფლებების დარღვევის გამო სასამართლო განხილვის წინაშე დგას მისი სასწავლო მონაცემების გამო. კომპანია ამჟამად იცავს თავს მხატვრების მიერ წამოწყებულ სასამართლო პროცესში, რომლებიც ამტკიცებენ, რომ მათი საავტორო უფლებებით დაცული ნამუშევრები გამოიყენებოდა ხელოვნური ინტელექტის მოდელების გასაწვრთნელად ნებართვის გარეშე. Runway-მ სამართლიანი გამოყენების დოქტრინა მოიყვანა თავის დაცვად, თუმცა სასამართლოებს ჯერ არ მიუღიათ საბოლოო გადაწყვეტილება საავტორო უფლებების კანონის ამ გამოყენებასთან დაკავშირებით.

საავტორო უფლებების დებატები გამწვავდა გასულ კვირას Google2, რომელიც მომხმარებლებს საშუალებას აძლევდა შეექმნათ სურათები ჰაიაო მიაძაკის ანიმაციური სტუდიის გამორჩეულ სტილში აშკარა ნებართვის გარეშე. OpenAI-სგან განსხვავებით, რომელიც უარს ამბობს ცოცხალი მხატვრების სტილში სურათების გენერირებაზე, მაგრამ ნებას რთავს სტუდიური სტილის გამოყენებას, Runway-ს საჯაროდ არ დაუკონკრეტებია თავისი პოლიტიკა სტილის მიბაძვის შესახებ.

ეს განსხვავება სულ უფრო და უფრო თვითნებურად გვეჩვენება, რადგან ხელოვნური ინტელექტის მოდელები უფრო დახვეწილი ხდება. ზღვარი ფართო მხატვრული ტრადიციებიდან სწავლასა და კონკრეტული შემქმნელების სტილის კოპირებას შორის თითქმის უხილავი გახდა. როდესაც ხელოვნურ ინტელექტს შეუძლია სრულყოფილად მიბაძოს ვიზუალურ ენას, რომლის განვითარებას მიაძაკის ათწლეულები დასჭირდა, აქვს მნიშვნელობა, ვთხოვთ თუ არა მას სტუდიის თუ თავად მხატვრის კოპირებას?

სასწავლო მონაცემების წყაროების შესახებ კითხვაზე, Runway-მ უარი თქვა კონკრეტიკის მიწოდებაზე, კონკურენტული შეშფოთების მოტივით. ეს გაუმჭვირვალობა სტანდარტულ პრაქტიკად იქცა ხელოვნური ინტელექტის დეველოპერებს შორის, მაგრამ კვლავაც დავის საგნად რჩება შემქმნელებისთვის.

ინსტრუმენტები აქ არის, მაგრამ რა ისტორიებს მოვყვებით?

რადგან მარკეტინგული სააგენტოები, საგანმანათლებლო კონტენტის შემქმნელები და კორპორატიული კომუნიკაციების გუნდები იკვლევენ, თუ როგორ შეუძლიათ Gen-4-ის მსგავს ინსტრუმენტებს ვიდეო წარმოების გამარტივება, კითხვა ტექნიკური შესაძლებლობებიდან შემოქმედებით გამოყენებაზე გადადის.

კინორეჟისორებისთვის ტექნოლოგია წარმოადგენს როგორც შესაძლებლობას, ასევე დისრუპციას. დამოუკიდებელი შემქმნელები იღებენ წვდომას ვიზუალური ეფექტების შესაძლებლობებზე, რომლებიც ადრე მხოლოდ მსხვილი სტუდიებისთვის იყო ხელმისაწვდომი, ხოლო ტრადიციული VFX და ანიმაციის პროფესიონალები გაურკვეველი მომავლის წინაშე დგანან.

უხერხული სიმართლე ის არის, რომ ტექნიკური შეზღუდვები არასოდეს ყოფილა ის, რაც ხელს უშლიდა ადამიანების უმეტესობას დამაჯერებელი ფილმების გადაღებაში. ვიზუალური უწყვეტობის შენარჩუნების შესაძლებლობა უცებ არ შექმნის თხრობის გენიოსების თაობას. თუმცა, რისი გაკეთებაც მას შეუძლია, არის პროცესიდან იმდენი ხახუნის მოცილება, რომ უფრო მეტმა ადამიანმა შეძლოს ექსპერიმენტები ვიზუალურ თხრობაზე სპეციალიზებული ტრენინგის ან ძვირადღირებული აღჭურვილობის საჭიროების გარეშე.

შესაძლოა, Gen-4-ის ყველაზე ღრმა ასპექტი არ არის ის, რისი შექმნაც მას შეუძლია, არამედ ის, რასაც ის გვთავაზობს ვიზუალურ მედიასთან ჩვენი ურთიერთობის შესახებ მომავალში. ჩვენ შევდივართ ეპოქაში, სადაც წარმოებაში ბოთლის ყელი არ არის ტექნიკური უნარი ან ბიუჯეტი, არამედ წარმოსახვა და მიზანი. სამყაროში, სადაც ყველას შეუძლია შექმნას ნებისმიერი სურათი, რომელიც შეუძლია აღწეროს, მნიშვნელოვანი კითხვა ხდება: რა არის საჩვენებლად ღირებული?

რადგან ჩვენ შევდივართ ეპოქაში, სადაც ფილმის შექმნა მოითხოვს ცოტა მეტს, ვიდრე საცნობარო სურათი და მოთხოვნა, ყველაზე აქტუალური კითხვაა არა ის, შეუძლია თუ არა ხელოვნურ ინტელექტს დამაჯერებელი ვიდეოების შექმნა, არამედ ის, შეგვიძლია თუ არა ვიპოვოთ რაიმე მნიშვნელოვანი სათქმელი, როდესაც ნებისმიერი რამის თქმის ინსტრუმენტები ხელთ გვაქვს.

კატეგორიები

Runway Gen-4-მა ხელოვნური ინტელექტის ვიდეოს უდიდესი პრობლემა გადაჭრა: პერსონაჟების თანმიმდევრულობა სცენებში

ვიზუალური უწყვეტობა: ხელოვნური ინტელექტის კინოწარმოების დაკარგული ნაწილი აქამდე

სახის ანიმაციიდან მსოფლიო მოდელებამდე: Runway-ის ხელოვნური ინტელექტის კინოწარმოების ევოლუცია

ხელოვნური ინტელექტის ვიდეოს მილიარდი დოლარის ბრძოლა მწვავდება

საავტორო უფლებების საკითხები ხელოვნური ინტელექტის შემოქმედებით აფეთქებას მოჰყვება

ინსტრუმენტები აქ არის, მაგრამ რა ისტორიებს მოვყვებით?

კომენტარები

მსგავსი სიახლეები

Genesis X Gran Equator SUV-ის კონცეფცია: დაფაზე განლაგებული წრიული მაჩვენებლები,...

ხელოვნური ინტელექტის ხმოვანი აგენტი მილანის დიზაინის კვირეულზე ხავსით დაფარულ სა...

Smashing - Goodreads-ის დამფუძნებლის აპლიკაცია - დაიხურა

Rippling-ი Revolut-ს Deel-ის სავარაუდო ჯაშუშისთვის თანხის გადამხდელის დასახელება...

როგორ იქმნება მომავლის მუზეუმი? | ბრენდან მაკგეტრიკის ინტერვიუ

კატეგორიები

Runway Gen-4-მა ხელოვნური ინტელექტის ვიდეოს უდიდესი პრობლემა გადაჭრა: პერსონაჟების თანმიმდევრულობა სცენებში

ვიზუალური უწყვეტობა: ხელოვნური ინტელექტის კინოწარმოების დაკარგული ნაწილი აქამდე

სახის ანიმაციიდან მსოფლიო მოდელებამდე: Runway-ის ხელოვნური ინტელექტის კინოწარმოების ევოლუცია

ხელოვნური ინტელექტის ვიდეოს მილიარდი დოლარის ბრძოლა მწვავდება

საავტორო უფლებების საკითხები ხელოვნური ინტელექტის შემოქმედებით აფეთქებას მოჰყვება

ინსტრუმენტები აქ არის, მაგრამ რა ისტორიებს მოვყვებით?

კომენტარები

გსურთ კომენტარის დატოვება?

მსგავსი სიახლეები

Genesis X Gran Equator SUV-ის კონცეფცია: დაფაზე განლაგებული წრიული მაჩვენებლები,...

ხელოვნური ინტელექტის ხმოვანი აგენტი მილანის დიზაინის კვირეულზე ხავსით დაფარულ სა...

Smashing - Goodreads-ის დამფუძნებლის აპლიკაცია - დაიხურა

Rippling-ი Revolut-ს Deel-ის სავარაუდო ჯაშუშისთვის თანხის გადამხდელის დასახელება...

როგორ იქმნება მომავლის მუზეუმი? | ბრენდან მაკგეტრიკის ინტერვიუ