კალიფორნიაში, პალო-ალტოში დაფუძნებულმა ხელოვნური ინტელექტის სტარტაპმა, Reve AI, Inc.-მა ოფიციალურად გამოუშვა Reve Image 1.0, ტექსტიდან გამოსახულების გენერირების მოწინავე მოდელი, რომელიც შექმნილია მოთხოვნებისადმი ზედმიწევნითი სიზუსტის, ესთეტიკისა და ტიპოგრაფიის უზრუნველსაყოფად. ეს არის კომპანიის პირველი გამოშვება, რომელსაც მომავალში სხვა ინსტრუმენტებიც მოჰყვება.
Reve Image ამჟამად ხელმისაწვდომია უფასო წინასწარი გადახედვისთვის ბმულზე preview.reve.art, რაც მომხმარებლებს საშუალებას აძლევს შექმნან სურათები ტექსტური აღწერილობებიდან დამატებითი პრომპტების ინჟინერიის გარეშე.
კომპანიას ჯერ არ გამოუცხადებია API-ზე წვდომა ან გრძელვადიანი ფასების გეგმები, ასევე გაურკვეველია, იქნება თუ არა მოდელი საკუთრებაში არსებული თუ ღია კოდის, და თუ ასეა, რა ლიცენზიით.
ხელოვნური ინტელექტის გამოსახულების ახალი მიდგომა
Reve Image გამოირჩევა მომხმარებლის განზრახვის უფრო ღრმა გაგებისკენ სწრაფვით. ის მომხმარებლებს საშუალებას აძლევს არა მხოლოდ ტექსტიდან შექმნან სურათები, არამედ შეცვალონ არსებული სურათები მარტივი ენობრივი ბრძანებებით.
მაგალითად, შესაძლებელია ფერების შეცვლა, ტექსტის კორექტირება და პერსპექტივების შეცვლა. მოდელი ასევე მხარს უჭერს საცნობარო სურათების ატვირთვას, რაც მომხმარებლებს საშუალებას აძლევს შექმნან ვიზუალი, რომელიც შეესაბამება კონკრეტულ სტილს ან შთაგონებას.
მოდელის ერთ-ერთი გამორჩეული შესაძლებლობა არის ტექსტის რენდერირების მაღალი ხარისხი, რაც წარმოადგენს საერთო გამოწვევას ხელოვნური ინტელექტის მიერ გენერირებულ გამოსახულებებში — და მას უფრო პირდაპირ კონკურენტუნარიანს ხდის ტექსტზე ორიენტირებულ გამოსახულების მოდელებთან, როგორიცაა Ideogram, რომლებიც უფრო ღირებულია ლოგოებისა და ბრენდინგის დიზაინერებისთვის.
გარდა ამისა, ადრეული მომხმარებლების ტესტები ვარაუდობენ, რომ Reve Image მრავალპერსონაჟიან პრომპტებს უფრო ეფექტურად უმკლავდება, ვიდრე წინა მოდელები.
უკვე ლიდერობს მესამე მხარის შეფასების ცხრილებში
Reve Image უკვე შეფასებულია მესამე მხარის ხელოვნური ინტელექტის მოდელების ტესტირების სერვისის, Artificial Analysis-ის მიერ.
Artificial Analysis-ის Image Arena-ში, რომელიც აფასებს სხვადასხვა გამოსახულების გენერირების მოდელებს მომხმარებელთა მიმოხილვებისა და სხვა რაოდენობრივი მეტრიკის საფუძველზე, Reve ამჟამად ლიდერობს #1 ადგილზე „გამოსახულების გენერირების ხარისხით“, აჯობებს კონკურენტებს, როგორიცაა Midjourney v6.1, Google-ის Imagen 3, Recraft V3 და Black Forest Lab-ის FLUX.1.1 [pro].

შედარებითი ანალიზის ჯგუფმა ხაზი გაუსვა Reve Image-ის უნარს, შექმნას მკაფიო და იკითხებადი ტექსტი სურათებში, რაც ისტორიულად რთული ამოცანა იყო ხელოვნური ინტელექტის მოდელებისთვის.
ოფიციალურ პრეზენტაციამდე, Reve Image სოციალურ მედიაში კოდური სახელით „Halfmoon“ იყო ცნობილი, რაც სპეკულაციებსა და მოლოდინს იწვევდა ხელოვნური ინტელექტის საზოგადოებაში.
ადამიანური და ხელოვნური ინტელექტის გაგების გაერთიანება უკეთესი, მაღალი ხარისხის, უფრო რეალისტური სურათების შესაქმნელად
Reve თავს აღწერს, როგორც „მცირე გუნდს, რომელიც შედგება ენთუზიასტი მკვლევრებისგან, მშენებლებისგან, დიზაინერებისა და მთხრობელებისგან, რომლებსაც დიდი იდეები აქვთ“. კომპანია ორიენტირებულია კრეატიული ხელსაწყოების შემუშავებაზე, რომლებიც აუმჯობესებენ მომხმარებლების ურთიერთქმედებას ხელოვნური ინტელექტის ვიზუალებთან.
X-ზე, მიქაელ ღარბიმ, Reve-ის თანადამფუძნებელმა და მკვლევარმა მეცნიერმა, გააზიარა ინფორმაცია კომპანიის გრძელვადიანი ხედვის შესახებ და ხაზი გაუსვა ხელოვნური ინტელექტის მოდელების შექმნის მიზანს, რომლებიც იგებენ კრეატიულ განზრახვას და არა მხოლოდ ვიზუალურად დამაჯერებელ შედეგებს ქმნიან.
„კრეატიული განზრახვის აღქმა მოითხოვს ბუნებრივი ენისა და სხვა ურთიერთქმედებების მოწინავე მანქანურ გაგებას“, - თქვა ღარბიმ. „ჩვენი ხედვაა შევქმნათ ახალი სემანტიკური შუალედური რეპრეზენტაცია, რომელიც როგორც ადამიანს, ისე მანქანას შეუძლია გაიგოს, განსაჯოს და იმოქმედოს მასზე.“
გუნდის სხვა წევრები, მათ შორის ინჟინერი ჰანტერ ლოფტისი და მკვლევარი ტაესუნგ პარკი, დაეთანხმნენ ხელოვნური ინტელექტის მიერ გენერირებულ ვიზუალებში ლოგიკის შეტანის მნიშვნელობას.
პარკმა ტექსტიდან გამოსახულების ამჟამინდელი მოდელები შეადარა ადრეულ დიდ ენობრივ მოდელებს (LLM), და განაცხადა, რომ ისინი ხშირად ქმნიან ვიზუალურად მიმზიდველ, მაგრამ ლოგიკურად შეუსაბამო შედეგებს.
ადრეული მომხმარებლების ანგარიშები აჩვენებს პერსპექტივას და შეზღუდვებს
ადრეული მომხმარებლების გამოხმაურება AI-ზე ორიენტირებულ სუბრედიტ r/singularity-ზე (Reddit-ზე), ძირითადად დადებითი იყო, ბევრი აქებს მოდელის ზუსტ პრომპტების შესრულებას, ტექსტის რენდერირების მაღალ ხარისხს და გენერირების სწრაფ სიჩქარეს.
ზოგიერთმა მომხმარებელმა განაცხადა წარმატება მრავალპერსონაჟიანი სცენებისა და რთული გარემოების გენერირებაში, სფეროებში, სადაც წინა მოდელები ხშირად იბრძოდნენ.
თუმცა, ზოგიერთი გამოწვევა რჩება. მომხმარებლებმა აღნიშნეს, რომ Reve Image:
ამ სირთულეების მიუხედავად, Reve-ის გუნდი აქტიურად ურთიერთობს მომხმარებელთა საზოგადოებასთან და აერთიანებს გამოხმაურებას მიმდინარე გაუმჯობესებებში.
სტატიისთვის სათაურის სურათის შექმნისას, ჩემს მოკლე პრაქტიკულ გამოყენებაში აღმოვაჩინე, რომ Reve საკმაოდ ინტუიციური და მარტივი გამოსაყენებელია, შთამბეჭდავი ვიზუალითა და პრომპტების ზედმიწევნითი სიზუსტით. ბევრი ხელოვნური ინტელექტის გამოსახულების გენერატორის მსგავსად, არსებობს პრომპტის შეყვანის ტექსტური ველი, თუმცა Midjourney-ისა და Ideogram-ისგან განსხვავებით, Reve მას ვებსაიტის ბოლოში ათავსებს და თქვენს გენერირებულ კონტენტს ზემოთ ტოვებს, რათა სივრცის უმეტესი ნაწილი დაიკავოს.

გარდა ამისა, პრომპტის შეყვანის ტექსტურ ველს ასევე აქვს ოთხი ღილაკი ქვემოთ, გამოსახულების გენერირების პრომპტის თანმიმდევრობის შემდგომი დახვეწისთვის, მათ შორის ასპექტის თანაფარდობის მარეგულირებელი (სტანდარტული ზომებით 16:9 (ფართოეკრანიანი ლანდშაფტი) და 9:16 (პორტრეტი, სმარტფონის მსგავსად)...

არის კიდევ ერთი ღილაკის ამორჩევა იმისთვის, თუ რამდენი სურათის გენერირება გსურთ თითოეული პრომპტიდან (1, 2, 4, 8), ღილაკი პრომპტის ტექსტის გაუმჯობესების ჩართვისა და გამორთვისთვის (ნაგულისხმევად ჩართულია და ეს ნიშნავს, რომ Reve რეალურად ავტომატურად დაარედაქტირებს თქვენ მიერ აკრეფილ ტექსტს იმის საფუძველზე, თუ რისი ნახვა გსურთ თქვენს სურათში, დაამატებს ბევრად მეტ მდიდარ დეტალებსა და ვიზუალურ ენას, ვიდრე თავდაპირველად შეიძლება შეიტანოთ) და „seed“ ღილაკი იმის ასარჩევად, გსურთ თუ არა გამოიყენოთ კონკრეტული რიცხვითი სტრიქონი წინა გენერირებული სურათიდან შემდგომი გენერირებისთვის.
ეს გაცილებით ნაკლები პარამეტრია და არ მოიცავს ვიზუალურ რედაქტორებს, როგორიცაა Midjourney, მაგრამ საფუძვლები არსებობს და ის საკმარისი უნდა იყოს ხელოვნური ინტელექტის სურათების ჩვეულებრივი მომხმარებლების უმეტესობისთვის დასაწყებად.
ჩემმა მოკლე ტესტებმა ასევე აჩვენა, რომ ის ტექსტის გარჩევადობის თვალსაზრისით Ideogram-ის დონეზე ან უკეთესი იყო (და ბევრად აღემატებოდა Midjoruney-ს), ისევე როგორც საჯარო პირების ამოცნობის ხარისხით Grok-ის დონეზე ან უკეთესი (კიდევ ერთხელ, Midjourney და მრავალი სხვა გამოსახულების გენერატორი ამას კრძალავს).

რა არის შემდეგი Reve image-ისთვის?
მიუხედავად იმისა, რომ მოდელი ამჟამად ხელმისაწვდომია მხოლოდ კომპანიის ვებსაიტის საშუალებით, იზრდება მოლოდინი API-ზე წვდომის ან პოტენციური ღია კოდის ვარიანტების შესახებ.
მომხმარებლებმა ასევე გამოთქვეს ინტერესი დამატებითი ფუნქციების მიმართ, როგორიცაა მორგებული მოდელის ტრენინგი, ანიმაციის კონტროლის ინსტრუმენტები და კრეატიულ პროგრამულ უზრუნველყოფასთან ინტეგრაცია.
ამჟამად, Reve Image რჩება თავისუფლად ხელმისაწვდომი ბმულზე preview.reve.art, რაც მომხმარებლებს საშუალებას აძლევს პირადად შეისწავლონ მისი შესაძლებლობები. როდესაც Reve აგრძელებს თავისი ხელოვნური ინტელექტის მოდელების დახვეწას და შეთავაზებების გაფართოებას, კომპანია პოზიციონირებს თავს, როგორც მთავარ მოთამაშეს ხელოვნური ინტელექტის კრეატიული ინსტრუმენტების განვითარებად სამყაროში.
დამუშავებულია ასინეთა AI-ის მიერ.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს