Midjourney, სტარტაპი, რომელსაც AI-ის მძლავრი მომხმარებლები AI გამოსახულების გენერირების „ოქროს სტანდარტად“ მიიჩნევენ მისი 2022 წელს გაშვების შემდეგ, წარმოადგინა თავისი გენერატორის მოდელის ყველაზე მოწინავე ვერსია, Midjourney v7, რომელსაც დიდი ხანია ელოდნენ.
მთავარი მახასიათებელია მოდელის გამოსახულების შესაქმნელად ახალი გზა.
მანამდე მომხმარებლები შეზღუდული იყვნენ ტექსტური მოთხოვნების შეყვანით და სხვა სურათების მიმაგრებით, რათა დახმარებოდნენ გენერირებას (მოდელს შეეძლო მომხმარებლის მიერ ატვირთული და მიმაგრებული სხვადასხვა სურათების ინკორპორაცია, მათ შორის სხვა Midjourney-ის გენერირებები, რათა გავლენა მოეხდინა ახალი თაობების სტილსა და თემებზე).
ახლა მომხმარებელს შეუძლია უბრალოდ ხმამაღლა ისაუბროს Midjourney-ის ალფა ვებსაიტზე (alpha.midjourney.com) - იმ პირობით, რომ მათ აქვთ მიკროფონი კომპიუტერში/კომპიუტერზე მიმაგრებული (ან იყენებენ ქსელურ მოწყობილობას აუდიო შეყვანით, როგორიცაა ყურსასმენები ან სმარტფონი) - და მოდელი მოუსმენს და შექმნის საკუთარ ტექსტურ მოთხოვნებს მომხმარებლის საუბრის აუდიო აღწერილობების საფუძველზე, წარმოქმნის სურათებს ამისგან.
გაურკვეველია, შექმნა თუ არა Midjourney-მ ახალი ხმოვანი შეყვანის მოდელი (მეტყველებიდან ტექსტში) ნულიდან, თუ იყენებს სხვა პროვაიდერის, როგორიცაა ElevenLabs ან OpenAI, დახვეწილ ან მზა ვერსიას. მე ვკითხე Midjourney-ის დამფუძნებელს დევიდ ჰოლცს X-ზე, მაგრამ მას ჯერ არ უპასუხია. დამუშავებულია ასინეთა AI-ის მიერ.
დრაფტის რეჟიმის და სასაუბრო ხმოვანი შეყვანის გამოყენება ნაკადის მდგომარეობაში მოთხოვნისთვის
ამ შეყვანის მეთოდთან ერთად არის ახალი „დრაფტის რეჟიმი“, რომელიც სურათებს უფრო სწრაფად წარმოქმნის, ვიდრე Midjourney v6.1, ყველაზე უშუალო წინამორბედი ვერსია, ხშირად წუთზე ნაკლებ დროში ან ზოგიერთ შემთხვევაში 30 წამშიც კი.
მიუხედავად იმისა, რომ სურათები თავდაპირველად v6.1-ზე დაბალი ხარისხისაა, მომხმარებელს შეუძლია დააწკაპუნოს „გაუმჯობესების“ ან „ვარიაციის“ ღილაკებზე, რომლებიც განლაგებულია თითოეული გენერირების მარჯვნივ, რათა ხელახლა გააკეთოს დრაფტი სრული ხარისხით.

იდეა იმაში მდგომარეობს, რომ ადამიან მომხმარებელს სიამოვნებით გამოიყენებს ორივეს ერთად - ფაქტობრივად, აუდიო შეყვანის გასააქტიურებლად უნდა გქონდეთ ჩართული „დრაფტის რეჟიმი“ - რათა შევიდეს მოდელთან შემოქმედებითი დრაფტის უფრო უწყვეტ ნაკადში, ნაკლები დრო დახარჯოს მოთხოვნების კონკრეტული ენის დახვეწაზე და მეტი დრო ახალი თაობების ნახვაზე, მათზე რეალურ დროში რეაგირებაზე და მათ მორგებაზე ან შეცვლაზე საჭიროებისამებრ უფრო ბუნებრივად და სწრაფად, უბრალოდ ფიქრების მოდელისთვის ხმამაღლა თქმით.
„გააკეთე ეს უფრო დეტალურად, მუქი, ღია, უფრო რეალისტური, უფრო კინეტიკური, უფრო ცოცხალი“ და ა.შ. არის რამდენიმე ინსტრუქცია, რომელიც მომხმარებელს შეუძლია მიაწოდოს ახალი აუდიო ინტერფეისის საშუალებით თაობებზე პასუხის გასაცემად, რათა წარმოქმნას ახალი, მორგებული, რომლებიც უკეთესად შეესაბამება მათ შემოქმედებით ხედვას.
Midjourney v7-ის გამოყენების დაწყება
ამ რეჟიმებში შესასვლელად, დაწყებული ახალი „დრაფტის“ ფუნქციით, მომხმარებელმა ჯერ უნდა გადალახოს ერთი ახალი დაბრკოლება: Midjourney-ის პერსონალიზაციის ფუნქცია.
მიუხედავად იმისა, რომ ეს ფუნქცია ადრე იყო წარმოდგენილი Midjourney v6-ზე 2024 წლის ივნისში, ის იყო არჩევითი, რაც მომხმარებელს საშუალებას აძლევდა შეექმნა პირადი „სტილი“, რომელიც შეიძლება გამოყენებულიყო ყველა მომავალ თაობაზე 200 წყვილი სურათის შეფასებით (აირჩიოს რომელი მოსწონს მომხმარებელს საუკეთესოდ) Midjourney-ის ვებსაიტის მეშვეობით. შემდეგ მომხმარებელს შეეძლო ჩართვა სტილი, რომელიც შეესაბამებოდა სურათებს, რომლებიც მათ საუკეთესოდ მოეწონათ წყვილებში შეფასების პროცესში.
ახლა, Midjourney v7 მოითხოვს მომხმარებლებს შექმნან ახალი v7-სპეციფიკური პერსონალიზებული სტილი სანამ საერთოდ გამოიყენებენ მას პირველ რიგში.

როგორც კი მომხმარებელი ამას გააკეთებს, ისინი მოხვდებიან ნაცნობ Midjourney Alpha ვებსაიტის დაფაზე, სადაც მათ შეუძლიათ დააწკაპუნონ „Create“ მარცხენა მხარეს, რათა გახსნან შექმნის ჩანართი.

შემდეგ, მოთხოვნის შეყვანის ზოლში ზედა ნაწილში, მომხმარებელს შეუძლია დააწკაპუნოს ახალ „P“ ღილაკზე ზოლის მარჯვნივ, რათა ჩართოს მათი პერსონალიზაციის რეჟიმი.

Midjourney-ის დამფუძნებელმა და ლიდერმა დევიდ ჰოლცმა დაადასტურა VentureBeat-თან X-ზე, რომ v6-დან ძველი პერსონალიზაციის სტილების არჩევა ასევე შეიძლებოდა, მაგრამ არა ცალკეული „moodboards“ - მომხმარებლის მიერ ატვირთული სურათების კოლექციებისგან შემდგარი სტილები - თუმცა Midjourney-ის X-ის ანგარიშმა ცალკე განაცხადა, რომ ეს ფუნქცია მალე დაბრუნდება. თუმცა, მე ვერ დავინახე ჩემი ძველი v6 სტილის არჩევის შესაძლებლობა. დამუშავებულია ასინეთა AI-ის მიერ.
მიუხედავად ამისა, მომხმარებელს შეუძლია შემდეგ დააწკაპუნოს ახალ „დრაფტის რეჟიმის“ ღილაკზე პერსონალიზაციის ღილაკის მარჯვნივ (ასევე უფრო მარჯვნივ ტექსტური მოთხოვნის შეყვანის ველის მარჯვნივ), რათა გაააქტიუროს გამოსახულების გენერირების ეს უფრო სწრაფი რეჟიმი.

მას შემდეგ, რაც ეს არჩეულია კურსორით, ის გახდება ნარინჯისფერი, რაც მიუთითებს, რომ ის ჩართულია, და შემდეგ ახალი ღილაკი მიკროფონის ხატით უნდა გამოჩნდეს ამ ღილაკის მარჯვნივ. ეს არის ხმოვანი მოთხოვნის რეჟიმი, რომელზეც მომხმარებელს კიდევ ერთხელ შეუძლია დააწკაპუნოს გასააქტიურებლად.

მას შემდეგ, რაც მომხმარებელი დააჭერს ამ მიკროფონის ღილაკს ხმოვანი მოთხოვნის რეჟიმში შესასვლელად, მათ უნდა დაინახონ, რომ მიკროფონის ხატი იცვლება თეთრიდან ნარინჯისფერში, რაც მიუთითებს, რომ ის ჩართულია, და მის მარჯვნივ გამოჩნდება ტალღის ხაზი, რომელიც უნდა დაიწყოს ტალღოვანი მომხმარებლის მეტყველების დროს.


შემდეგ მოდელი შეძლებს თქვენს მოსმენას და ასევე უნდა გაიგოს, როდის დაასრულებთ საუბარს. პრაქტიკაში, ზოგჯერ მივიღე შეცდომის შეტყობინება „Realtime API გათიშულია“, მაგრამ ხმოვანი შეყვანის რეჟიმის შეჩერებამ და ხელახლა დაწყებამ და ვებგვერდის განახლებამ ჩვეულებრივ სწრაფად გაასუფთავა იგი.
რამდენიმე წამიანი საუბრის შემდეგ, Midjourney დაიწყებს საკვანძო სიტყვების ფანჯრების ციმციმს მოთხოვნის შეყვანის ტექსტური ველის ქვემოთ ზედა ნაწილში და ასევე წარმოქმნის სრულ ტექსტურ მოთხოვნას მარჯვნივ, რადგან ის წარმოქმნის 4 ახალი სურათის კომპლექტს იმის საფუძველზე, რაც მომხმარებელმა თქვა.

შემდეგ მომხმარებელს შეუძლია შემდგომ შეცვალოს ეს ახალი თაობები მოდელთან ხელახლა საუბრით, ხმოვანი რეჟიმის ჩართვით და გამორთვით საჭიროებისამებრ.
აქ არის მოკლე დემო ვიდეო იმის შესახებ, თუ როგორ ვიყენებ მას დღეს ნიმუშის გამოსახულების შესაქმნელად. თქვენ ნახავთ, რომ პროცესი შორს არის სრულყოფილებისგან, მაგრამ ის ძალიან სწრაფია და ნამდვილად იძლევა უფრო შეწყვეტილი მდგომარეობის მოთხოვნის, დახვეწის და მოდელისგან სურათების მიღების საშუალებას.
უფრო მეტი ახალი ფუნქცია... მაგრამ ასევე ბევრი დაკარგული ფუნქცია და შეზღუდვა v6/6.1-დან
Midjourney v7 იწყება ორი ოპერაციული რეჟიმით: Turbo და Relax. Turbo რეჟიმი უზრუნველყოფს მაღალ შესრულებას სტანდარტული v6 სამუშაოს ორმაგ ფასად, ხოლო დრაფტის რეჟიმი ნახევარი ღირს (სამუშაოების თვალსაზრისით). სტანდარტული სიჩქარის რეჟიმი ამჟამად დამუშავების პროცესშია და გამოვა ოპტიმიზაციის შემდეგ.
გაშვებისას, ისეთი ფუნქციები, როგორიცაა მასშტაბირება, inpainting და retexturing დროებით დაეყრდნობა v6 მოდელს. Midjourney გეგმავს ამ ფუნქციების v7-ზე გადატანას მომავალ განახლებებში.
კომპანია იღებს ვალდებულებას რეგულარული განვითარების მომდევნო ორი თვის განმავლობაში, განახლებები დაგეგმილია ყოველ ერთ-ორ კვირაში. მნიშვნელოვანი მომავალი დამატება იქნება პერსონაჟების და ობიექტების მითითების ახალი სისტემა, რომელიც სპეციალურად შექმნილია v7-ისთვის, ფუნქციები, რომლებიც გვხვდება Midjourney-ის ძველ ვერსიებში არკანული ტექსტური მოთხოვნის სუფიქსების გამოყენებით, როგორიცაა –cref და –sref (სტილისთვის) მომხმარებლის ტექსტური მოთხოვნის ტენდენციაზე.
Midjourney გეგმავს ჩართოს თავისი საზოგადოება საჯარო გაზიარების სივრცეებისა და უკუკავშირის არხების მეშვეობით და ის უმასპინძლებს საგზაო რუქის რეიტინგის სესიას, რათა დაეხმაროს მომავალი განვითარების ძალისხმევის პრიორიტეტიზაციას.
Midjourney ხაზს უსვამს, რომ v7 არის სრულიად ახალი მოდელი საკუთარი ძლიერი და სუსტი მხარეებით. მომხმარებლებს მოუწოდებენ ექსპერიმენტი ჩაატარონ სხვადასხვა მოთხოვნის სტილებით და მოახსენონ თავიანთი გამოცდილება პლატფორმის დახვეწაში დასახმარებლად.
საწყისი რეაქცია არაერთგვაროვანია... შორს არის Midjourney-ის წინა გამოშვებების თითქმის ერთსულოვანი ქება-დიდებისგან
მიუხედავად იმისა, რომ Midjourney-ის ძველი გამოშვებების უმეტესობა დიდი აღფრთოვანებითა და თაყვანისცემით შეხვდნენ, v7-ის საწყისი მიღება აშკარად უფრო არაერთგვაროვანია.
მიუხედავად იმისა, რომ Midjourney-მ სიფრთხილით უწოდა ამას „ალფა“ გამოშვება თავის ბლოგზე და სოციალურ მედიაში, ბევრი მომხმარებელი მაინც ელოდა გამოსახულების ხარისხში უფრო დიდ ნახტომს და მოთხოვნის დაცვას (რამდენად კარგად ემთხვეოდა გამოსახულების გენერირება მომხმარებლის კონკრეტულ ინსტრუქციებს ტექსტში ან აუდიოში), ისევე როგორც იმედოვნებდნენ ადამიანის ანატომიური გაგების გაუმჯობესებას (განსაკუთრებით ხელების, AI გამოსახულების გენერირების გავრცელებული პრობლემა) და ტექსტის გენერირებას (ასევე ის, რასაც გამოსახულების მოდელები ებრძოდნენ, თუმცა Ideogram-ი და OpenAI-ის მშობლიური GPT-4o გამოსახულების გენერატორი, როგორც ჩანს, ამას ბევრად უფრო თანმიმდევრულად ზუსტად აკეთებენ, ვიდრე Midjourney v7, საწყისი მომხმარებლის ანგარიშების საფუძველზე).
როგორც @freiboitar-მა დაწერა X-ზე:
„უნდა ვთქვა: ცოტა იმედგაცრუებული ვარ.
OpenAI-მ ცა-მაღალი ბარიერი დააწესა. ელაპარაკე შენს გამოსახულების გენერირებას, როგორც შენს ძმას? გონება = აფეთქება.MJ7 გამოიყურება „უფრო რეალისტურად“. მაგრამ ნამდვილად გვჭირდებოდა ეს?
MJ + Magnific უკვე მიაღწია ამას.შესაძლოა, დროებით შევაჩერო ჩემი გამოწერა.“
„პრობლემა ის არის, რომ v7 რეალურად არ ჰგავს v7-ს. ის უფრო v6.2-ს ჰგავს“, - დაწერა 2022 წელს გაშვების0, ციტირებს განახლებების ინკრემენტულ ხასიათს.
მართლაც, 2022 წელს გაშვების1, პენსილვანიის უორტონის ბიზნეს სკოლის პროფესორი და AI-ის გავლენის ქვეშ მყოფი პირი, ასევე ჩაერია და თქვა: „მე მომწონს მათი ახალი გამოშვებები, მაგრამ ახალი v7-ის (მარჯვნივ) პრობლემა, რომელიც დღეს გამოვიდა, არის ის, რომ v6 (მარცხნივ) უკვე ძალიან კარგი იყო.“
„იდენტური მოთხოვნები v6-დან უარესია v7-ში“, - დაწერა თვითაღწერილმა „AI მაქსიმალისტმა“ 2022 წელს გაშვების2.
„ყველა ძველი ფავორიტი, რომლებიც ძალიან ბერდებიან“, - თქვა მხატვარმა და მუსიკოსმა 2022 წელს გაშვების3: „ხელები, ტექსტი ჯერ კიდევ პრობლემაა, არ არის cref, srefs გაგიჟდა. მაგრამ კარგია, რადგან შეგიძლია ელაპარაკო მას, სანამ ის გაგიცრუებს იმედს.“
სხვები უფრო შემწყნარებლები იყვნენ და აღფრთოვანებულნი იყვნენ თავიანთი საწყისი ტესტური თაობებით v7-ზე, AI-ის მძლავრი მომხმარებელი 2022 წელს გაშვების4-მ თქვა X-ზე, რომ მას ჰქონდა „გამოსახულების უკეთესი ხარისხი“ და იყო „სუპერ არტისტი“.
ანალოგიურად, 2022 წელს გაშვების5 განაცხადა, რომ Midjourney v7 იყო „უზარმაზარი ნახტომი ხარისხში!“
ჯერ კიდევ ადრეა Midjourney v7-ისთვის, თუმცა, და საწყისი რეაქცია შეიძლება შეიცვალოს ორივე მიმართულებით - ან თაყვანისცემა ან იმედგაცრუება ახალი მოდელითა და დიზაინის მახასიათებლებით. ამჟამად, ის ხელმისაწვდომია ნებისმიერი ადამიანისთვის Midjourney-ის ანგარიშით, რომ დაიწყოს გამოყენება.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს