Midjourney საყოველთაოდ ცნობილია, როგორც ხელოვნური ინტელექტის გამოსახულების გენერატორების ერთ-ერთი ლიდერი — 20 მილიონამდე მომხმარებელი ჰყავს Discord-ის არხზე, მესამე მხარის თვალთვალის მიხედვით, და, სავარაუდოდ, კიდევ უფრო მეტი მათ ვებსაიტზე — მაგრამ მათი ამბიციები გაფართოებას იწყებს.
მას შემდეგ, რაც 2024 წლის ზაფხულის ბოლოს ცნობილი გახდა, რომ კომპანია საკუთარი კომპიუტერული და ხელოვნური ინტელექტის აპარატურას ქმნიდა, ამ კვირაში მან გამოაქვეყნა ახალი კვლევითი ნაშრომი ნიუ-იორკის უნივერსიტეტის (NYU) მანქანათმცოდნეობის ექსპერტებთან ერთად, ტექსტზე დაფუძნებული დიდი ენობრივი მოდელების (LLM), როგორიცაა Meta-ს ღია კოდის Llama და Mistral-ის ამავე სახელწოდების წყარო მოდელები, უფრო კრეატიულად წერის სწავლების შესახებ.
თანამშრომლობა, რომელიც დოკუმენტირებულია ახალ კვლევით ნაშრომში, რომელიც გამოქვეყნდა AI კოდის საზოგადოება Hugging Face-ზე, წარმოადგენს ორ ახალ ტექნიკას — დივერსიფიცირებული პირდაპირი უპირატესობის ოპტიმიზაცია (DDPO) და დივერსიფიცირებული შანსების თანაფარდობის უპირატესობის ოპტიმიზაცია (DORPO) — რომელიც შექმნილია შესაძლო გამომავალი მონაცემების დიაპაზონის გასაფართოებლად თანმიმდევრულობისა და წაკითხვადობის შენარჩუნებისას.
კომპანიისთვის, რომელიც საუკეთესოდ არის ცნობილი თავისი დიფუზიური AI გამოსახულების გენერირების მოდელებით, Midjourney-ის ახალი მიდგომა ტექსტზე დაფუძნებულ LLM-ებში კრეატიულობის გადახედვის მიმართ აჩვენებს, რომ ის არ ზღუდავს თავის ამბიციებს ვიზუალით და რომ სურათი შესაძლოა ათას სიტყვად არ ღირდეს.
შეიძლება თუ არა Midjourney-ის საკუთარი LLM ან არსებული LLM-ის დახვეწილი ვერსია იყოს პატარა, ბუტსტრაპული სტარტაპის კარტებში? დავუკავშირდი Midjourney-ის დამფუძნებელს, დევიდ ჰოლცს, მაგრამ ჯერ პასუხი არ მიმიღია.
პირველი მხარის Midjourney LLM შეთავაზების მიუხედავად, მისი ახალი კვლევის შედეგები სცილდება აკადემიურ სავარჯიშოებს და შეიძლება გამოყენებულ იქნას საწარმოთა AI გუნდებს, პროდუქტის დეველოპერებს და კონტენტის შემქმნელებს შორის LLM-ების ახალი ტალღის გასაძლიერებლად, რომლებიც ცდილობენ გააუმჯობესონ AI-გენერირებული ტექსტი.
ის ასევე გვიჩვენებს, რომ მიუხედავად AI მოდელის პროვაიდერებს შორის ბოლო დროს მზარდი ინტერესისა და ინვესტიციებისა ახალი მულტიმოდალური და მსჯელობის ენობრივი მოდელების მიმართ, ჯერ კიდევ ბევრი რესურსია დარჩენილი, შემეცნებითად და შესრულების თვალსაზრისით, კლასიკური Transformer-ზე დაფუძნებული, ტექსტზე ორიენტირებული LLM-ებისგან.
პრობლემა: AI-გენერირებული წერა იშლება ერთგვაროვანი გამომავალი მონაცემების გარშემო
ისეთ სფეროებში, როგორიცაა ფაქტებზე დაფუძნებული კითხვა-პასუხი ან კოდირების დახმარება, LLM-ები მოელიან ერთადერთი საუკეთესო პასუხის გენერირებას.
თუმცა, კრეატიული წერა არსებითად ღიაა, რაც იმას ნიშნავს, რომ არსებობს მრავალი ვალიდური პასუხი ერთ მოთხოვნაზე.
Midjourney-ის მკვლევარების მიერ მოწოდებული მაგალითისთვის, მოცემული მოთხოვნა, როგორიცაა "დაწერე მოთხრობა ძაღლზე მთვარეზე", LLM-ს შეუძლია შეისწავლოს მრავალი განსხვავებული გზა, როგორიცაა:
ამ შესაძლებლობების დიაპაზონის მიუხედავად, ინსტრუქციებით დახვეწილი LLM-ები ხშირად ერთიანდებიან მსგავს სიუჟეტებსა და თემებზე. ეს ხდება იმიტომ, რომ:
- პოსტ-ტრენინგის ტექნიკა უპირატესობას ანიჭებს მომხმარებლის უპირატესობას ორიგინალურობაზე, აძლიერებს პოპულარულ, მაგრამ განმეორებად პასუხებს.
- ინსტრუქციის დახვეწა ხშირად არბილებს ვარიაციებს, აიძულებს მოდელებს უპირატესობა მიანიჭონ "უსაფრთხო" პასუხებს უნიკალურზე.
- მრავალფეროვნების ხელშემწყობი არსებული ტექნიკა (როგორიცაა ტემპერატურის რეგულირება) მოქმედებს მხოლოდ დასკვნის დროს და არა მოდელის სწავლის პროცესში ჩაშენებისას.
ეს იწვევს ჰომოგენიზებულ თხრობას, სადაც AI-გენერირებული კრეატიული წერა გრძელდება განმეორებადი და მოკლებულია სიურპრიზს ან სიღრმეს.
გამოსავალი: პოსტ-ტრენინგის მეთოდების მოდიფიცირება მრავალფეროვნების პრიორიტეტულობისთვის
ამ შეზღუდვების დასაძლევად, მკვლევარებმა წარმოადგინეს DDPO და DORPO, არსებული უპირატესობის ოპტიმიზაციის მეთოდების ორი გაფართოება. ამ მიდგომებში ძირითადი ინოვაცია არის გადახრის გამოყენება — საზომი იმისა, თუ რამდენად განსხვავდება პასუხი სხვებისგან — ტრენინგის წარმართვისთვის.
აი, როგორ მუშაობს:
- ტრენინგის დროს მოდელს ეძლევა წერის მოთხოვნა და მრავალი შესაძლო პასუხი.
- თითოეული პასუხი შედარებულია იმავე მოთხოვნის სხვა პასუხებთან და გამოითვლება გადახრის ქულა.
- იშვიათი, მაგრამ მაღალი ხარისხის პასუხები უფრო მეტად იწონება ტრენინგში, რაც მოდელს აიძულებს ისწავლოს მრავალფეროვანი მაგალითებიდან.
გადახრის ჩართვით პირდაპირი უპირატესობის ოპტიმიზაციაში (DPO) და შანსების თანაფარდობის უპირატესობის ოპტიმიზაციაში (ORPO), მოდელი სწავლობს მაღალი ხარისხის, მაგრამ უფრო მრავალფეროვანი პასუხების წარმოებას.
ეს მეთოდი უზრუნველყოფს, რომ AI-გენერირებული ისტორიები არ შეჯერდეს ერთ პროგნოზირებად სტრუქტურაზე, არამედ შეისწავლოს პერსონაჟების, გარემოებებისა და თემების უფრო ფართო სპექტრი — ისევე, როგორც ადამიანმა მწერალმა შეიძლება გააკეთოს.
რა გააკეთეს Midjourney-ის მკვლევარებმა ამის მისაღწევად
კვლევა მოიცავდა LLM-ების გაწვრთნას კრეატიული წერის ამოცანებზე subreddit r/writingPrompts-დან მონაცემთა ნაკრების გამოყენებით, Reddit-ის საზოგადოება, სადაც მომხმარებლები აქვეყნებენ მოთხოვნებს და პასუხობენ მოთხრობებით.
მკვლევარებმა გამოიყენეს ორი საბაზისო მოდელი თავიანთი ტრენინგისთვის:
შემდეგ, მათ გაიარეს ეს მოდელები შემდეგი პროცესებით:
- ზედამხედველობითი ზუსტი რეგულირება (SFT): მოდელები პირველად ზუსტად დარეგულირდა LoRA-ს (დაბალი რანგის ადაპტაცია) გამოყენებით პარამეტრების ეფექტურად დასარეგულირებლად.
- უპირატესობის ოპტიმიზაცია:
- DPO და ORPO გამოიყენებოდა როგორც საბაზისო ხაზები — ეს სტანდარტული მეთოდები ფოკუსირებულია პასუხის ხარისხის გაუმჯობესებაზე მომხმარებლის უპირატესობის სიგნალებზე დაყრდნობით.
- DDPO და DORPO შემდეგ გამოიყენეს, შემოიღეს გადახრაზე დაფუძნებული წონა უფრო უნიკალური პასუხების წახალისებისთვის.
- შეფასება:
- ავტომატური შეფასება: გაზომეს სემანტიკური და სტილისტური მრავალფეროვნება ჩაშენებაზე დაფუძნებული ტექნიკის გამოყენებით.
- ადამიანის შეფასება: მოსამართლეებმა შეაფასეს, იყო თუ არა გამომავალი მონაცემები მრავალფეროვანი და მიმზიდველი GPT-4o-თან და Claude 3.5-თან შედარებით.
ტრენინგის ძირითადი დასკვნები:
საწარმოს შედეგები: რას ნიშნავს ეს მათთვის, ვინც იყენებს ხელოვნურ ინტელექტს კრეატიული პასუხების შესაქმნელად — როგორიცაა მარკეტინგული ტექსტების, კორპორატიული თხრობისა და ფილმების/ტელევიზიის/ვიდეო თამაშების სცენარების წერაში?
AI გუნდებისთვის, რომლებიც მართავენ LLM-ების განლაგებას, გამომავალი მონაცემების მრავალფეროვნების გაზრდა ხარისხის შენარჩუნებისას კრიტიკული გამოწვევაა. ამ დასკვნებს მნიშვნელოვანი შედეგები აქვს ორგანიზაციებისთვის, რომლებიც ეყრდნობიან AI-გენერირებულ კონტენტს ისეთ აპლიკაციებში, როგორიცაა:
პროფესიონალებისთვის, რომლებიც პასუხისმგებელნი არიან საწარმოთა გარემოში მოდელების ზუსტად რეგულირებასა და განლაგებაზე, ეს კვლევა უზრუნველყოფს:
მათთვის, ვინც მართავს AI მოდელის ორკესტრირებასა და ავტომატიზაციას, ეს კვლევა ხაზს უსვამს:
AI-გენერირებული კრეატიული პროექტების მომავალი ნათელი ჩანს
DDPO-სა და DORPO-ს წარმატება აჩვენებს, რომ LLM-ების მრავალფეროვნებაზე ორიენტირებული მიზნებით გაწვრთნამ შეიძლება გამოიწვიოს მნიშვნელოვანი გაუმჯობესება კრეატიულ წერაში. ზოგიერთი იდეა მოიცავს:
- გადახრაზე დაფუძნებული სწავლის ინტეგრირება საწარმოთა AI მოდელებში მომხმარებელზე ორიენტირებულ აპლიკაციებში პასუხების მრავალფეროვნების გასაზრდელად.
- იმის შესწავლა, თუ როგორ გამოიყენება ეს მეთოდები სხვა გენერაციულ ამოცანებზე, როგორიცაა AI-ზე მომუშავე პოეზია, სცენარის წერა ან თამაშების თხრობა.
- ჰიბრიდული ტრენინგის მიდგომების შემუშავება, რომლებიც აბალანსებს მრავალფეროვნებას და ინსტრუქციების შესრულების შესაძლებლობებს AI ასისტენტებისთვის.
მათთვის, ვინც დაინტერესებულია ამ ტექნიკის გამოყენებით, მკვლევარები გეგმავენ თავიანთი კოდის საჯაროდ ხელმისაწვდომობას ამ GitHub საცავში
თუ თქვენ ზუსტად არეგულირებთ LLM-ებს ბიზნეს აპლიკაციებისთვის ან ახდენთ ფართომასშტაბიანი AI ორკესტრირების ოპტიმიზაციას, ეს კვლევა გვაწვდის ქმედითუნარიან შეხედულებებს იმის შესახებ, თუ როგორ შეიძლება მოდელები იყოს უფრო დინამიური, მიმზიდველი და რეაგირებადი კრეატიულ ამოცანებზე.
ამ ტექნიკის მიღებით, AI გუნდებს შეუძლიათ გადალახონ ხისტი, ფორმულური გამომავალი მონაცემები — შექმნან AI სისტემები, რომლებიც არა მხოლოდ ჭკვიანია, არამედ ჭეშმარიტად წარმოსახვითიც.
დამუშავებულია ასინეთა AI-ის მიერ.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს