Midjourney-ის მოულოდნელობა: ახალი კვლევა LLM-ების უფრო კრეატიულად წერის შესახებ

Midjourney საყოველთაოდ ცნობილია, როგორც ხელოვნური ინტელექტის გამოსახულების გენერატორების ერთ-ერთი ლიდერი — 20 მილიონამდე მომხმარებელი ჰყავს Discord-ის არხზე, მესამე მხარის თვალთვალის მიხედვით, და, სავარაუდოდ, კიდევ უფრო მეტი მათ ვებსაიტზე — მაგრამ მათი ამბიციები გაფართოებას იწყებს.

მას შემდეგ, რაც 2024 წლის ზაფხულის ბოლოს ცნობილი გახდა, რომ კომპანია საკუთარი კომპიუტერული და ხელოვნური ინტელექტის აპარატურას ქმნიდა, ამ კვირაში მან გამოაქვეყნა ახალი კვლევითი ნაშრომი ნიუ-იორკის უნივერსიტეტის (NYU) მანქანათმცოდნეობის ექსპერტებთან ერთად, ტექსტზე დაფუძნებული დიდი ენობრივი მოდელების (LLM), როგორიცაა Meta-ს ღია კოდის Llama და Mistral-ის ამავე სახელწოდების წყარო მოდელები, უფრო კრეატიულად წერის სწავლების შესახებ.

თანამშრომლობა, რომელიც დოკუმენტირებულია ახალ კვლევით ნაშრომში, რომელიც გამოქვეყნდა AI კოდის საზოგადოება Hugging Face-ზე, წარმოადგენს ორ ახალ ტექნიკას — დივერსიფიცირებული პირდაპირი უპირატესობის ოპტიმიზაცია (DDPO) და დივერსიფიცირებული შანსების თანაფარდობის უპირატესობის ოპტიმიზაცია (DORPO) — რომელიც შექმნილია შესაძლო გამომავალი მონაცემების დიაპაზონის გასაფართოებლად თანმიმდევრულობისა და წაკითხვადობის შენარჩუნებისას.

კომპანიისთვის, რომელიც საუკეთესოდ არის ცნობილი თავისი დიფუზიური AI გამოსახულების გენერირების მოდელებით, Midjourney-ის ახალი მიდგომა ტექსტზე დაფუძნებულ LLM-ებში კრეატიულობის გადახედვის მიმართ აჩვენებს, რომ ის არ ზღუდავს თავის ამბიციებს ვიზუალით და რომ სურათი შესაძლოა ათას სიტყვად არ ღირდეს.

შეიძლება თუ არა Midjourney-ის საკუთარი LLM ან არსებული LLM-ის დახვეწილი ვერსია იყოს პატარა, ბუტსტრაპული სტარტაპის კარტებში? დავუკავშირდი Midjourney-ის დამფუძნებელს, დევიდ ჰოლცს, მაგრამ ჯერ პასუხი არ მიმიღია.

პირველი მხარის Midjourney LLM შეთავაზების მიუხედავად, მისი ახალი კვლევის შედეგები სცილდება აკადემიურ სავარჯიშოებს და შეიძლება გამოყენებულ იქნას საწარმოთა AI გუნდებს, პროდუქტის დეველოპერებს და კონტენტის შემქმნელებს შორის LLM-ების ახალი ტალღის გასაძლიერებლად, რომლებიც ცდილობენ გააუმჯობესონ AI-გენერირებული ტექსტი.

ის ასევე გვიჩვენებს, რომ მიუხედავად AI მოდელის პროვაიდერებს შორის ბოლო დროს მზარდი ინტერესისა და ინვესტიციებისა ახალი მულტიმოდალური და მსჯელობის ენობრივი მოდელების მიმართ, ჯერ კიდევ ბევრი რესურსია დარჩენილი, შემეცნებითად და შესრულების თვალსაზრისით, კლასიკური Transformer-ზე დაფუძნებული, ტექსტზე ორიენტირებული LLM-ებისგან.

პრობლემა: AI-გენერირებული წერა იშლება ერთგვაროვანი გამომავალი მონაცემების გარშემო

ისეთ სფეროებში, როგორიცაა ფაქტებზე დაფუძნებული კითხვა-პასუხი ან კოდირების დახმარება, LLM-ები მოელიან ერთადერთი საუკეთესო პასუხის გენერირებას.

თუმცა, კრეატიული წერა არსებითად ღიაა, რაც იმას ნიშნავს, რომ არსებობს მრავალი ვალიდური პასუხი ერთ მოთხოვნაზე.

Midjourney-ის მკვლევარების მიერ მოწოდებული მაგალითისთვის, მოცემული მოთხოვნა, როგორიცაა "დაწერე მოთხრობა ძაღლზე მთვარეზე", LLM-ს შეუძლია შეისწავლოს მრავალი განსხვავებული გზა, როგორიცაა:

ასტრონავტის შინაური ძაღლი, რომელიც შემთხვევით დარჩა მთვარის მისიის შემდეგ.

ძაღლი, რომელიც აღმოჩნდება ფუტურისტულ ძაღლების კოსმოსურ კოლონიაში.

მიტოვებული ძაღლი, რომელიც მეგობრობს უცხოპლანეტელ სახეობასთან.

ამ შესაძლებლობების დიაპაზონის მიუხედავად, ინსტრუქციებით დახვეწილი LLM-ები ხშირად ერთიანდებიან მსგავს სიუჟეტებსა და თემებზე. ეს ხდება იმიტომ, რომ:

პოსტ-ტრენინგის ტექნიკა უპირატესობას ანიჭებს მომხმარებლის უპირატესობას ორიგინალურობაზე, აძლიერებს პოპულარულ, მაგრამ განმეორებად პასუხებს.
ინსტრუქციის დახვეწა ხშირად არბილებს ვარიაციებს, აიძულებს მოდელებს უპირატესობა მიანიჭონ "უსაფრთხო" პასუხებს უნიკალურზე.
მრავალფეროვნების ხელშემწყობი არსებული ტექნიკა (როგორიცაა ტემპერატურის რეგულირება) მოქმედებს მხოლოდ დასკვნის დროს და არა მოდელის სწავლის პროცესში ჩაშენებისას.

ეს იწვევს ჰომოგენიზებულ თხრობას, სადაც AI-გენერირებული კრეატიული წერა გრძელდება განმეორებადი და მოკლებულია სიურპრიზს ან სიღრმეს.

გამოსავალი: პოსტ-ტრენინგის მეთოდების მოდიფიცირება მრავალფეროვნების პრიორიტეტულობისთვის

ამ შეზღუდვების დასაძლევად, მკვლევარებმა წარმოადგინეს DDPO და DORPO, არსებული უპირატესობის ოპტიმიზაციის მეთოდების ორი გაფართოება. ამ მიდგომებში ძირითადი ინოვაცია არის გადახრის გამოყენება — საზომი იმისა, თუ რამდენად განსხვავდება პასუხი სხვებისგან — ტრენინგის წარმართვისთვის.

აი, როგორ მუშაობს:

ტრენინგის დროს მოდელს ეძლევა წერის მოთხოვნა და მრავალი შესაძლო პასუხი.
თითოეული პასუხი შედარებულია იმავე მოთხოვნის სხვა პასუხებთან და გამოითვლება გადახრის ქულა.
იშვიათი, მაგრამ მაღალი ხარისხის პასუხები უფრო მეტად იწონება ტრენინგში, რაც მოდელს აიძულებს ისწავლოს მრავალფეროვანი მაგალითებიდან.

გადახრის ჩართვით პირდაპირი უპირატესობის ოპტიმიზაციაში (DPO) და შანსების თანაფარდობის უპირატესობის ოპტიმიზაციაში (ORPO), მოდელი სწავლობს მაღალი ხარისხის, მაგრამ უფრო მრავალფეროვანი პასუხების წარმოებას.

ეს მეთოდი უზრუნველყოფს, რომ AI-გენერირებული ისტორიები არ შეჯერდეს ერთ პროგნოზირებად სტრუქტურაზე, არამედ შეისწავლოს პერსონაჟების, გარემოებებისა და თემების უფრო ფართო სპექტრი — ისევე, როგორც ადამიანმა მწერალმა შეიძლება გააკეთოს.

რა გააკეთეს Midjourney-ის მკვლევარებმა ამის მისაღწევად

კვლევა მოიცავდა LLM-ების გაწვრთნას კრეატიული წერის ამოცანებზე subreddit r/writingPrompts-დან მონაცემთა ნაკრების გამოყენებით, Reddit-ის საზოგადოება, სადაც მომხმარებლები აქვეყნებენ მოთხოვნებს და პასუხობენ მოთხრობებით.

მკვლევარებმა გამოიყენეს ორი საბაზისო მოდელი თავიანთი ტრენინგისთვის:

Meta-ს Llama-3.1-8B (8-მილიარდიანი პარამეტრის მოდელი Llama 3 სერიიდან).

Mistral-7B-v0.3 (7-მილიარდიანი პარამეტრის მოდელი Mistral AI-დან).

შემდეგ, მათ გაიარეს ეს მოდელები შემდეგი პროცესებით:

ზედამხედველობითი ზუსტი რეგულირება (SFT): მოდელები პირველად ზუსტად დარეგულირდა LoRA-ს (დაბალი რანგის ადაპტაცია) გამოყენებით პარამეტრების ეფექტურად დასარეგულირებლად.
უპირატესობის ოპტიმიზაცია:
DPO და ORPO გამოიყენებოდა როგორც საბაზისო ხაზები — ეს სტანდარტული მეთოდები ფოკუსირებულია პასუხის ხარისხის გაუმჯობესებაზე მომხმარებლის უპირატესობის სიგნალებზე დაყრდნობით.

DDPO და DORPO შემდეგ გამოიყენეს, შემოიღეს გადახრაზე დაფუძნებული წონა უფრო უნიკალური პასუხების წახალისებისთვის.

შეფასება:

ავტომატური შეფასება: გაზომეს სემანტიკური და სტილისტური მრავალფეროვნება ჩაშენებაზე დაფუძნებული ტექნიკის გამოყენებით.

ადამიანის შეფასება: მოსამართლეებმა შეაფასეს, იყო თუ არა გამომავალი მონაცემები მრავალფეროვანი და მიმზიდველი GPT-4o-თან და Claude 3.5-თან შედარებით.

ტრენინგის ძირითადი დასკვნები:

DDPO-მ მნიშვნელოვნად აჯობა სტანდარტულ DPO-ს გამომავალი მონაცემების მრავალფეროვნების თვალსაზრისით ხარისხის შენარჩუნებისას.

Llama-3.1-8B DDPO-ით მიაღწია ხარისხისა და მრავალფეროვნების საუკეთესო ბალანსს, წარმოქმნა პასუხები, რომლებიც იყო უფრო მრავალფეროვანი, ვიდრე GPT-4o თანმიმდევრულობის შენარჩუნებისას.

როდესაც მონაცემთა ნაკრების ზომა შემცირდა, DDPO მოდელებმა მაინც შეინარჩუნეს მრავალფეროვნება, თუმცა მათ სრულად ეფექტური რომ ყოფილიყვნენ, საჭირო იყო მრავალფეროვანი ტრენინგის ნიმუშების გარკვეული რაოდენობა.

საწარმოს შედეგები: რას ნიშნავს ეს მათთვის, ვინც იყენებს ხელოვნურ ინტელექტს კრეატიული პასუხების შესაქმნელად — როგორიცაა მარკეტინგული ტექსტების, კორპორატიული თხრობისა და ფილმების/ტელევიზიის/ვიდეო თამაშების სცენარების წერაში?

AI გუნდებისთვის, რომლებიც მართავენ LLM-ების განლაგებას, გამომავალი მონაცემების მრავალფეროვნების გაზრდა ხარისხის შენარჩუნებისას კრიტიკული გამოწვევაა. ამ დასკვნებს მნიშვნელოვანი შედეგები აქვს ორგანიზაციებისთვის, რომლებიც ეყრდნობიან AI-გენერირებულ კონტენტს ისეთ აპლიკაციებში, როგორიცაა:

სალაპარაკო AI და ჩატბოტები (მრავალფეროვანი და მიმზიდველი პასუხების უზრუნველყოფა).

კონტენტ მარკეტინგი და თხრობის ინსტრუმენტები (განმეორებადი AI-გენერირებული ტექსტის პრევენცია).

თამაშების განვითარება და ნარატიული დიზაინი (მრავალფეროვანი დიალოგისა და განშტოებული სიუჟეტური ხაზების შექმნა).

პროფესიონალებისთვის, რომლებიც პასუხისმგებელნი არიან საწარმოთა გარემოში მოდელების ზუსტად რეგულირებასა და განლაგებაზე, ეს კვლევა უზრუნველყოფს:

LLM პოსტ-ტრენინგის ახალ მიდგომას, რომელიც აძლიერებს კრეატიულობას ხარისხის შეწირვის გარეშე.

პრაქტიკულ ალტერნატივას დასკვნის დროს მრავალფეროვნების რეგულირებისთვის (როგორიცაა ტემპერატურის რეგულირება) მრავალფეროვნების სწავლის პროცესში ინტეგრირებით.

უფრო მიმზიდველი AI აპლიკაციების განვითარების პოტენციალს, AI-დახმარებული წერის ინსტრუმენტებიდან დაწყებული ვირტუალურ ასისტენტებამდე, რომლებსაც შეუძლიათ დინამიურად მოარგონ თავიანთი პასუხები.

მათთვის, ვინც მართავს AI მოდელის ორკესტრირებასა და ავტომატიზაციას, ეს კვლევა ხაზს უსვამს:

მოდელების ტრენინგის ეტაპზე რეგულირების მნიშვნელობას, განლაგების დროს პოსტ-დამუშავების კორექტირების საჭიროების შემცირებას.

ადაპტაციური თხრობის AI-ზე ორიენტირებულ აპლიკაციებში დანერგვის გზას, ცვალებადობის უზრუნველყოფისას კონტენტის ხარისხის მაღალი დონის შენარჩუნებას.

LLM გამომავალი მონაცემების უფრო ადამიანის მსგავსი გახდომის მეთოდს, რაც გადამწყვეტია აპლიკაციებისთვის, რომლებიც საჭიროებენ ინტერაქტიულ თხრობას, მომხმარებელთა ჩართულობას ან დინამიური კონტენტის შექმნას.

AI-გენერირებული კრეატიული პროექტების მომავალი ნათელი ჩანს

DDPO-სა და DORPO-ს წარმატება აჩვენებს, რომ LLM-ების მრავალფეროვნებაზე ორიენტირებული მიზნებით გაწვრთნამ შეიძლება გამოიწვიოს მნიშვნელოვანი გაუმჯობესება კრეატიულ წერაში. ზოგიერთი იდეა მოიცავს:

გადახრაზე დაფუძნებული სწავლის ინტეგრირება საწარმოთა AI მოდელებში მომხმარებელზე ორიენტირებულ აპლიკაციებში პასუხების მრავალფეროვნების გასაზრდელად.
იმის შესწავლა, თუ როგორ გამოიყენება ეს მეთოდები სხვა გენერაციულ ამოცანებზე, როგორიცაა AI-ზე მომუშავე პოეზია, სცენარის წერა ან თამაშების თხრობა.
ჰიბრიდული ტრენინგის მიდგომების შემუშავება, რომლებიც აბალანსებს მრავალფეროვნებას და ინსტრუქციების შესრულების შესაძლებლობებს AI ასისტენტებისთვის.

მათთვის, ვინც დაინტერესებულია ამ ტექნიკის გამოყენებით, მკვლევარები გეგმავენ თავიანთი კოდის საჯაროდ ხელმისაწვდომობას ამ GitHub საცავში

თუ თქვენ ზუსტად არეგულირებთ LLM-ებს ბიზნეს აპლიკაციებისთვის ან ახდენთ ფართომასშტაბიანი AI ორკესტრირების ოპტიმიზაციას, ეს კვლევა გვაწვდის ქმედითუნარიან შეხედულებებს იმის შესახებ, თუ როგორ შეიძლება მოდელები იყოს უფრო დინამიური, მიმზიდველი და რეაგირებადი კრეატიულ ამოცანებზე.

ამ ტექნიკის მიღებით, AI გუნდებს შეუძლიათ გადალახონ ხისტი, ფორმულური გამომავალი მონაცემები — შექმნან AI სისტემები, რომლებიც არა მხოლოდ ჭკვიანია, არამედ ჭეშმარიტად წარმოსახვითიც.

დამუშავებულია ასინეთა AI-ის მიერ.

კატეგორიები

Midjourney-ის მოულოდნელობა: ახალი კვლევა LLM-ების უფრო კრეატიულად წერის შესახებ

პრობლემა: AI-გენერირებული წერა იშლება ერთგვაროვანი გამომავალი მონაცემების გარშემო

გამოსავალი: პოსტ-ტრენინგის მეთოდების მოდიფიცირება მრავალფეროვნების პრიორიტეტულობისთვის

რა გააკეთეს Midjourney-ის მკვლევარებმა ამის მისაღწევად

ტრენინგის ძირითადი დასკვნები:

AI-გენერირებული კრეატიული პროექტების მომავალი ნათელი ჩანს

კომენტარები

მსგავსი სიახლეები

Genesis X Gran Equator SUV-ის კონცეფცია: დაფაზე განლაგებული წრიული მაჩვენებლები,...

ხელოვნური ინტელექტის ხმოვანი აგენტი მილანის დიზაინის კვირეულზე ხავსით დაფარულ სა...

Smashing - Goodreads-ის დამფუძნებლის აპლიკაცია - დაიხურა

Rippling-ი Revolut-ს Deel-ის სავარაუდო ჯაშუშისთვის თანხის გადამხდელის დასახელება...

Comcast-მა Apple-ის, Expedia-სა და DirecTV-ის ყოფილი თანამშრომელი ჯონ გიზელმანი აიყვანა აშშ-ის საცხოვრებელი ბიზნესის ხელმძღვანელად

კატეგორიები

Midjourney-ის მოულოდნელობა: ახალი კვლევა LLM-ების უფრო კრეატიულად წერის შესახებ

პრობლემა: AI-გენერირებული წერა იშლება ერთგვაროვანი გამომავალი მონაცემების გარშემო

გამოსავალი: პოსტ-ტრენინგის მეთოდების მოდიფიცირება მრავალფეროვნების პრიორიტეტულობისთვის

რა გააკეთეს Midjourney-ის მკვლევარებმა ამის მისაღწევად

ტრენინგის ძირითადი დასკვნები:

AI-გენერირებული კრეატიული პროექტების მომავალი ნათელი ჩანს

კომენტარები

გსურთ კომენტარის დატოვება?

მსგავსი სიახლეები

Genesis X Gran Equator SUV-ის კონცეფცია: დაფაზე განლაგებული წრიული მაჩვენებლები,...

ხელოვნური ინტელექტის ხმოვანი აგენტი მილანის დიზაინის კვირეულზე ხავსით დაფარულ სა...

Smashing - Goodreads-ის დამფუძნებლის აპლიკაცია - დაიხურა

Rippling-ი Revolut-ს Deel-ის სავარაუდო ჯაშუშისთვის თანხის გადამხდელის დასახელება...