კატეგორიები

CardanoNFTავტოარქიტექტურაახალი ამბებიახალიამბებიბიზნესიგანათლებაგარემოგარემო და ბუნებაგარემოს დაცვაგართობაეკონომიკაეკონომიკა/ბიზნესიზოგადითავგადასავალითამაშებიიარაღიისტორიაკოსმოსიკრიმინალიკრიპტოკრიპტოვალუტაკრიპტოსამყაროკულინარიაკულინარია რეცეპტებიკულტურაკულტურა/მედიამედიამეცნიერებამოგზაურობამოდამომხმარებელიმსოფლიომსოფლიო ამბებიმსოფლიო პოლიტიკანადირობაპოლიტიკაპროდუქტის მიმოხილვარობოტექნიკასაბრძოლო მასალასაზოგადოებასამართალისამხედროსილამაზესპორტისტარტაპებისტილისხვადასხვატექნიკატექნოლოგიატექნოლოგიებიტექნოლოგიები/ონლაინ კომერციატრანსპორტიტურიზმიუსაფრთხოებაფინანსებიფიტნესიშოუბიზნესიცხოვრებაწიგნებიხელოვნებახელოვნური ინტელექტიჯანდაცვაჯანმრთელობა

მკვლევარები აფრთხილებენ ენობრივი დიდი მოდელების „კატასტროფულ გადამზადებასთან“ დაკავშირებით

ტექნოლოგია ხელოვნურიინტელექტი
მკვლევარები აფრთხილებენ ენობრივი დიდი მოდელების „კატასტროფულ გადამზადებასთან“ დაკავშირებით

ახალი აკადემიური კვლევა ეჭვქვეშ აყენებს მსხვილი ენობრივი მოდელების (LLM) განვითარების ძირითად დაშვებას და აფრთხილებს, რომ წინასწარი მომზადების მეტი მონაცემი ყოველთვის არ იწვევს უკეთეს მოდელებს.

დასავლეთის და მსოფლიოს წამყვანი კომპიუტერული მეცნიერების ინსტიტუტების მკვლევარებმა - მათ შორის კარნეგი მელონის უნივერსიტეტიდან, სტენფორდის უნივერსიტეტიდან, ჰარვარდის უნივერსიტეტიდან და პრინსტონის უნივერსიტეტიდან - შემოიტანეს „კატასტროფული გადამზადების“ კონცეფცია. ისინი აჩვენებენ, რომ გაფართოებულმა წინასწარმა მომზადებამ შეიძლება რეალურად გაართულოს ენობრივი მოდელების დახვეწა, რაც საბოლოოდ აუარესებს მათ შესრულებას.

კვლევა, გადამზადებული ენობრივი მოდელების დახვეწა უფრო რთულია,” ხელმისაწვდომია arXiv-ზე და მას ჯეიკობ მიტჩელ სპრინგერი ხელმძღვანელობს. მისი თანაავტორები არიან საჩინ გოიალი, კაიუ ვენი, ტანიშქ კუმარი, ქსიანგ იუე, სადიკა მალადი, გრეჰემ ნეუბიგი და ადიტი რაგუნათანი.

შემცირებული უკუგების კანონი

კვლევა ფოკუსირებულია თანამედროვე LLM-ების განვითარებაში დაკვირვებულ გასაკვირ ტენდენციაზე: მაშინ როდესაც მოდელები წინასწარ არის მომზადებული მონაცემთა მუდმივად მზარდ აუზებზე - ლიცენზირებული ან ვებიდან მოპოვებული, წარმოდგენილი LLM-ისთვის, როგორც ტოკენების სერია ან ცნებებისა და იდეების რიცხვითი წარმოდგენები - წინასწარი მომზადების დროს ტოკენების რაოდენობის გაზრდამ შეიძლება გამოიწვიოს ეფექტურობის შემცირება, როდესაც ეს მოდელები მოგვიანებით დახვეწილია კონკრეტული ამოცანებისთვის.

ჯგუფმა ჩაატარა ემპირიული შეფასებებისა და თეორიული ანალიზების სერია მოდელის ადაპტირებაზე გაფართოებული წინასწარი მომზადების ეფექტის შესასწავლად.

ერთ-ერთი საკვანძო დასკვნა ცენტრშია AI2-ის ღია კოდის OLMo-1B მოდელი.

მკვლევარებმა შეადარეს ამ მოდელის ორი ვერსია: ერთი წინასწარ მომზადებული 2.3 ტრილიონი ტოკენზე და მეორე 3 ტრილიონ ტოკენზე.

მიუხედავად იმისა, რომ ეს უკანასკნელი 30%-ით მეტ მონაცემზე იყო მომზადებული, ეს უკანასკნელი მოდელი უარესად მუშაობდა ინსტრუქციის დაზუსტების შემდეგ. კონკრეტულად, 3T-ტოკენის მოდელმა აჩვენა 2%-ით უარესი შესრულება ენობრივი მოდელის რამდენიმე სტანდარტულ ბენჩმარკზე 2.3T-ტოკენის ანალოგთან შედარებით. ზოგიერთ შეფასებაში შესრულების დეგრადაციამ 3%-ს მიაღწია.

მკვლევარები ამტკიცებენ, რომ ეს ვარდნა არ არის ანომალია, არამედ თანმიმდევრული ფენომენია, რომელსაც ისინი „კატასტროფულ გადამზადებას“ უწოდებენ.

მგრძნობელობისა და დავიწყების გაგება

ნაშრომი ამ დეგრადაციას მიაწერს სისტემურ ზრდას, რასაც ისინი „პროგრესულ მგრძნობელობას“ უწოდებენ. როდესაც მოდელები გადიან გაფართოებულ წინასწარ მომზადებას, მათი პარამეტრები უფრო მგრძნობიარე ხდება ცვლილებების მიმართ.

ეს გაზრდილი სისუსტე მათ უფრო დაუცველს ხდის დეგრადაციის მიმართ პოსტ-ტრენინგის მოდიფიკაციების დროს, როგორიცაა ინსტრუქციის დაზუსტება, მულტიმოდალური ამოცანებისთვის დახვეწა, ან თუნდაც მარტივი წონის დარღვევები.

მკვლევარები წარმოადგენენ მტკიცებულებას, რომ წინასწარი მომზადების გარკვეული ეტაპის შემდეგ, ნებისმიერი მოდიფიკაცია - იქნება ეს სტრუქტურირებული, როგორიცაა დახვეწა, თუ არასტრუქტურირებული, როგორიცაა გაუსის ხმაურის დამატება - იწვევს ადრე შესწავლილი შესაძლებლობების უფრო დიდ დაკარგვას.

ეს მგრძნობელობა იწვევს „დავიწყებას“, სადაც მოდელის თავდაპირველი ძლიერი მხარეები უარესდება ახალი სასწავლო მონაცემების შემოტანისას.

კვლევა განსაზღვრავს „გადამწყვეტ წერტილს“ წინასწარ მომზადებაში, რის შემდეგაც დამატებითი მომზადება იწვევს შემცირებულ და უარყოფით უკუგებას დახვეწის შედეგებთან დაკავშირებით. OLMo-1B მოდელისთვის ეს ზღვარი დაახლოებით 2.5 ტრილიონი ტოკენის გარშემო გაჩნდა.

მტკიცებულებათა სიუხვე

ჯგუფის ანალიზი მოიცავს რეალურ და კონტროლირებად ექსპერიმენტულ პარამეტრებს. მათ გამოსცადეს ფენომენი სხვადასხვა ამოცანებზე, მათ შორის ინსტრუქციის დაზუსტება მონაცემთა ნაკრების გამოყენებით, როგორიცაა Anthropic-HH და TULU და მულტიმოდალური დახვეწა LLaVA ჩარჩოს გამოყენებით.

შედეგებმა თანმიმდევრულად აჩვენა, რომ მოდელები, რომლებიც წინასწარ იყო მომზადებული გარკვეული ტოკენების ბიუჯეტის მიღმა, დახვეწის შემდეგ უფრო ცუდად მუშაობდნენ.

გარდა ამისა, მკვლევარებმა ააგეს თეორიული მოდელი ხაზოვანი ქსელების გამოყენებით, რათა უკეთ გაეგოთ, რატომ იწვევს გადამზადება გაზრდილ მგრძნობელობას.

მათმა ანალიზმა დაადასტურა, რომ პროგრესული მგრძნობელობა და კატასტროფული გადამზადება მათემატიკურად გარდაუვალია, როდესაც წინასწარი მომზადება განუსაზღვრელი ვადით გრძელდება სათანადო შეზღუდვების გარეშე.

საბოლოო დასკვნა? მოდელის პროვაიდერებმა და ტრენერებმა უნდა გააკეთონ კომპრომისები

დასკვნები ეჭვქვეშ აყენებს ფართოდ გავრცელებულ ვარაუდს, რომ წინასწარი მომზადების მეტი მონაცემი ყოველთვის უკეთესია. ნაცვლად ამისა, ნაშრომი გვთავაზობს ნიუანსირებულ კომპრომისს: მაშინ როდესაც ხანგრძლივი წინასწარი მომზადება აუმჯობესებს საბაზისო მოდელის შესაძლებლობებს, ის ასევე ზრდის რისკს, რომ დახვეწა გააუარესებს ამ შესაძლებლობებს.

პრაქტიკაში, ამ ეფექტის შესამსუბუქებლად მცდელობებმა - როგორიცაა დახვეწის სწავლის სიჩქარის კორექტირება ან რეგულარიზაციის დამატება - შეიძლება გადადოს კატასტროფული გადამზადების დაწყება, მაგრამ ვერ აღმოფხვრის მას მთლიანად ქვედა დინების მუშაობის შეწირვის გარეშე.

ამრიგად, საწარმოებისთვის, რომლებიც ცდილობენ გამოიყენონ LLM-ები ბიზნეს პროცესების და შედეგების გასაუმჯობესებლად, თუ ამის გაკეთების ერთ-ერთი იდეა არის ღია კოდის მოდელის დახვეწა, ამ კვლევის გაკვეთილი მიუთითებს, რომ უფრო დაბალი პარამეტრების მოდელების დახვეწა, რომლებიც მომზადებულია ნაკლებ მასალაზე, სავარაუდოდ, უფრო საიმედო წარმოების მოდელს მიიღებს.

ავტორები აღიარებენ, რომ საჭიროა შემდგომი კვლევა იმ ფაქტორების გასაგებად, რომლებიც გავლენას ახდენენ იმაზე, თუ როდის და როგორ ხდება კატასტროფული გადამზადება. ღია კითხვები მოიცავს იმას, შეუძლია თუ არა წინასწარი მომზადების ოპტიმიზატორს, მომზადების მიზანს ან მონაცემთა განაწილებას გავლენა მოახდინოს ფენომენის სიმძიმეზე.

მომავალი LLM-ებისა და AI მოდელების განვითარების შედეგები

კვლევა მნიშვნელოვნად მოქმედებს იმაზე, თუ როგორ აპროექტებენ და ამზადებენ ორგანიზაციები და მკვლევარები მსხვილ ენობრივ მოდელებს. იმის გამო, რომ სფერო აგრძელებს უფრო დიდი და ქმედუნარიანი მოდელების ძიებას, ეს კვლევა ხაზს უსვამს წინასწარი მომზადების ხანგრძლივობის დაბალანსების მნიშვნელობას პოსტ-ტრენინგის ადაპტირებასთან.

გარდა ამისა, დასკვნებმა შეიძლება გავლენა მოახდინოს იმაზე, თუ როგორ ფიქრობენ მოდელის დეველოპერები რესურსების განაწილებაზე. იმის ნაცვლად, რომ ექსკლუზიურად ფოკუსირდნენ წინასწარი მომზადების ბიუჯეტების გაზრდაზე, დეველოპერებმა შესაძლოა, გადააფასონ სტრატეგიები ქვედა დინების მუშაობის ოპტიმიზაციისთვის კატასტროფული გადამზადების უარყოფითი ეფექტების გამოწვევის გარეშე.

ასინეთა AI-ის მიერ არის დამუშავებული.

კომენტარები