ხელოვნური ინტელექტის მოდელები მხოლოდ იმდენად კარგად მუშაობს, რამდენადაც მათ გასაწვრთნელად ან დასახვეწად გამოყენებული მონაცემები.
მანქანური სწავლებისა (ML) და გენერაციული ხელოვნური ინტელექტის ისტორიის დიდ ნაწილში, მარკირებული მონაცემები ფუნდამენტური ელემენტი იყო. მარკირებული მონაცემები არის ინფორმაცია, რომელიც მონიშნულია ხელოვნური ინტელექტის მოდელებისთვის კონტექსტის გასაგებად წვრთნის დროს.
სანამ საწარმოები ხელოვნური ინტელექტის აპლიკაციების დანერგვისკენ მიისწრაფვიან, ფარული შეფერხება ხშირად ტექნოლოგია კი არა, დომენზე სპეციფიკური მონაცემების შეგროვების, კურირებისა და მარკირების თვეების ხანგრძლივობის პროცესია. ამ „მონაცემთა მარკირების გადასახადმა“ ტექნიკური მიმართულების ლიდერები აიძულა არჩევანი გაეკეთებინათ განლაგების გადადებას ან ზოგადი მოდელებისგან სუბოპტიმალური მუშაობის მიღებას შორის.
Databricks პირდაპირ უტევს ამ გამოწვევას.
ამ კვირაში კომპანიამ გამოაქვეყნა კვლევა ახალ მიდგომაზე, სახელწოდებით ტესტირების დროითი ადაპტაციური ოპტიმიზაცია (TAO). ამ მიდგომის ძირითადი იდეა არის საწარმოო კლასის დიდი ენობრივი მოდელის (LLM) დახვეწის შესაძლებლობა მხოლოდ შეყვანის მონაცემების გამოყენებით, რომლებიც კომპანიებს უკვე აქვთ - მარკირება არ არის საჭირო - ამასთან მიიღწევა შედეგები, რომლებიც აღემატება ტრადიციულ დახვეწას ათასობით მარკირებულ მაგალითზე. Databricks დაიწყო როგორც მონაცემთა ტბის საცავის პლატფორმის გამყიდველი და ბოლო წლებში სულ უფრო მეტად კონცენტრირდა ხელოვნურ ინტელექტზე. Databricks-მა შეიძინა MosaicML 1.3 მილიარდ დოლარად და სტაბილურად ავრცელებს ინსტრუმენტებს, რომლებიც დეველოპერებს ეხმარება ხელოვნური ინტელექტის აპლიკაციების სწრაფად შექმნაში. Databricks-ის Mosaic-ის კვლევითმა ჯგუფმა შეიმუშავა TAO მეთოდი.
„მარკირებული მონაცემების მიღება რთულია და ცუდი მარკირება პირდაპირ ცუდ შედეგებამდე მიგვიყვანს, სწორედ ამიტომ ფრონტის ლაბორატორიები იყენებენ მონაცემთა მარკირების გამყიდველებს ძვირადღირებული ადამიანის მიერ ანოტირებული მონაცემების შესაძენად“, - განუცხადა VentureBeat-ს ბრენდონ კუიმ, Databricks-ის გამაგრებითი სწავლების ლიდერმა და უფროსმა მეცნიერ-მკვლევარმა. „ჩვენ გვინდა მომხმარებლებთან იქ შევხვდეთ, სადაც ისინი არიან, მარკირება საწარმოო ხელოვნური ინტელექტის დანერგვის დაბრკოლება იყო და TAO-სთან ერთად, აღარ არის.“
ტექნიკური ინოვაცია: როგორ ახდენს TAO LLM მოდელების დახვეწის რეინვენციას
თავის არსში, TAO ცვლის პარადიგმას იმის შესახებ, თუ როგორ ახდენენ დეველოპერები მოდელების პერსონალიზებას კონკრეტული დომენებისთვის.
ტრადიციული ზედამხედველობითი დახვეწის მიდგომის ნაცვლად, რომელიც მოითხოვს დაწყვილებულ შეყვანა-გამოყვანის მაგალითებს, TAO იყენებს გამაგრებით სწავლებას და სისტემატურ გამოკვლევას მოდელების გასაუმჯობესებლად მხოლოდ საძიებო მოთხოვნების მაგალითების გამოყენებით.
ტექნიკური მილსადენი ოთხი განსხვავებული მექანიზმის ერთობლივ მუშაობას იყენებს:
გამოკვლევითი რეაგირების გენერირება: სისტემა იღებს არამარკირებულ შეყვანის მაგალითებს და თითოეულისთვის წარმოქმნის მრავალ პოტენციურ პასუხს მოწინავე სწრაფი ინჟინერიის ტექნიკის გამოყენებით, რომლებიც იკვლევენ გადაწყვეტის სივრცეს.
საწარმოზე დაკალიბრებული ჯილდოს მოდელირება: გენერირებულ პასუხებს აფასებს Databricks-ის ჯილდოს მოდელი (DBRM), რომელიც სპეციალურად არის შექმნილი საწარმოო ამოცანებზე მუშაობის შესაფასებლად, აქცენტით სისწორეზე.
გამაგრებითი სწავლების საფუძველზე მოდელის ოპტიმიზაცია: შემდეგ მოდელის პარამეტრები ოპტიმიზირებულია გამაგრებითი სწავლების საშუალებით, რომელიც არსებითად ასწავლის მოდელს უშუალოდ მაღალი ქულის მქონე პასუხების გენერირებას.
მონაცემთა უწყვეტი მორევი: როდესაც მომხმარებლები ურთიერთქმედებენ განლაგებულ სისტემასთან, ახალი შეყვანები ავტომატურად გროვდება, რაც ქმნის თვითგაუმჯობესებად ციკლს ადამიანის დამატებითი მარკირების ძალისხმევის გარეშე.
ტესტირების დროითი გამოთვლა ახალი იდეა არ არის. OpenAI-მ ტესტირების დროითი გამოთვლა გამოიყენა o1 მსჯელობის მოდელის შესაქმნელად, ხოლო DeepSeek-მა მსგავსი ტექნიკა გამოიყენა R1 მოდელის გასაწვრთნელად. ის, რაც TAO-ს განასხვავებს ტესტირების დროითი გამოთვლის სხვა მეთოდებისგან, არის ის, რომ მიუხედავად იმისა, რომ იგი იყენებს დამატებით გამოთვლას წვრთნის დროს, საბოლოო დახვეწილ მოდელს აქვს იგივე დასკვნის ღირებულება, რაც ორიგინალ მოდელს. ეს გვთავაზობს კრიტიკულ უპირატესობას წარმოების განლაგებისთვის, სადაც დასკვნის ხარჯები მასშტაბირდება გამოყენებასთან ერთად.
„TAO იყენებს დამატებით გამოთვლას მხოლოდ წვრთნის პროცესის ნაწილად; ის არ ზრდის მოდელის დასკვნის ღირებულებას წვრთნის შემდეგ“, - განმარტა კუიმ. „გრძელვადიან პერსპექტივაში, ჩვენ ვფიქრობთ, რომ TAO და ტესტირების დროითი გამოთვლის მიდგომები, როგორიცაა o1 და R1, ურთიერთშემავსებელი იქნება - თქვენ შეგიძლიათ გააკეთოთ ორივე.“
შედარებითი ანალიზი ტრადიციულ დახვეწაზე მოულოდნელ უპირატესობას ავლენს
Databricks-ის კვლევა ცხადყოფს, რომ TAO არა მხოლოდ შეესაბამება ტრადიციულ დახვეწას - არამედ აჭარბებს მას. მრავალ საწარმოზე მნიშვნელოვან შედარებით ანალიზში, Databricks აცხადებს, რომ მიდგომა უკეთესია, მიუხედავად მნიშვნელოვნად ნაკლები ადამიანური ძალისხმევის გამოყენებისა.
FinanceBench-ზე (ფინანსური დოკუმენტების კითხვა-პასუხის შედარებითი ანალიზი), TAO-მ გააუმჯობესა Llama 3.1 8B-ის მუშაობა 24.7 პროცენტული პუნქტით და Llama 3.3 70B 13.4 პუნქტით. SQL გენერირებისთვის BIRD-SQL შედარებითი ანალიზის გამოყენებით, რომელიც ადაპტირებულია Databricks-ის დიალექტზე, TAO-მ მიაწოდა გაუმჯობესებები, შესაბამისად, 19.1 და 8.7 პუნქტით.
რაც ყველაზე აღსანიშნავია, TAO-ით დახვეწილი Llama 3.3 70B მიუახლოვდა GPT-4o-სა და o3-mini-ის მუშაობას ამ შედარებით ანალიზებში - მოდელები, რომლებიც, როგორც წესი, 10-20-ჯერ მეტი ღირს წარმოების გარემოში გასაშვებად.
ეს წარმოადგენს დამაჯერებელ ღირებულების წინადადებას ტექნიკური გადაწყვეტილების მიმღებთათვის: უფრო პატარა, უფრო ხელმისაწვდომი მოდელების განლაგების შესაძლებლობა, რომლებიც შედარებით მუშაობენ თავიანთ პრემიუმ კოლეგებთან დომენზე სპეციფიკურ ამოცანებზე, ტრადიციულად საჭირო ვრცელი მარკირების ხარჯების გარეშე.
TAO საწარმოებისთვის დროულად ბაზარზე გასვლის უპირატესობას იძლევა
მიუხედავად იმისა, რომ TAO აშკარა ხარჯების უპირატესობას იძლევა უფრო პატარა, უფრო ეფექტური მოდელების გამოყენების შესაძლებლობით, მისი უდიდესი ღირებულება შეიძლება იყოს ხელოვნური ინტელექტის ინიციატივების ბაზარზე დროულად გასვლის დაჩქარებაში.
„ჩვენ ვფიქრობთ, რომ TAO საწარმოებს ფულზე უფრო ღირებულს ზოგავს: ის მათ დროს ზოგავს“, - ხაზგასმით აღნიშნა კუიმ. „მარკირებული მონაცემების მიღება, როგორც წესი, მოითხოვს ორგანიზაციული საზღვრების გადაკვეთას, ახალი პროცესების დაყენებას, საგნობრივი ექსპერტების მოზიდვას მარკირების გასაკეთებლად და ხარისხის გადამოწმებას. საწარმოებს თვეები არ აქვთ რამდენიმე ბიზნეს ერთეულის შესათანხმებლად მხოლოდ ერთი ხელოვნური ინტელექტის გამოყენების შემთხვევის პროტოტიპის შესაქმნელად.“
ეს დროის შეკუმშვა სტრატეგიულ უპირატესობას ქმნის. მაგალითად, ფინანსური მომსახურების კომპანიას, რომელიც ახორციელებს კონტრაქტების ანალიზის გადაწყვეტას, შეუძლია დაიწყოს განლაგება და გამეორება მხოლოდ კონტრაქტების ნიმუშების გამოყენებით, იურიდიული ჯგუფების ათასობით დოკუმენტის მარკირების მოლოდინის ნაცვლად. ანალოგიურად, ჯანდაცვის ორგანიზაციებს შეუძლიათ გააუმჯობესონ კლინიკური გადაწყვეტილების მხარდაჭერის სისტემები მხოლოდ ექიმების მოთხოვნების გამოყენებით, დაწყვილებული ექსპერტის პასუხების მოთხოვნის გარეშე.
„ჩვენი მკვლევარები დიდ დროს ატარებენ ჩვენს მომხმარებლებთან საუბარში, იმ რეალური გამოწვევების გაგებაში, რომლებსაც ისინი აწყდებიან ხელოვნური ინტელექტის სისტემების შექმნისას და ახალი ტექნოლოგიების შემუშავებაში ამ გამოწვევების დასაძლევად“, - თქვა კუიმ. „ჩვენ უკვე ვიყენებთ TAO-ს მრავალ საწარმოო აპლიკაციაში და ვეხმარებით მომხმარებლებს მუდმივად გაიმეორონ და გააუმჯობესონ თავიანთი მოდელები.“
რას ნიშნავს ეს ტექნიკური გადაწყვეტილების მიმღებთათვის
საწარმოებისთვის, რომლებიც ცდილობენ ლიდერობა მოიპოვონ ხელოვნური ინტელექტის დანერგვაში, TAO წარმოადგენს პოტენციურ გარდამტეხ მომენტს იმაში, თუ როგორ ხდება სპეციალიზებული ხელოვნური ინტელექტის სისტემების განლაგება. მაღალი ხარისხის, დომენზე სპეციფიკური მუშაობის მიღწევა ვრცელი მარკირებული მონაცემთა ნაკრებების გარეშე ხსნის ხელოვნური ინტელექტის ფართოდ დანერგვის ერთ-ერთ ყველაზე მნიშვნელოვან ბარიერს.
ეს მიდგომა განსაკუთრებით სარგებელს მოუტანს ორგანიზაციებს, რომლებსაც აქვთ უსტრუქტურო მონაცემების მდიდარი საცავი და დომენზე სპეციფიკური მოთხოვნები, მაგრამ შეზღუდული რესურსები ხელით მარკირებისთვის - ზუსტად ის პოზიცია, რომელშიც ბევრი საწარმო აღმოჩნდება.
რადგან ხელოვნური ინტელექტი სულ უფრო და უფრო ცენტრალური ხდება კონკურენტული უპირატესობისთვის, ტექნოლოგიები, რომლებიც ამცირებენ დროს კონცეფციიდან განლაგებამდე და ამავდროულად აუმჯობესებენ მუშაობას, გამოყოფენ ლიდერებს ჩამორჩენილებისგან. როგორც ჩანს, TAO არის ასეთი ტექნოლოგია, რომელსაც პოტენციურად შეუძლია საწარმოებს სპეციალიზებული ხელოვნური ინტელექტის შესაძლებლობების დანერგვა კვირებში და არა თვეებში ან კვარტლებში.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს