ხელოვნური ინტელექტის მოდელის ყოველი გამოშვება, როგორც წესი, თან ახლავს დიაგრამები, რომლებიც აჩვენებს, თუ როგორ აჯობა კონკურენტებს ამა თუ იმ საორიენტაციო ტესტში ან შეფასების მატრიცაში.
თუმცა, ეს საორიენტაციო მაჩვენებლები ხშირად ზოგად შესაძლებლობებს ამოწმებს. ორგანიზაციებისთვის, რომელთაც სურთ გამოიყენონ მოდელები და მსხვილი ენობრივი მოდელებზე დაფუძნებული აგენტები, უფრო რთულია შეაფასონ, რამდენად კარგად ესმის აგენტს ან მოდელს მათი კონკრეტული საჭიროებები.
მოდელების საცავმა Hugging Face წამოიწყო Yourbench, ღია კოდის ინსტრუმენტი, სადაც დეველოპერებსა და საწარმოებს შეუძლიათ შექმნან საკუთარი საორიენტაციო მაჩვენებლები, რათა შეამოწმონ მოდელის შესრულება მათ შიდა მონაცემებთან შედარებით.
„Yourbench გთავაზობთ მორგებულ შეფასებას და სინთეზური მონაცემების გენერირებას თქვენი ნებისმიერი დოკუმენტიდან. ეს არის დიდი ნაბიჯი მოდელის შეფასების მუშაობის გაუმჯობესებისკენ.“ - განაცხადა ჰაგინგ ფეისის შეფასების კვლევითი ჯგუფის წევრმა, სუმუკ შაშიდარმა X-ზე.
მან დასძინა, რომ Hugging Face-მა იცის, რომ „ბევრი გამოყენების შემთხვევაში, რაც ნამდვილად მნიშვნელოვანია, არის ის, თუ რამდენად კარგად ასრულებს მოდელი თქვენს კონკრეტულ ამოცანას. Yourbench საშუალებას გაძლევთ შეაფასოთ მოდელები იმის მიხედვით, რაც თქვენთვის მნიშვნელოვანია.“
მორგებული შეფასებების შექმნა
Hugging Face-მა ნაშრომში განაცხადა, რომ Yourbench მუშაობს Massive Multitask Language Understanding (MMLU) საორიენტაციო ნიშნულის ქვეჯგუფების რეპლიკაციის გზით „მინიმალური საწყისი ტექსტის გამოყენებით, რაც მიიღწევა 15 დოლარზე ნაკლებ საინფორმაციო ღირებულებაში, ხოლო მოდელის შედარებითი შესრულების რეიტინგების სრულყოფილად შენარჩუნებით.“
ორგანიზაციებმა უნდა მოახდინონ თავიანთი დოკუმენტების წინასწარი დამუშავება, სანამ Yourbench შეძლებს მუშაობას. ეს მოიცავს სამ ეტაპს:
შემდეგი მოდის კითხვა-პასუხის გენერირების პროცესი, რომელიც ქმნის კითხვებს დოკუმენტებში არსებული ინფორმაციის საფუძველზე. სწორედ აქ მოჰყავს მომხმარებელს მის მიერ არჩეული LLM, რათა ნახოს, რომელი უპასუხებს საუკეთესოდ კითხვებს.
Hugging Face-მა Yourbench გამოსცადა DeepSeek V3 და R1 მოდელებთან, Alibaba-ს Qwen მოდელებთან, მათ შორის მსჯელობის მოდელთან Qwen QwQ, Mistral Large 2411 და Mistral 3.1 Small, Llama 3.1 და Llama 3.3, Gemini 2.0 Flash, Gemini 2.0 Flash Lite და Gemma 3, GPT-4o, GPT-4o-mini და o3 mini, და Claude 3.7 Sonnet და Claude 3.5 Haiku.
შაშიდარმა თქვა, რომ Hugging Face ასევე გთავაზობთ მოდელების ღირებულების ანალიზს და აღმოაჩინა, რომ Qwen და Gemini 2.0 Flash „უზარმაზარ ღირებულებას აწარმოებენ ძალიან დაბალ ფასად.“
გამოთვლითი შეზღუდვები
თუმცა, ორგანიზაციის დოკუმენტებზე დაფუძნებული LLM-ის მორგებული საორიენტაციო მაჩვენებლების შექმნას თავისი ფასი აქვს. Yourbench-ს მუშაობისთვის დიდი გამოთვლითი სიმძლავრე სჭირდება. შაშიდარმა X-ზე განაცხადა, რომ კომპანია „სიმძლავრეს ზრდის“ იმდენად სწრაფად, რამდენადაც შეუძლიათ.
Hugging Face ამუშავებს რამდენიმე GPU-ს და თანამშრომლობს ისეთ კომპანიებთან, როგორიცაა Google, რათა გამოიყენონ მათი ღრუბლოვანი სერვისები დასკვნის ამოცანებისთვის. VentureBeat დაუკავშირდა Hugging Face-ს Yourbench-ის გამოთვლითი სიმძლავრის გამოყენების შესახებ.
შეფასება სრულყოფილი არ არის
საორიენტაციო მაჩვენებლები და შეფასების სხვა მეთოდები მომხმარებლებს წარმოდგენას აძლევს იმის შესახებ, თუ რამდენად კარგად მუშაობს მოდელები, მაგრამ ეს სრულყოფილად არ ასახავს იმას, თუ როგორ იმუშავებენ მოდელები ყოველდღიურად.
ზოგიერთმა გამოთქვა სკეპტიციზმიც კი იმის შესახებ, რომ საორიენტაციო ტესტები აჩვენებს მოდელების შეზღუდვებს და შეიძლება გამოიწვიოს მცდარი დასკვნები მათი უსაფრთხოებისა და მუშაობის შესახებ. კვლევამ ასევე გააფრთხილა, რომ აგენტების შეფასება შეიძლება იყოს „შეცდომაში შემყვანი“.
თუმცა, საწარმოებს არ შეუძლიათ თავიდან აიცილონ მოდელების შეფასება ახლა, როდესაც ბაზარზე ბევრი არჩევანია და ტექნოლოგიების ლიდერები ამართლებენ ხელოვნური ინტელექტის მოდელების გამოყენების მზარდ ღირებულებას. ამან გამოიწვია მოდელის მუშაობისა და საიმედოობის ტესტირების სხვადასხვა მეთოდი.
Google DeepMind-მა წარმოადგინა FACTS Grounding, რომელიც ამოწმებს მოდელის უნარს, შექმნას ფაქტობრივად ზუსტი პასუხები დოკუმენტებიდან მიღებული ინფორმაციის საფუძველზე. იელის და ცინგჰუას უნივერსიტეტების ზოგიერთმა მკვლევარმა შეიმუშავა თვითგამოძახებული კოდის საორიენტაციო მაჩვენებლები, რათა საწარმოებს მიუთითონ, რომელი კოდირების LLM-ები მუშაობს მათთვის.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს