ARC პრიზმა მკაცრი ARC-AGI-2 ბენჩმარკი გამოუშვა და 2025 წლის კონკურსი მილიონი დოლარის საპრიზო ფონდით დააანონსა. ვინაიდან ხელოვნური ინტელექტი ვიწრო ამოცანების შესრულებიდან ზოგადი, ადაპტაციური ინტელექტის დემონსტრირებაზე გადადის, ARC-AGI-2 გამოწვევები მიზნად ისახავს შესაძლებლობების ხარვეზების გამოვლენას და ინოვაციების აქტიურ წარმართვას. „AGI-ს კარგი ბენჩმარკები პროგრესის სასარგებლო ინდიკატორების როლს ასრულებენ. AGI-ს უკეთესი ბენჩმარკები შესაძლებლობებს ნათლად არჩევენ. AGI-ს საუკეთესო ბენჩმარკები კი ამ ყველაფერს აკეთებენ და აქტიურად შთააგონებენ კვლევებსა და ინოვაციებს წარმართავენ,“ - აცხადებს ARC Prize-ის გუნდი. ARC-AGI-2 „საუკეთესო“ კატეგორიის მიღწევას ისახავს მიზნად.
მეხსიერების მიღმა
2019 წელს დაარსების დღიდან, ARC Prize AGI-სკენ მიმავალი მკვლევრებისთვის „ჩრდილოეთის ვარსკვლავის“ როლს ასრულებს მყარი ბენჩმარკების შექმნით. ბენჩმარკები, როგორიცაა ARC-AGI-1, მიზნად ისახავდა თხევადი ინტელექტის გაზომვას (ანუ ახალ, უხილავ ამოცანებზე სწავლის ადაპტირების უნარს). ეს მკვეთრი გადახვევა იყო მონაცემთა ბაზებიდან, რომლებიც მხოლოდ დაზეპირებას აჯილდოებდნენ. ARC Prize-ის მისია ასევე წინდახედულია და მიზნად ისახავს სამეცნიერო გარღვევების ვადების დაჩქარებას. მისი ბენჩმარკები შექმნილია არა მხოლოდ პროგრესის გასაზომად, არამედ ახალი იდეების შთაგონებისთვისაც.
მკვლევრებმა კრიტიკული ცვლილება დააფიქსირეს OpenAI-ის o3-ის დებიუტით 2024 წლის ბოლოს, რომელიც ARC-AGI-1-ის გამოყენებით შეფასდა. ღრმა სწავლებაზე დაფუძნებული დიდი ენობრივი მოდელების (LLM) დასკვნის სინთეზის ძრავებთან კომბინირებამ o3 გარღვევა მოახდინა, სადაც ხელოვნური ინტელექტი ზეპირად დამახსოვრებას გასცდა. თუმცა, პროგრესის მიუხედავად, სისტემები, როგორიცაა o3, არაეფექტური რჩება და ტრენინგის პროცესებში მნიშვნელოვან ადამიანურ ზედამხედველობას მოითხოვს. ამ სისტემების ნამდვილი ადაპტირებისა და ეფექტურობისთვის გამოწვევის მიზნით, ARC Prize-მა ARC-AGI-2 წარადგინა.
ARC-AGI-2: ადამიანსა და მანქანას შორის არსებული უფსკრულის შევსება
ARC-AGI-2 ბენჩმარკი უფრო მკაცრია ხელოვნური ინტელექტისთვის, მაგრამ ინარჩუნებს ხელმისაწვდომობას ადამიანებისთვის. მაშინ როდესაც ფრონტის ხაზის AI დასკვნის სისტემები ARC-AGI-2-ზე ერთნიშნა პროცენტულ მაჩვენებელს აჩვენებენ, ადამიანებს შეუძლიათ ყველა დავალების ამოხსნა ორ მცდელობაზე ნაკლებ დროში. მაშ, რა გამოარჩევს ARC-AGI-ს? მისი დიზაინის ფილოსოფია ირჩევს ამოცანებს, რომლებიც „შედარებით მარტივია ადამიანებისთვის, მაგრამ რთული, ან შეუძლებელი, ხელოვნური ინტელექტისთვის“. ბენჩმარკი მოიცავს მონაცემთა ბაზებს ცვალებადი ხილვადობით და შემდეგი მახასიათებლებით:
* სიმბოლური ინტერპრეტაცია: ხელოვნურ ინტელექტს უჭირს სიმბოლოებისთვის სემანტიკური მნიშვნელობის მინიჭება, სამაგიეროდ ზედაპირულ შედარებებზე ფოკუსირდება, როგორიცაა სიმეტრიის შემოწმება. * კომპოზიციური მსჯელობა: ხელოვნური ინტელექტი მარცხს განიცდის, როდესაც მას ერთდროულად რამდენიმე ურთიერთდაკავშირებული წესის გამოყენება სჭირდება. * კონტექსტური წესების გამოყენება: სისტემები ვერ ახერხებენ წესების განსხვავებულად გამოყენებას კომპლექსური კონტექსტების მიხედვით, ხშირად ზედაპირულ ნიმუშებზე ფიქსირდებიან.
არსებული ბენჩმარკების უმეტესობა ზეადამიანურ შესაძლებლობებზეა ორიენტირებული, ამოწმებს მოწინავე, სპეციალიზებულ უნარებს იმ მასშტაბებით, რომლებიც მიუწვდომელია ადამიანების უმეტესობისთვის. ARC-AGI სცენარს ცვლის და ხაზს უსვამს იმას, რისი გაკეთებაც ხელოვნურ ინტელექტს ჯერ კიდევ არ შეუძლია; კონკრეტულად კი ადაპტირებას, რომელიც განსაზღვრავს ადამიანის ინტელექტს. როდესაც უფსკრული ამოცანებს შორის, რომლებიც მარტივია ადამიანებისთვის, მაგრამ რთული ხელოვნური ინტელექტისთვის, საბოლოოდ ნულს მიაღწევს, შეიძლება გამოცხადდეს AGI-ს მიღწევა. თუმცა, AGI-ს მიღწევა არ შემოიფარგლება მხოლოდ ამოცანების ამოხსნის უნარით; ეფექტურობა – გადაწყვეტილებების პოვნისთვის საჭირო ღირებულება და რესურსები – გადამწყვეტ განმსაზღვრელ ფაქტორად იქცევა.
ეფექტურობის როლი
ეფექტურობის გაზომვა თითო დავალებაზე დანახარჯით აუცილებელია ინტელექტის შესაფასებლად არა მხოლოდ როგორც პრობლემების გადაჭრის უნარის, არამედ ამის ეფექტურად გაკეთების უნარის თვალსაზრისითაც. რეალურ სამყაროში მაგალითები უკვე აჩვენებს ეფექტურობის ხარვეზებს ადამიანებსა და ფრონტის ხაზის ხელოვნური ინტელექტის სისტემებს შორის:
* ადამიანთა პანელის ეფექტურობა: ARC-AGI-2 დავალებებს 100%-იანი სიზუსტით ასრულებს 17 დოლარად თითო დავალებაზე. * OpenAI o3: ადრეული შეფასებები 4%-იან წარმატებას ვარაუდობს თვალისმომჭრელ 200 დოლარად თითო დავალებაზე.
ეს მეტრიკები ხაზს უსვამს შეუსაბამობებს ადაპტირების უნარსა და რესურსების მოხმარებაში ადამიანებსა და ხელოვნურ ინტელექტს შორის. ARC Prize-მა აიღო ვალდებულება, მომავალ ლიდერთა დაფებზე ეფექტურობის შესახებ ქულებთან ერთად მოახსენოს. ეფექტურობაზე ფოკუსირება ხელს უშლის უხეში ძალის გამოყენებით გადაწყვეტილებების „ნამდვილ ინტელექტად“ მიჩნევას. ინტელექტი, ARC Prize-ის მიხედვით, მოიცავს გადაწყვეტილებების მინიმალური რესურსებით პოვნას – თვისებას, რომელიც მკვეთრად ადამიანურია, მაგრამ ჯერ კიდევ მიუღწეველია ხელოვნური ინტელექტისთვის.
ARC Prize 2025
ARC Prize 2025 Kaggle-ზე ამ კვირაში იწყება, ჯამში 1 მილიონი დოლარის პრიზების დაპირებით და ღია კოდის გარღვევებისთვის ცოცხალი ლიდერთა დაფის დემონსტრირებით. კონკურსი მიზნად ისახავს სისტემებისკენ პროგრესის წახალისებას, რომლებსაც შეუძლიათ ეფექტურად გაუმკლავდნენ ARC-AGI-2 გამოწვევებს. საპრიზო კატეგორიებს შორის, რომლებიც 2024 წლის ჯამებთან შედარებით გაიზარდა, არის:
* გრან-პრიზი: 700,000 დოლარი Kaggle-ის ეფექტურობის ლიმიტებში 85%-იანი წარმატების მიღწევისთვის. * საუკეთესო ქულის პრიზი: 75,000 დოლარი ყველაზე მაღალი ქულის მქონე წარდგენისთვის. * ნაშრომის პრიზი: 50,000 დოლარი ტრანსფორმაციული იდეებისთვის, რომლებიც ხელს უწყობენ ARC-AGI დავალებების გადაჭრას. * დამატებითი პრიზები: 175,000 დოლარი, დეტალები კონკურსის დროს გამოცხადდება.
ეს წახალისებები უზრუნველყოფს სამართლიან და მნიშვნელოვან პროგრესს, ამავდროულად ხელს უწყობს თანამშრომლობას მკვლევრებს, ლაბორატორიებსა და დამოუკიდებელ გუნდებს შორის. გასულ წელს, ARC Prize 2024-მა 1500 კონკურსანტი გუნდი მოიზიდა, რამაც გამოიწვია 40 ნაშრომი, რომლებმაც ინდუსტრიაში აღიარებული გავლენა მოიპოვეს. წლევანდელი გაზრდილი ფსონები კიდევ უფრო დიდი წარმატების ხელშეწყობას ისახავს მიზნად.
ARC Prize-ს სჯერა, რომ პროგრესი დამოკიდებულია ახალ იდეებზე და არა მხოლოდ არსებული სისტემების მასშტაბირებაზე. ეფექტური ზოგადი სისტემების შემდეგი გარღვევა შესაძლოა არ წარმოიშვას არსებული ტექნოლოგიური გიგანტებიდან, არამედ თამამი, კრეატიული მკვლევრებისგან, რომლებიც სირთულესა და ცნობისმოყვარე ექსპერიმენტებს ეხვევიან. (სურათის კრედიტი: ARC Prize)
იხილეთ აგრეთვე: DeepSeek V3-0324 ლიდერობს არადამსჯელ AI მოდელებს ღია კოდში პირველად.
გსურთ გაიგოთ მეტი ხელოვნური ინტელექტისა და დიდი მონაცემების შესახებ ინდუსტრიის ლიდერებისგან? ეწვიეთ AI & Big Data Expo-ს, რომელიც იმართება ამსტერდამში, კალიფორნიასა და ლონდონში. ყოვლისმომცველი ღონისძიება თანაადგილმდებარეობს სხვა წამყვან ღონისძიებებთან, მათ შორის Intelligent Automation Conference, BlockX, Digital Transformation Week და Cyber Security & Cloud Expo. დაათვალიერეთ TechForge-ის მიერ მხარდაჭერილი საწარმოთა ტექნოლოგიების სხვა მომავალი ღონისძიებები და ვებინარები აქ.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს