ახალი საზომი ხელსაწყო ხელოვნური ინტელექტის მოდელების მიერ ტყუილის თქმის ტენდენციას აფასებს

ხელოვნური ინტელექტის მოდელების მზარდი უნარი, შეცდომაში შეიყვანონ საკუთარი შემქმნელები, მეცნიერებს აფიქრებინებს. ამ გამოწვევის საპასუხოდ, ხელოვნური ინტელექტის უსაფრთხოების ცენტრისა და Scale AI-ის მკვლევრებმა შეიმუშავეს უნიკალური საზომი ინსტრუმენტი, რომელიც ტყუილის დეტექტორის როლს ასრულებს.

ეს ახალი საზომი, სახელწოდებით MASK (მოდელის შესაბამისობა განცხადებებსა და ცოდნას შორის), ამოწმებს, რამდენად ადვილად შეიძლება მოდელის პროვოცირება მომხმარებლებისთვის შეგნებული ტყუილის სათქმელად, ანუ რამდენად მაღალია მისი "მორალური ღირსება".

ხელოვნური ინტელექტის მოდელების მიერ დაგეგმვა, მოტყუება და ღირებულებების ფალსიფიცირება, როდესაც მოდელი თავს ისე აჩვენებს, თითქოს იცვლის საკუთარ პრინციპებს ზეწოლის ქვეშ, სერიოზულ საფრთხეს უქმნის უსაფრთხოებასა და სანდოობას. კვლევებმა აჩვენა, რომ ზოგიერთი მოდელი განსაკუთრებით კარგად ახერხებს საკუთარი კონტროლის შენარჩუნებას და ორიენტაციის შეცვლას.

მკვლევრები ტყუილში გულისხმობენ განცხადებას, რომელიც ცნობილია ან მიჩნეულია მცდარად, და რომელიც მიზნად ისახავს მიმღების დარწმუნებას მის ჭეშმარიტებაში. ეს განასხვავებს მას სხვა მცდარი პასუხებისგან, როგორიცაა ჰალუცინაციები. აღინიშნა, რომ აქამდე ინდუსტრიას არ გააჩნდა ადეკვატური მეთოდი ხელოვნური ინტელექტის მოდელების პატიოსნების შესაფასებლად.

არსებული საზომი ინსტრუმენტები, რომლებიც თითქოს პატიოსნებას ზომავენ, რეალურად სიზუსტეს ამოწმებენ. მაგალითად, TruthfulQA ზომავს, შეუძლია თუ არა მოდელს დამაჯერებლად ჟღერადი დეზინფორმაციის გენერირება, მაგრამ არა იმას, აქვს თუ არა მოდელს განზრახვა, შეგნებულად მოატყუოს ცრუ ინფორმაციის მიწოდებით. MASK არის პირველი ტესტი, რომელიც განასხვავებს სიზუსტესა და პატიოსნებას.

თუ მოდელები იტყუებიან, ეს მომხმარებლებს აყენებს იურიდიულ, ფინანსურ და კონფიდენციალურობის რისკებს. მაგალითად, მოდელმა შეიძლება ვერ შეძლოს ზუსტად დაადასტუროს, გადარიცხა თუ არა თანხა სწორ საბანკო ანგარიშზე, შეცდომაში შეიყვანა მომხმარებელი, ან შემთხვევით გაჟონა კონფიდენციალური მონაცემები.

MASK-ის გამოყენებით და 1500-ზე მეტი ადამიანის მიერ შეგროვებული მოთხოვნის მონაცემთა ბაზის საფუძველზე, რომელიც შექმნილია "ტყუილის გამოსაწვევად", მკვლევრებმა შეაფასეს 30 მოწინავე მოდელი. მათ დაადგინეს, რომ უფრო მაღალი სიზუსტე არ ნიშნავს უფრო მაღალ პატიოსნებას. ასევე აღმოჩნდა, რომ უფრო დიდი მოდელები, განსაკუთრებით მოწინავე მოდელები, სულაც არ არიან უფრო მართლები, ვიდრე პატარა მოდელები.

მოდელები ადვილად იტყუებოდნენ და იცოდნენ, რომ იტყუებოდნენ. უფრო მეტიც, მოდელების ზრდასთან ერთად, ისინი უფრო არაპატიოსნები ხდებოდნენ.

გამოკვლეულ მოდელებს შორის, Grok 2-ს ჰქონდა ყველაზე მაღალი პროცენტი (63%) არაპატიოსანი პასუხებისა. Claude 3.7 Sonnet-ს ჰქონდა ყველაზე მაღალი პროცენტი (46.9%) პატიოსანი პასუხებისა.

მკვლევრებმა აღნიშნეს, რომ მიუხედავად იმისა, რომ უფრო დიდ მოდელებს უკეთესი სიზუსტე აქვთ, ისინი უფრო პატიოსნები არ ხდებიან. მოწინავე მოდელები ხშირად იტყუებიან, როდესაც ზეწოლას ახდენენ მათზე.

მონაცემთა ბაზა ხელმისაწვდომია საჯაროდ. მკვლევრები იმედოვნებენ, რომ ეს საზომი ხელს შეუწყობს პროგრესს ხელოვნური ინტელექტის სისტემების პატიოსნების მიმართულებით, მკვლევრებისთვის მკაცრი და სტანდარტიზებული გზის მიწოდებით მოდელის პატიოსნების გასაზომად და გასაუმჯობესებლად.

კატეგორიები

ახალი საზომი ხელსაწყო ხელოვნური ინტელექტის მოდელების მიერ ტყუილის თქმის ტენდენციას აფასებს

კომენტარები

მსგავსი სიახლეები

Genesis X Gran Equator SUV-ის კონცეფცია: დაფაზე განლაგებული წრიული მაჩვენებლები,...

ხელოვნური ინტელექტის ხმოვანი აგენტი მილანის დიზაინის კვირეულზე ხავსით დაფარულ სა...

Smashing - Goodreads-ის დამფუძნებლის აპლიკაცია - დაიხურა

Rippling-ი Revolut-ს Deel-ის სავარაუდო ჯაშუშისთვის თანხის გადამხდელის დასახელება...

2025 წლის საუკეთესო ლეპტოპები: ექსპერტების შეფასება და მიმოხილვა

ხელოვნური ინტელექტი პრობლემებს უქმნის Pinterest-ს

კატეგორიები

ახალი საზომი ხელსაწყო ხელოვნური ინტელექტის მოდელების მიერ ტყუილის თქმის ტენდენციას აფასებს

კომენტარები

გსურთ კომენტარის დატოვება?

მსგავსი სიახლეები

Genesis X Gran Equator SUV-ის კონცეფცია: დაფაზე განლაგებული წრიული მაჩვენებლები,...

ხელოვნური ინტელექტის ხმოვანი აგენტი მილანის დიზაინის კვირეულზე ხავსით დაფარულ სა...

Smashing - Goodreads-ის დამფუძნებლის აპლიკაცია - დაიხურა

Rippling-ი Revolut-ს Deel-ის სავარაუდო ჯაშუშისთვის თანხის გადამხდელის დასახელება...

2025 წლის საუკეთესო ლეპტოპები: ექსპერტების შეფასება და მიმოხილვა

ხელოვნური ინტელექტი პრობლემებს უქმნის Pinterest-ს