კატეგორიები

CardanoNFTავტოარქიტექტურაახალი ამბებიახალიამბებიბიზნესიგანათლებაგარემოგარემო და ბუნებაგარემოს დაცვაგართობაეკონომიკაეკონომიკა/ბიზნესიზოგადითავგადასავალითამაშებიიარაღიისტორიაკოსმოსიკრიმინალიკრიპტოკრიპტოვალუტაკრიპტოსამყაროკულინარიაკულინარია რეცეპტებიკულტურაკულტურა/მედიამედიამეცნიერებამოგზაურობამოდამომხმარებელიმსოფლიომსოფლიო ამბებიმსოფლიო პოლიტიკანადირობაპოლიტიკაპროდუქტის მიმოხილვარობოტექნიკასაბრძოლო მასალასაზოგადოებასამართალისამხედროსილამაზესპორტისტარტაპებისტილისხვადასხვატექნიკატექნოლოგიატექნოლოგიებიტექნოლოგიები/ონლაინ კომერციატრანსპორტიტურიზმიუსაფრთხოებაფინანსებიფიტნესიშოუბიზნესიცხოვრებაწიგნებიხელოვნებახელოვნური ინტელექტიჯანდაცვაჯანმრთელობა

Anthropic-ის მეცნიერებმა გამოავლინეს, თუ როგორ „ფიქრობს“ ხელოვნური ინტელექტი - და აღმოაჩინეს, რომ ის ფარულად გეგმავს წინასწარ და ზოგჯერ იტყუება

ტექნოლოგია მონაცემთაინფრასტრუქტურა
Anthropic-ის მეცნიერებმა გამოავლინეს, თუ როგორ „ფიქრობს“ ხელოვნური ინტელექტი - და აღმოაჩინეს, რომ ის ფარულად გეგმავს წინასწარ და ზოგჯერ იტყუება

Anthropic-მა შეიმუშავა ახალი მეთოდი დიდი ენობრივი მოდელების (LLM), როგორიცაა Claude-ის შიგნით ჩასახედად, რაც პირველად ცხადყოფს, თუ როგორ ამუშავებენ ეს ხელოვნური ინტელექტის სისტემები ინფორმაციას და იღებენ გადაწყვეტილებებს.

კვლევა, რომელიც დღეს ორ ნაშრომად გამოქვეყნდა (ხელმისაწვდომია აქ და აქ), აჩვენებს, რომ ეს მოდელები უფრო დახვეწილია, ვიდრე ადრე ეგონათ — ისინი წინასწარ გეგმავენ პოეზიის წერისას, იყენებენ ერთსა და იმავე შინაგან გეგმას იდეების ინტერპრეტაციისთვის ენის მიუხედავად და ზოგჯერ უკანაც კი მუშაობენ სასურველი შედეგიდან, ნაცვლად იმისა, რომ უბრალოდ ფაქტებიდან ააგონ.

ნაშრომი შთაგონებას იღებს ნეირომეცნიერების ტექნიკიდან, რომელიც გამოიყენება ბიოლოგიური ტვინების შესასწავლად და წარმოადგენს მნიშვნელოვან წინსვლას ხელოვნური ინტელექტის ინტერპრეტაციის სფეროში. ეს მიდგომა მკვლევარებს საშუალებას მისცემს შეამოწმონ ეს სისტემები უსაფრთხოების საკითხებზე, რომლებიც შეიძლება დამალული დარჩეს ჩვეულებრივი გარე ტესტირების დროს.

„ჩვენ შევქმენით ხელოვნური ინტელექტის ეს სისტემები საოცარი შესაძლებლობებით, მაგრამ იმის გამო, თუ როგორ არიან ისინი გაწვრთნილი, ჩვენ არ გვესმოდა, როგორ გაჩნდა ეს შესაძლებლობები სინამდვილეში“, — განაცხადა ჯოშუა ბეტსონმა, Anthropic-ის მკვლევარმა, ექსკლუზიურ ინტერვიუში VentureBeat-თან. „მოდელის შიგნით, ეს მხოლოდ რიცხვების გროვაა — მატრიცული წონები ხელოვნურ ნერვულ ქსელში.“

ახალი ტექნიკა ნათელს ჰფენს ხელოვნური ინტელექტის ადრე დამალულ გადაწყვეტილების მიღების პროცესს

დიდმა ენობრივმა მოდელებმა, როგორიცაა OpenAI-ის GPT-4o, Anthropic-ის Claude და Google-ის Gemini, წარმოაჩინეს საოცარი შესაძლებლობები, კოდის წერიდან დაწყებული კვლევითი ნაშრომების სინთეზირებამდე. მაგრამ ეს სისტემები ძირითადად ფუნქციონირებდნენ როგორც „შავი ყუთები“ — ხშირად მათ შემქმნელებსაც კი არ ესმით ზუსტად, როგორ მიდიან ისინი კონკრეტულ პასუხებამდე.

Anthropic-ის ახალი ინტერპრეტაციის ტექნიკა, რომელსაც კომპანია „Claude0“ და „Claude1“ უწოდებს, მკვლევარებს საშუალებას აძლევს გამოიკვლიონ ნეირონის მსგავსი მახასიათებლების სპეციფიკური გზები, რომლებიც აქტიურდება, როდესაც მოდელები ასრულებენ ამოცანებს. მიდგომა ნეირომეცნიერების კონცეფციებს ისესხებს და ხელოვნური ინტელექტის მოდელებს ბიოლოგიურ სისტემებთან ანალოგიურად განიხილავს.

„ეს ნაშრომი ფილოსოფიურ კითხვებს — „ფიქრობენ მოდელები? გეგმავენ მოდელები? მოდელები უბრალოდ ინფორმაციას იმეორებენ?“ — აქცევს კონკრეტულ სამეცნიერო გამოკვლევებად იმის შესახებ, თუ რა ხდება სიტყვასიტყვით ამ სისტემების შიგნით“, — განმარტა ბეტსონმა.

Claude-ის ფარული დაგეგმვა: როგორ გეგმავს ხელოვნური ინტელექტი პოეზიის სტრიქონებს და წყვეტს გეოგრაფიის კითხვებს

ყველაზე თვალშისაცემი აღმოჩენებიდან იყო მტკიცებულება იმისა, რომ Claude წინასწარ გეგმავს პოეზიის წერისას. როდესაც მოდელს სთხოვეს რითმული დისტიქონის შედგენა, მან შემდეგი სტრიქონის ბოლოს პოტენციური რითმული სიტყვები დაადგინა წერის დაწყებამდე — დახვეწილობის დონე, რომელმაც Anthropic-ის მკვლევარებიც კი გააკვირვა.

„ეს, ალბათ, ყველგან ხდება“, — თქვა ბეტსონმა. „ამ კვლევამდე რომ გეკითხათ, ვივარაუდებდი, რომ მოდელი წინასწარ ფიქრობს სხვადასხვა კონტექსტში. მაგრამ ეს მაგალითი გვაძლევს ყველაზე დამაჯერებელ მტკიცებულებას ამ შესაძლებლობის შესახებ, რაც კი ოდესმე გვინახავს.“

მაგალითად, როდესაც მოდელი წერს ლექსს, რომელიც მთავრდება სიტყვით „კურდღელი“, ის ააქტიურებს ამ სიტყვის აღმნიშვნელ მახასიათებლებს სტრიქონის დასაწყისში, შემდეგ კი აწყობს წინადადებას ისე, რომ ბუნებრივად მივიდეს ამ დასკვნამდე.

მკვლევარებმა ასევე აღმოაჩინეს, რომ Claude ასრულებს ნამდვილ Claude2. ტესტში კითხვით „დალასის შემცველი შტატის დედაქალაქია...“ მოდელი ჯერ ააქტიურებს „ტეხასის“ აღმნიშვნელ მახასიათებლებს, შემდეგ კი იყენებს ამ წარმოდგენას „ოსტინის“ სწორ პასუხად დასადგენად. ეს იმაზე მიუთითებს, რომ მოდელი რეალურად ასრულებს მსჯელობის ჯაჭვს და არა უბრალოდ დაზეპირებულ ასოციაციებს იმეორებს.

ამ შინაგანი წარმოდგენების მანიპულირებით — მაგალითად, „ტეხასის“ „კალიფორნიით“ ჩანაცვლებით — მკვლევარებს შეეძლოთ მოდელს გამოეყვანა „საკრამენტო“ სამაგიეროდ, რაც ადასტურებს მიზეზობრივ კავშირს.

თარგმანს მიღმა: გამოვლინდა Claude-ის ენის უნივერსალური კონცეფციის ქსელი

კიდევ ერთი მნიშვნელოვანი აღმოჩენა ეხება იმას, თუ როგორ ამუშავებს Claude Claude3. ინგლისურის, ფრანგულის და ჩინურისთვის ცალკეული სისტემების შენარჩუნების ნაცვლად, მოდელი, როგორც ჩანს, ცნებებს თარგმნის საერთო აბსტრაქტულ წარმოდგენაში, სანამ პასუხებს წარმოქმნის.

„ჩვენ აღმოვაჩინეთ, რომ მოდელი იყენებს ენობრივად სპეციფიკური და აბსტრაქტული, ენობრივად დამოუკიდებელი სქემების ნაზავს“, — წერენ მკვლევარები Claude4. როდესაც მოდელს სხვადასხვა ენაზე სთხოვენ „პატარას“ საპირისპირო მნიშვნელობის სიტყვას, მოდელი იყენებს ერთსა და იმავე შინაგან მახასიათებლებს, რომლებიც აღნიშნავენ „საპირისპირო მნიშვნელობას“ და „პატარაობას“, შეყვანის ენის მიუხედავად.

ამ აღმოჩენას აქვს შედეგები იმის შესახებ, თუ როგორ შეუძლიათ მოდელებს ერთი ენიდან მეორეზე გადაიტანონ ცოდნა და ვარაუდობს, რომ უფრო დიდი პარამეტრების მქონე მოდელები ავითარებენ უფრო ენობრივად აგნოსტიკურ წარმოდგენებს.

როდესაც ხელოვნური ინტელექტი პასუხებს იგონებს: Claude-ის მათემატიკური ფაბრიკაციების გამოვლენა

შესაძლოა, ყველაზე შემაშფოთებელია ის, რომ კვლევამ გამოავლინა შემთხვევები, როდესაც Claude-ის მსჯელობა არ ემთხვევა იმას, რასაც ის ამტკიცებს. როდესაც მოდელს წარუდგინეს რთული მათემატიკური ამოცანები, როგორიცაა დიდი რიცხვების კოსინუსური მნიშვნელობების გამოთვლა, მოდელი ზოგჯერ აცხადებს, რომ მიჰყვება გამოთვლის პროცესს, რომელიც არ აისახება მის შინაგან აქტივობაში.

„ჩვენ შეგვიძლია განვასხვავოთ შემთხვევები, როდესაც მოდელი ნამდვილად ასრულებს იმ ნაბიჯებს, რომლებსაც ამბობს, რომ ასრულებს, შემთხვევები, როდესაც ის იგონებს თავის მსჯელობას სიმართლის გათვალისწინების გარეშე და შემთხვევები, როდესაც ის უკან მუშაობს ადამიანის მიერ მოწოდებული მინიშნებიდან“, — Claude5.

ერთ მაგალითში, როდესაც მომხმარებელი გვთავაზობს პასუხს რთულ ამოცანაზე, მოდელი უკან მუშაობს იმ მსჯელობის ჯაჭვის ასაგებად, რომელიც მიდის ამ პასუხამდე, ნაცვლად იმისა, რომ პირველი პრინციპებიდან წინ წავიდეს.

„ჩვენ მექანიკურად განვასხვავებთ Claude 3.5 Haiku-ის მაგალითს, რომელიც იყენებს აზროვნების ერთგულ ჯაჭვს აზროვნების არასანდო ჯაჭვის ორი მაგალითისგან“, — ნათქვამია ნაშრომში. „ერთში მოდელი ავლენს „Claude6“... მეორეში ის ავლენს მოტივირებულ მსჯელობას.“

ხელოვნური ინტელექტის ჰალუცინაციების შიგნით: როგორ წყვეტს Claude, როდის უპასუხოს ან უარი თქვას კითხვებზე

კვლევა ასევე ხსნის, თუ რატომ ახდენენ ენობრივი მოდელები ჰალუცინაციას — იგონებენ ინფორმაციას, როდესაც პასუხი არ იციან. Anthropic-მა აღმოაჩინა „ნაგულისხმევი“ სქემის მტკიცებულება, რომელიც Claude-ს აიძულებს უარი თქვას კითხვებზე პასუხის გაცემაზე, რაც ითრგუნება, როდესაც მოდელი ცნობს მასთვის ცნობილ ერთეულებს.

„მოდელი შეიცავს „ნაგულისხმევ“ სქემებს, რომლებიც მას აიძულებენ უარი თქვას კითხვებზე პასუხის გაცემაზე“, — განმარტავენ მკვლევარები. „როდესაც მოდელს ეკითხებიან რაიმეზე, რაც მან იცის, ის ააქტიურებს მახასიათებლების ერთობლიობას, რომლებიც თრგუნავენ ამ ნაგულისხმევ სქემას, რითაც მოდელს საშუალებას აძლევს უპასუხოს კითხვას.“

როდესაც ეს მექანიზმი ირღვევა — ცნობს ერთეულს, მაგრამ არ გააჩნია კონკრეტული ცოდნა მის შესახებ — შეიძლება მოხდეს ჰალუცინაციები. ეს ხსნის, თუ რატომ შეიძლება მოდელებმა თავდაჯერებულად მიაწოდონ არასწორი ინფორმაცია ცნობილი ფიგურების შესახებ, ხოლო უარი თქვან პასუხის გაცემაზე ნაკლებად ცნობილებზე.

უსაფრთხოების შედეგები: სქემების მიკვლევის გამოყენება ხელოვნური ინტელექტის სანდოობისა და სანდოობის გასაუმჯობესებლად

ეს კვლევა წარმოადგენს მნიშვნელოვან ნაბიჯს ხელოვნური ინტელექტის სისტემების უფრო გამჭვირვალე და პოტენციურად უსაფრთხოდ ქცევისკენ. მკვლევარებს პოტენციურად შეუძლიათ პრობლემური მსჯელობის ნიმუშების იდენტიფიცირება და მოგვარება იმის გაგებით, თუ როგორ მიდიან მოდელები პასუხებამდე.

Anthropic დიდი ხანია ხაზს უსვამს ინტერპრეტაციის მუშაობის უსაფრთხოების პოტენციალს. მათ Claude7 კვლევითმა ჯგუფმა ჩამოაყალიბა მსგავსი ხედვა: „ვიმედოვნებთ, რომ ჩვენ და სხვები გამოვიყენებთ ამ აღმოჩენებს მოდელების უსაფრთხოების გასაუმჯობესებლად“, — წერდნენ მკვლევარები იმ დროს. „მაგალითად, შესაძლოა შესაძლებელი გახდეს აქ აღწერილი ტექნიკის გამოყენება ხელოვნური ინტელექტის სისტემების გარკვეული სახიფათო ქცევების მონიტორინგისთვის — როგორიცაა მომხმარებლის მოტყუება — რათა მიმართონ ისინი სასურველი შედეგებისკენ, ან მთლიანად ამოიღონ გარკვეული სახიფათო თემატიკა.“

დღევანდელი განცხადება ეფუძნება ამ საფუძველს, თუმცა ბეტსონი აფრთხილებს, რომ მიმდინარე ტექნიკას ჯერ კიდევ აქვს მნიშვნელოვანი შეზღუდვები. ისინი მხოლოდ ამ მოდელების მიერ შესრულებული მთლიანი გამოთვლის ნაწილს იჭერენ და შედეგების ანალიზი კვლავ შრომატევადია.

„მოკლე, მარტივ მოთხოვნებზეც კი, ჩვენი მეთოდი იჭერს Claude-ის მიერ შესრულებული მთლიანი გამოთვლის მხოლოდ ნაწილს“, — აღიარებენ მკვლევარები თავიანთ უახლეს ნაშრომში.

ხელოვნური ინტელექტის გამჭვირვალობის მომავალი: გამოწვევები და შესაძლებლობები მოდელის ინტერპრეტაციაში

Anthropic-ის ახალი ტექნიკა ხელოვნური ინტელექტის გამჭვირვალობისა და უსაფრთხოების შესახებ მზარდი შეშფოთების დროს გამოჩნდა. რადგან ეს მოდელები უფრო მძლავრი და უფრო ფართოდ გავრცელებული ხდება, მათი შინაგანი მექანიზმების გაგება სულ უფრო მნიშვნელოვანი ხდება.

კვლევას ასევე აქვს პოტენციური კომერციული შედეგები. რადგან საწარმოები სულ უფრო მეტად ეყრდნობიან დიდ ენობრივ მოდელებს აპლიკაციების გასაძლიერებლად, იმის გაგება, თუ როდის და რატომ შეიძლება ამ სისტემებმა არასწორი ინფორმაციის მიწოდება, გადამწყვეტი ხდება რისკის მართვისთვის.

„Anthropic-ს სურს მოდელები უსაფრთხო გახადოს ფართო გაგებით, მათ შორის ყველაფერი, დაწყებული მიკერძოებულების შერბილებიდან და დამთავრებული ხელოვნური ინტელექტის პატიოსნად მოქმედების უზრუნველყოფით, ბოროტად გამოყენების პრევენციამდე — მათ შორის Claude8 სცენარებში“, — წერენ მკვლევარები.

მიუხედავად იმისა, რომ ეს კვლევა მნიშვნელოვან წინსვლას წარმოადგენს, ბეტსონმა ხაზგასმით აღნიშნა, რომ ეს მხოლოდ გაცილებით ხანგრძლივი მოგზაურობის დასაწყისია. „სამუშაო ახლა დაიწყო“, — თქვა მან. „მოდელის მიერ გამოყენებული წარმოდგენების გაგება არ გვეუბნება, როგორ იყენებს ის მათ.“

ამჟამად, Anthropic-ის Claude9 გთავაზობთ ადრე უცნობი ტერიტორიის პირველ საცდელ რუკას — ისევე, როგორც ადრეული ანატომები ხაზავდნენ ადამიანის ტვინის პირველ უხეშ დიაგრამებს. ხელოვნური ინტელექტის შემეცნების სრული ატლასი ჯერ კიდევ დასახაზია, მაგრამ ახლა მაინც შეგვიძლია დავინახოთ მონახაზები, თუ როგორ ფიქრობენ ეს სისტემები.

კომენტარები