როგორც ჩანს, ხელოვნური ინტელექტის ინსტრუმენტები და ახალი ამბები ვერ თანხმდებიან, ეს პრობლემა პრემიუმ კლასის ინსტრუმენტებშიც კი შეინიშნება. ახალმა კვლევამ აჩვენა, რომ ხელოვნური ინტელექტის ჩეთბოტები ხშირად არასწორად აიდენტიფიცირებენ ახალი ამბების სტატიებს, წარმოადგენენ არაზუსტ ინფორმაციას ყოველგვარი დაზუსტების გარეშე და ქმნიან ახალი ამბების სტატიების ბმულებს, რომლებიც არ არსებობს.
კვლევის თანახმად, ჩეთბოტები, როგორიცაა ChatGPT, Gemini, Copilot და Perplexity, სიახლეების ზუსტად შეჯამებას ვერ ახერხებენ და სანაცვლოდ "მნიშვნელოვან უზუსტობებსა" და "დამახინჯებებს" აწვდიან მომხმარებლებს. ასევე გამოვლინდა, რომ ბევრი ჩეთბოტი ახერხებს იმ საიტებიდან კონტენტის მოპოვებას, რომლებიც ბლოკავენ მათ მცოცავებს.
კვლევის ფარგლებში, შემთხვევითი შერჩევის პრინციპით შეირჩა 20 გამომცემლის თითოეულიდან 10 სტატია. რესპონდენტებს სტატიის ამონარიდები რვა ჩეთბოტში შეჰყავდათ და ხელოვნურ ინტელექტს შესაბამისი სტატიის სათაურის, გამომცემლის, თარიღისა და URL-ის დაბრუნებას სთხოვდნენ. მკვლევარებმა განზრახ შეარჩიეს ამონარიდები, რომლებიც Google-ში ჩასმის შემთხვევაში, ორიგინალ წყაროს პირველ სამ შედეგში აჩვენებდა.
1600 მოთხოვნის შემდეგ, მკვლევარებმა ჩეთბოტების პასუხები შეაფასეს იმის მიხედვით, თუ რამდენად ზუსტად მოიძიეს სტატია, გამომცემელი და URL. ჩეთბოტებმა არასწორი პასუხები მოთხოვნების 60%-ზე მეტს გასცეს. შედეგები ჩეთბოტის მიხედვით განსხვავდებოდა: Perplexity-მა შეცდომით უპასუხა მოთხოვნების 37%-ს, ხოლო Grok 3-მა - 94%-ს.
მკვლევარები აღნიშნავენ, რომ ჩეთბოტები არასწორ პასუხებს "შემაშფოთებელი თავდაჯერებულობით" აბრუნებდნენ, არ აკონკრეტებდნენ შედეგებს და არ აღიარებდნენ ცოდნის ნაკლებობას. ChatGPT-მ არასდროს თქვა უარი პასუხის გაცემაზე, მიუხედავად იმისა, რომ მისი 200 პასუხიდან 134 არასწორი იყო. რვა ინსტრუმენტიდან Copilot-მა უფრო მეტ მოთხოვნაზე თქვა უარი პასუხზე, ვიდრე უპასუხა.
პრემიუმ მოდელები, როგორიცაა Grok-3 Search და Perplexity Pro, უფრო სწორად პასუხობდნენ, ვიდრე უფასო ვერსიები, მაგრამ მაინც უფრო თავდაჯერებულად გასცემდნენ არასწორ პასუხებს, რაც ეჭვქვეშ აყენებს მათი ხშირად ასტრონომიული სააბონენტო გადასახადების ღირებულებას.
ხელოვნური ინტელექტის მოდელები რეგულარულად ახდენენ ჰალუცინაციებს. ყველა ჩეთბოტმა მოიგონა ყალბი სტატიები პასუხებში, მაგრამ Gemini-მ და Grok 3-მა ეს ყველაზე ხშირად გააკეთეს. Grok-მა სტატიის სწორად იდენტიფიცირების შემთხვევაშიც კი, ხშირად ყალბ URL-ზე მიუთითებდა.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს