მძინარე გიგანტი გაიღვიძა!
გარკვეული პერიოდის განმავლობაში ჩანდა, რომ Amazon ცდილობდა დაწეოდა რბოლაში, რათა თავის მომხმარებლებისთვის — განსაკუთრებით მილიონობით დეველოპერისთვის, რომლებიც Amazon Web Services (AWS) ღრუბლოვან ინფრასტრუქტურაზე აშენებენ — შეეთავაზებინა დამაჯერებელი პირველი მხარის AI მოდელები და ინსტრუმენტები.
მაგრამ 2024 წლის ბოლოს, მან დააანონსა საკუთარი შიდა ფუნდამენტური მოდელების ოჯახი, Amazon Nova, ტექსტის, გამოსახულების და ვიდეოს გენერირების შესაძლებლობებით, და გასულ თვეში იხილა ახალი Amazon Alexa ხმოვანი ასისტენტი, რომელიც ნაწილობრივ Anthropic-ის Claude მოდელების ოჯახზე მუშაობს.
შემდეგ, ორშაბათს, ელექტრონული კომერციისა და ღრუბლოვანი გიგანტის ხელოვნური ზოგადი ინტელექტის განყოფილებამ Amazon AGI გამოაცხადა Amazon Nova Act-ის გამოშვება, ექსპერიმენტული დეველოპერული ნაკრები AI აგენტების შესაქმნელად, რომლებსაც შეუძლიათ ვებ-გვერდებზე ნავიგაცია და ამოცანების ავტონომიურად შესრულება, Amazon-ის Nova დიდი ენობრივი მოდელის (LLM) მორგებული, საკუთრების ვერსიის გამოყენებით. ოჰ, და სტანდარტული დეველოპერული ნაკრები (SDK) არის ღია კოდის მქონე, ნებართვის მქონე Apache 2.0 ლიცენზიით, თუმცა SDK შექმნილია მხოლოდ Amazon-ის შიდა მორგებულ Nova მოდელთან სამუშაოდ და არა მესამე მხარის მოდელებთან.
მიზანია მესამე მხარის დეველოპერებს საშუალება მისცენ შექმნან AI აგენტები, რომლებსაც შეუძლიათ საიმედოდ შეასრულონ ამოცანები ვებ-ბრაუზერებში.
მაგრამ როგორ შეედრება Amazon-ის Nova Act ბაზარზე არსებულ სხვა აგენტების მშენებლობის პლატფორმებს, როგორიცაა Microsoft-ის AutoGen, Salesforce-ის Agentforce და, რა თქმა უნდა, OpenAI-ის ახლახან გამოშვებული ღია კოდის Agents SDK?
AI აგენტების განსხვავებული, უფრო გააზრებული მიდგომა
დიდი ენობრივი მოდელების (LLM) საჯარო აღზევების შემდეგ, "აგენტის" სისტემების უმეტესობა შემოიფარგლებოდა ბუნებრივ ენაზე პასუხის გაცემით ან ცოდნის ბაზებიდან ინფორმაციის მოძიებით.
Nova Act არის ინდუსტრიის უფრო დიდი ცვლილების ნაწილი, რომელიც მიმართულია მოქმედებაზე დაფუძნებული აგენტებისკენ — სისტემები, რომლებსაც შეუძლიათ რეალური ამოცანების შესრულება ციფრულ გარემოში მომხმარებლის სახელით. OpenAI-ის ახალი Responses API, რომელიც მომხმარებლებს აძლევს წვდომას მის ავტონომიურ ბრაუზერში ნავიგატორზე, ამის ერთ-ერთი წამყვანი მაგალითია, რომლის ინტეგრირებაც დეველოპერებს შეუძლიათ AI აგენტებში OpenAI Agents SDK-ის მეშვეობით.
Amazon AGI ხაზს უსვამს, რომ ამჟამინდელი აგენტური სისტემები, მიუხედავად იმისა, რომ პერსპექტიულია, იბრძვის საიმედოობისთვის და ხშირად საჭიროებს ადამიანის ზედამხედველობას, განსაკუთრებით მრავალსაფეხურიანი ან რთული სამუშაო პროცესების დამუშავებისას.
Nova Act სპეციალურად შექმნილია ამ შეზღუდვების გადასაჭრელად ატომური, დანიშნულებისამებრ განსაზღვრული ბრძანებების ნაკრების მიწოდებით, რომლებიც შეიძლება გაერთიანდეს საიმედო სამუშაო პროცესებში.
დენიზ ბირლიკჩიმ, Amazon-ის ტექნიკური პერსონალის წევრმა, ვიდეოში, სადაც Nova Act-ია წარმოდგენილი, აღწერა უფრო ფართო ხედვა: მალე უფრო მეტი AI აგენტი იქნება, ვიდრე ადამიანი, რომელიც ვებ-გვერდებს ათვალიერებს და ასრულებს ამოცანებს მომხმარებლების სახელით.
დევიდ ლუანმა, Amazon-ის ავტონომიის გუნდის ვიცე-პრეზიდენტმა და AGI SF Lab-ის ხელმძღვანელმა, VentureBeat-თან ბოლო ვიდეო ზარის ინტერვიუში უფრო პირდაპირ ჩამოაყალიბა მისია: "ჩვენ შევქმენით ეს ახალი ექსპერიმენტული AI მოდელი, რომელიც გაწვრთნილია ვებ-ბრაუზერში მოქმედებების შესასრულებლად. ფუნდამენტურად, ჩვენ ვფიქრობთ, რომ აგენტები გამოთვლების სამშენებლო ბლოკია," - თქვა მან.
ლუანი, წარსულში Adept AI-ის თანადამფუძნებელი და აღმასრულებელი დირექტორი, Amazon-ს 2024 წელს შეუერთდა aqcui-hire-ის ფარგლებში. ლუანმა თქვა, რომ ის დიდი ხანია AI აგენტების მომხრეა. "Adept-თან ერთად, ჩვენ ვიყავით პირველი კომპანია, რომელმაც რეალურად დაიწყო მუშაობა AI აგენტებზე. ამ ეტაპზე ყველამ იცის, რამდენად მნიშვნელოვანია აგენტები. საკმაოდ მაგარი იყო, რომ ცოტათი წინ ვიყავით ჩვენს დროზე," - დასძინა მან.
რას სთავაზობს Nova Act დეველოპერებს
Nova Act SDK დეველოპერებს უზრუნველყოფს ჩარჩოს ვებ-ზე დაფუძნებული ავტომატიზაციის აგენტების ასაგებად ბუნებრივი ენის მოთხოვნების გამოყენებით, რომლებიც დაყოფილია მკაფიო, მართვად ნაბიჯებად.
ტიპური LLM-ზე მომუშავე აგენტებისგან განსხვავებით, რომლებიც ცდილობენ მთლიანი სამუშაო პროცესების შესრულებას ერთი მოთხოვნიდან — რაც ხშირად იწვევს არასანდო ქცევას — Nova Act შექმნილია მცირე, გადამოწმებადი ამოცანების ინკრემენტულად შესასრულებლად.
Nova Act-ის ძირითადი მახასიათებლები მოიცავს:
ლუანმა ხაზი გაუსვა, რომ Nova Act არის ინსტრუმენტი დეველოპერებისთვის და არა ზოგადი დანიშნულების ჩეთბოტი. "Nova Act აგებულია დეველოპერებისთვის. ეს არ არის ჩეთბოტი, რომელსაც გართობისთვის ესაუბრებით. ის შექმნილია იმისთვის, რომ დეველოპერებს საშუალება მისცეს დაიწყონ სასარგებლო პროდუქტების შექმნა," - თქვა მან.
მაგალითად, Amazon-ის დოკუმენტაციაში დემონსტრირებული ერთ-ერთი სამუშაო პროცესი გვიჩვენებს, თუ როგორ შეუძლია Nova Act-ს ავტომატიზირება მოახდინოს ბინების ძიების, გაქირავების სიების სკრაპინგის და მატარებლის სადგურებამდე ველოსიპედით სავალი მანძილის გამოთვლა, შემდეგ კი შედეგების სტრუქტურირებულ ცხრილში დალაგება.
სხვა დემონსტრირებული მაგალითი იყენებს Nova Act-ს ყოველ სამშაბათს Sweetgreen-დან კონკრეტული სალათის შესაკვეთად, მთლიანად ხელების გამოყენების გარეშე და განრიგის მიხედვით, რაც ასახავს, თუ როგორ შეუძლიათ დეველოპერებს გაიმეორონ ციფრული ამოცანების ავტომატიზაცია ისე, რომ ის საიმედოდ და პერსონალიზირებულად იგრძნობა.
შედარებითი მუშაობა და აქცენტი საიმედოობაზე
Amazon-ის განცხადებაში ცენტრალური გზავნილია, რომ საიმედოობა, და არა მხოლოდ ინტელექტი, არის მთავარი ბარიერი აგენტების ფართოდ გავრცელებისთვის.
ამჟამინდელი უახლესი მოდელები რეალურად საკმაოდ მყიფეა AI აგენტების გასაძლიერებლად, აგენტები, როგორც წესი, ბრაუზერზე დაფუძნებულ მრავალსაფეხურიან ამოცანებზე წარმატების 30%-დან 60%-მდე მაჩვენებელს აღწევენ, Amazon-ის თანახმად.
Nova Act, თუმცა, ხაზს უსვამს სამშენებლო ბლოკის მიდგომას, აგროვებს 90%-ზე მეტს შიდა შეფასებებზე იმ ამოცანების შესახებ, რომლებიც გამოწვევას უქმნის სხვა მოდელებს — როგორიცაა ჩამოსაშლელ მენიუებთან, თარიღების ამომრჩეველებთან ან ამომხტარ ფანჯრებთან ურთიერთქმედება.
ლუანმა ხაზი გაუსვა, თუ რატომ არის მნიშვნელოვანი ეს აქცენტი საიმედოობაზე. "რაზეც ჩვენ ნამდვილად გავამახვილეთ ყურადღება, არის ის, თუ როგორ გახადოთ აგენტები საიმედო? თუ თქვენ სთხოვთ მას Salesforce-ში ჩანაწერის განახლებას და ის თქვენს მონაცემთა ბაზას ყოველ ათჯერში ერთხელ წაშლის, თქვენ ალბათ აღარასდროს გამოიყენებთ მას," - თქვა მან.
Amazon AGI-მ Nova Act შეადარა კონკურენტ მოდელებს, მათ შორის Anthropic-ის Claude 3.7 Sonnet-სა და OpenAI-ის CUA მოდელს. ScreenSpot Web Text ბენჩმარკზე, რომელიც ამოწმებს ინსტრუქციების შესრულებას ტექსტურ ეკრანის ელემენტებზე, Nova Act-მა მიაღწია 0.939 ქულას, რაც აჯობებს Claude 3.7 Sonnet-ს (0.900) და OpenAI CUA-ს (0.883).
ScreenSpot Web Icon ბენჩმარკზე, რომელიც ფოკუსირებულია ვიზუალურ UI ელემენტებზე, Nova Act-მა დააგროვა 0.879 ქულა, რაც კვლავ აჯობებს სხვა მოდელებს.
თუმცა, GroundUI Web ბენჩმარკზე, რომელიც ამოწმებს ზოგად UI ურთიერთქმედებას, Nova Act-მა დააგროვა 0.805 ქულა, რაც ოდნავ ჩამორჩება მის კონკურენტებს.
ეს ქულები გაზომეს Amazon-ის მიერ შიდა ტესტირებისას თანმიმდევრული მოთხოვნებისა და შეფასების კრიტერიუმების გამოყენებით.
Amazon-მა ასევე ხაზი გაუსვა Nova Act-ის ადრეულ შედეგებს სტანდარტული გარემოდან განზოგადების უნარში.
მაგალითად, გუნდის წევრმა რიკ ლიუმ დემონსტრაცია გააკეთა, თუ როგორ ურთიერთქმედებდა აგენტი, პირდაპირი ტრენინგის გარეშე, მტრედის თემატიკის ვებ-თამაშთან წარმატებით — სტატისტიკის მინიჭება, მოწინააღმდეგეებთან ბრძოლა და თამაშში პროგრესი.
ლუანის თქმით, განზოგადების ეს უნარი ცენტრალურია გრძელვადიანი ხედვისთვის. "ჩვენი მიზანი Nova Act-თან დაკავშირებით არის ვიყოთ უნივერსალური ბრაუზერის გამოყენების გადაწყვეტა. ჩვენ გვინდა აგენტი, რომელსაც შეუძლია გააკეთოს ყველაფერი, რაც გსურთ კომპიუტერზე თქვენთვის," - თქვა მან.
მოქნილია სხვადასხვა ღრუბლებში გამოსაყენებლად, მაგრამ ჩაკეტილია Amazon-ის Nova მოდელზე
მიუხედავად იმისა, რომ Nova Act ხელმისაწვდომია დეველოპერებისთვის გლობალურად nova.amazon.com-ის საშუალებით, ლუანმა განმარტა, რომ სისტემა მჭიდროდ არის დაკავშირებული Amazon-ის შიდა Nova ფუნდამენტურ მოდელებთან.
დეველოპერებს არ შეუძლიათ გარე LLM-ების, როგორიცაა OpenAI-ის GPT-4o ან Anthropic-ის Claude 3.7 Sonnet, ჩართვა, OpenAI-ის Agents SDK-ისგან განსხვავებით და, გარკვეულწილად, Microsoft-ის AutoGen და Salesforce-ის Agentforce პლატფორმებისგან (რომლებიც საშუალებას იძლევა გადაერთოთ რამდენიმე სხვა პროვაიდერი კომპანიისა და მოდელის ოჯახზე).
Nova Act არის Nova მოდელის მორგებული გაწვრთნილი ვერსია," - თქვა მან. "ეს არ არის უბრალოდ ზოგადი LLM-ის ჩარჩო. ის თავდაპირველად არის გაწვრთნილი ინტერნეტში თქვენს ნაცვლად მოქმედებისთვის.
თუმცა, Nova Act არ შემოიფარგლება AWS გარემოთი. დეველოპერებს შეუძლიათ ჩამოტვირთონ SDK და გაუშვან ის ლოკალურად, ღრუბელში ან სადაც მოისურვებენ. "თქვენ არ გჭირდებათ AWS-ზე ყოფნა მის გამოსაყენებლად," - განაცხადა ლუანმა.
ამრიგად, ბიზნესებისთვის, რომლებიც ეძებენ მაქსიმალურ ფუძემდებლურ მოდელის მოქნილობას თავიანთი აგენტებისთვის, Nova Act ალბათ საუკეთესო არჩევანი არ არის. თუმცა, მათთვის, ვინც ეძებს მიზანმიმართულ მოდელს, რომელიც სპეციალურად შექმნილია ვებ-გვერდებზე ნავიგაციისთვის და მოქმედებების შესასრულებლად ძალიან განსხვავებული მომხმარებლის ინტერფეისების (UI) მქონე ვებსაიტებზე, ის ალბათ ყურადღების ღირსია — განსაკუთრებით თუ უკვე ხართ Amazon-ის ან AWS დეველოპერების ეკოსისტემაში.
უსაფრთხოება, ლიცენზირება და ფასები
Nova Act SDK გამოშვებულია Apache License, Version 2.0 (2004 წლის იანვარი), ღია კოდის ლიცენზიით. თუმცა, ეს ეხება მხოლოდ SDK პროგრამულ უზრუნველყოფას.
Nova Act მოდელი თავად, მის წონებთან და სასწავლო მონაცემებთან ერთად, არის საკუთრების და რჩება დახურული კოდის მქონე. მიდგომა მიზანმიმართულია, ლუანის თქმით, რომელმაც განმარტა, რომ მოდელი მჭიდროდ არის ინტეგრირებული და თანა-გაწვრთნილი SDK-თან საიმედოობის მისაღწევად.
გაშვებისას, Nova Act შეთავაზებულია როგორც უფასო კვლევის გადახედვა. წარმოებისთვის გამოყენების ფასი ჯერ არ არის გამოცხადებული.
ლუანმა ეს ფაზა აღწერა, როგორც დეველოპერებისთვის ტექნოლოგიასთან ექსპერიმენტებისა და აშენების შესაძლებლობა. "ჩვენ გვჯერა, რომ ყველაზე სასარგებლო აგენტური პროდუქტების უმეტესობა ჯერ არ არის აშენებული. ჩვენ გვინდა ყველას მივცეთ საშუალება შექმნას ნამდვილად სასარგებლო აგენტი, იქნება ეს საკუთარი თავისთვის თუ პროდუქტის სახით," - თქვა მან.
გრძელვადიან პერსპექტივაში, Amazon გეგმავს წარმოების კლასის პირობების დანერგვას, მათ შორის გამოყენებაზე დაფუძნებული ბილინგი და მასშტაბირების გარანტიები, მაგრამ ისინი ჯერ არ არის ხელმისაწვდომი.
რა არის შემდეგი Nova Act-ისთვის?
Nova Act-ის გამოშვება ასახავს Amazon-ის უფრო ფართო ამბიციას, რომ მოქმედებაზე ორიენტირებული AI აგენტები გამოთვლების ფუნდამენტურ კომპონენტად აქციოს.
ლუანმა შეაჯამა მომავალი შესაძლებლობა: "ჩემი პირადი ოცნებაა, რომ აგენტები გახდნენ გამოთვლების სამშენებლო ბლოკი და ყველაზე მაგარი ახალი სტარტაპები და პროდუქტები აშენდეს იმაზე, რასაც ჩვენი გუნდი ავითარებს."
Nova Act SDK ახლა უკვე ხელმისაწვდომია ექსპერიმენტებისა და პროტოტიპირებისთვის Amazon-ის ვებსაიტზე და Github-ზე.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს