კატეგორიები

CardanoNFTავტოარქიტექტურაახალი ამბებიახალიამბებიბიზნესიგანათლებაგარემოგარემო და ბუნებაგარემოს დაცვაგართობაეკონომიკაეკონომიკა/ბიზნესიზოგადითავგადასავალითამაშებიიარაღიისტორიაკოსმოსიკრიმინალიკრიპტოკრიპტოვალუტაკრიპტოსამყაროკულინარიაკულინარია რეცეპტებიკულტურაკულტურა/მედიამედიამეცნიერებამოგზაურობამოდამომხმარებელიმსოფლიომსოფლიო ამბებიმსოფლიო პოლიტიკანადირობაპოლიტიკაპროდუქტის მიმოხილვარობოტექნიკასაბრძოლო მასალასაზოგადოებასამართალისამხედროსილამაზესპორტისტარტაპებისტილისხვადასხვატექნიკატექნოლოგიატექნოლოგიებიტექნოლოგიები/ონლაინ კომერციატრანსპორტიტურიზმიუსაფრთხოებაფინანსებიფიტნესიშოუბიზნესიცხოვრებაწიგნებიხელოვნებახელოვნური ინტელექტიჯანდაცვაჯანმრთელობა

Google-ის ახალი მოდელი Gemma 3: სიმძლავრე ერთ GPU-ზე

ტექნოლოგია ხელოვნური ინტელექტი
Google-ის ახალი მოდელი Gemma 3: სიმძლავრე ერთ GPU-ზე

ხელოვნური ინტელექტის ეკონომიკური ეფექტურობა სულ უფრო აქტუალური ხდება. ამ ფონზე, კომპანია Google-მა წარმოადგინა უახლესი ღია კოდის დიდი ენობრივი მოდელი, Gemma 3, რომელიც, მათი მტკიცებით, გამოთვლითი სიმძლავრის მცირე ნაწილის გამოყენებით, DeepSeek-ის R1 მოდელის სიზუსტესთან ახლოს შედეგებს აჩვენებს.

Google იყენებს "Elo"-ს ქულებს, რომელიც გავრცელებული საზომი სისტემაა ჭადრაკში და სპორტში რეიტინგების დასადგენად. მათი განცხადებით, Gemma 3-ის ქულა R1-ის ქულის 98%-ს აღწევს (1338 1363-ის წინააღმდეგ). მართალია, R1 ოდნავ აღემატება Gemma 3-ს, მაგრამ Google-ის შეფასებით, R1-ის შედეგის მისაღწევად საჭიროა Nvidia-ს 32 H100 GPU ჩიპი, მაშინ როდესაც Gemma 3 მხოლოდ ერთ H100 GPU-ს იყენებს.

Google-ის აზრით, გამოთვლითი სიმძლავრისა და Elo ქულის ბალანსი "ოპტიმალურია". კომპანიის ბლოგზე აღნიშნულია, რომ ეს არის "ყველაზე მძლავრი მოდელი, რომელიც შეგიძლიათ ერთ GPU-ზე ან TPU-ზე გაუშვათ". TPU არის Google-ის მიერ შექმნილი ხელოვნური ინტელექტის ჩიპი.

ბლოგში ასევე ნათქვამია, რომ "Gemma 3 თავისი ზომისთვის უმაღლეს შედეგებს აჩვენებს და აჯობებს Llama-405B-ს, DeepSeek-V3-სა და o3-mini-ს LMArena-ს ლიდერბორდზე ადამიანის პრეფერენციების წინასწარ შეფასებებში". ეს მომხმარებლებს საშუალებას აძლევს შექმნან საინტერესო გამოცდილება ერთ GPU-ზე ან TPU-ზე.

Google-ის მოდელი ასევე აჯობებს Meta-ს Llama 3-ის Elo ქულას, რომლისთვისაც, მათი შეფასებით, 16 GPU არის საჭირო. აღსანიშნავია, რომ კონკურენტების მიერ გამოყენებული H100 ჩიპების რაოდენობა Google-ის შეფასებაა. DeepSeek AI-ს მხოლოდ ის აქვს გამჟღავნებული, რომ R1-ის პასუხების დასამუშავებლად 1814 Nvidia-ს ნაკლებად მძლავრი H800 GPU გამოიყენა.

Gemma 3 მოდელები, რომლებიც მონაცემთა ცენტრების ნაცვლად მოწყობილობებზე გამოსაყენებლადაა განკუთვნილი, R1-თან და სხვა ღია კოდის მოდელებთან შედარებით პარამეტრების გაცილებით მცირე რაოდენობას შეიცავს. ზოგადად, რაც მეტია პარამეტრების რაოდენობა, მით მეტი გამოთვლითი სიმძლავრეა საჭირო. Gemma-ს კოდი გვთავაზობს 1 მილიარდი, 4 მილიარდი, 12 მილიარდი და 27 მილიარდი პარამეტრის მქონე მოდელებს, რაც დღევანდელი სტანდარტებით საკმაოდ მცირეა. R1-ს კი 671 მილიარდი პარამეტრი აქვს, საიდანაც შეუძლია შერჩევითად გამოიყენოს 37 მილიარდი ქსელის ნაწილების გამორთვით.

ასეთი ეფექტურობის მიღწევის მთავარი საშუალებაა AI ტექნიკა, რომელსაც დისტილაცია ეწოდება. ამ დროს უფრო დიდი მოდელის წონები ამოიღება და უფრო მცირე მოდელში, მაგალითად Gemma 3-ში, თავსდება, რათა მას გაძლიერებული შესაძლებლობები მიენიჭოს.

დისტილირებული მოდელი ასევე გადის ხარისხის კონტროლის სამ სხვადასხვა ზომას, მათ შორის ადამიანის გამოხმაურებაზე დაფუძნებულ განმტკიცებულ სწავლებას (RLHF), რათა GPT-ისა და სხვა დიდი ენობრივი მოდელების გამომავალი იყოს უვნებელი და სასარგებლო. ასევე გამოიყენება მანქანის გამოხმაურებაზე დაფუძნებული განმტკიცებული სწავლება (RLMF) და შესრულების გამოხმაურებაზე დაფუძნებული განმტკიცებული სწავლება (RLEF), რაც, Google-ის თქმით, აუმჯობესებს მოდელის მათემატიკურ და კოდირების შესაძლებლობებს.

Google-ის დეველოპერის ბლოგზე დეტალურად არის აღწერილი ეს მიდგომები, ხოლო ცალკე პოსტში აღწერილია ტექნიკები, რომლებიც გამოიყენება ყველაზე პატარა, 1 მილიარდიანი მოდელის მობილური მოწყობილობებისთვის ოპტიმიზაციისთვის. ეს მოიცავს AI ინჟინერიის ოთხ გავრცელებულ ტექნიკას: კვანტიზაციას, "key-value" ქეშის განლაგების განახლებას, გარკვეული ცვლადების ჩატვირთვის დროის გაუმჯობესებას და "GPU წონის გაზიარებას".

კომპანია ადარებს არა მხოლოდ Elo ქულებს, არამედ Gemma 3-ს წინა Gemma 2-სა და მის დახურული კოდის Gemini მოდელებსაც ისეთ საორიენტაციო ტესტებში, როგორიცაა LiveCodeBench პროგრამირების ამოცანა. Gemma 3, როგორც წესი, ჩამორჩება Gemini 1.5-ისა და Gemini 2.0-ის სიზუსტეს, მაგრამ Google ამ შედეგებს აღსანიშნავად მიიჩნევს და აცხადებს, რომ Gemma 3 "კონკურენტულ შედეგებს აჩვენებს დახურულ Gemini-სთან შედარებით".

კომენტარები