კატეგორიები

CardanoNFTავტოარქიტექტურაახალი ამბებიახალიამბებიბიზნესიგანათლებაგარემოგარემო და ბუნებაგარემოს დაცვაგართობაეკონომიკაეკონომიკა/ბიზნესიზოგადითავგადასავალითამაშებიიარაღიისტორიაკოსმოსიკრიმინალიკრიპტოკრიპტოვალუტაკრიპტოსამყაროკულინარიაკულინარია რეცეპტებიკულტურაკულტურა/მედიამედიამეცნიერებამოგზაურობამოდამომხმარებელიმსოფლიომსოფლიო ამბებიმსოფლიო პოლიტიკანადირობაპოლიტიკაპროდუქტის მიმოხილვარობოტექნიკასაბრძოლო მასალასაზოგადოებასამართალისამხედროსილამაზესპორტისტარტაპებისტილისხვადასხვატექნიკატექნოლოგიატექნოლოგიებიტექნოლოგიები/ონლაინ კომერციატრანსპორტიტურიზმიუსაფრთხოებაფინანსებიფიტნესიშოუბიზნესიცხოვრებაწიგნებიხელოვნებახელოვნური ინტელექტიჯანდაცვაჯანმრთელობა

Nvidia-ს MambaVision: კომპიუტერული ხედვის ახალი ერა

ტექნოლოგია ხელოვნური ინტელექტი
Nvidia-ს MambaVision: კომპიუტერული ხედვის ახალი ერა

ტრანსფორმატორებზე დაფუძნებული მსხვილი ენობრივი მოდელები (LLM) თანამედროვე გენერაციული ხელოვნური ინტელექტის ლანდშაფტის საფუძველია.

თუმცა, ტრანსფორმატორები არ არის გენერაციული ხელოვნური ინტელექტის შექმნის ერთადერთი გზა. გასული წლის განმავლობაში, Mamba, მიდგომა, რომელიც იყენებს სტრუქტურულ მდგომარეობაზე დაფუძნებულ მოდელებს (SSM), ასევე აირჩიეს, როგორც ალტერნატიული მიდგომა მრავალი გამყიდველისგან, მათ შორის AI21 და ხელოვნური ინტელექტის სილიკონის გიგანტი Nvidia.

Nvidia-მ პირველად განიხილა Mamba-ზე მომუშავე მოდელების კონცეფცია 2024 წელს, როდესაც თავდაპირველად გამოუშვა MambaVision-ის კვლევა და ზოგიერთი ადრეული მოდელი. ამ კვირაში Nvidia აფართოებს თავის თავდაპირველ ძალისხმევას განახლებული MambaVision მოდელების სერიით, რომლებიც ხელმისაწვდომია Hugging Face-ზე.

MambaVision, როგორც სახელი გულისხმობს, არის Mamba-ზე დაფუძნებული მოდელების ოჯახი კომპიუტერული ხედვისა და გამოსახულების ამოცნობის ამოცანებისთვის. MambaVision-ის დაპირება საწარმოებისთვის არის ის, რომ მას შეუძლია გააუმჯობესოს ხედვის ოპერაციების ეფექტურობა და სიზუსტე, პოტენციურად დაბალ ფასებში, გამოთვლითი რესურსების დაბალი მოთხოვნების წყალობით.

რა არის SSM და რით განსხვავდება ის ტრანსფორმატორებისგან?

SSM-ები არის ნერვული ქსელის არქიტექტურის კლასი, რომელიც თანმიმდევრულ მონაცემებს ტრადიციული ტრანსფორმატორებისგან განსხვავებულად ამუშავებს.

მაშინ როდესაც ტრანსფორმატორები იყენებენ ყურადღების მექანიზმებს ყველა ტოკენის ერთმანეთთან მიმართებაში დასამუშავებლად, SSM-ები მოდელირებენ თანმიმდევრობის მონაცემებს, როგორც უწყვეტ დინამიკურ სისტემას.

Mamba არის კონკრეტული SSM იმპლემენტაცია, რომელიც შემუშავებულია ადრეული SSM მოდელების შეზღუდვების გადასაჭრელად. ის წარმოადგენს შერჩევითი მდგომარეობის სივრცის მოდელირებას, რომელიც დინამიურად ეგუება შეყვანის მონაცემებს და აპარატურაზე ორიენტირებულ დიზაინს GPU-ს ეფექტური გამოყენებისთვის. Mamba მიზნად ისახავს უზრუნველყოს ტრანსფორმატორების შესადარებელი შესრულება ბევრ ამოცანაში, გამოთვლითი რესურსების ნაკლები გამოყენებით.

Nvidia იყენებს ჰიბრიდულ არქიტექტურას MambaVision-ით კომპიუტერული ხედვის რევოლუციისთვის

ტრადიციული Vision Transformers (ViT) დომინირებს მაღალი წარმადობის კომპიუტერულ ხედვაში ბოლო რამდენიმე წლის განმავლობაში, მაგრამ მნიშვნელოვანი გამოთვლითი დანახარჯებით. სუფთა Mamba-ზე დაფუძნებულ მიდგომებს, მიუხედავად იმისა, რომ უფრო ეფექტურია, უჭირდა ტრანსფორმატორის შესრულების შესაბამისობა კომპლექსურ ხედვის ამოცანებში, რომლებიც მოითხოვს გლობალური კონტექსტის გაგებას.

MambaVision ხიდს დებს ამ უფსკრულს ჰიბრიდული მიდგომის მიღებით. Nvidia-ს MambaVision არის ჰიბრიდული მოდელი, რომელიც სტრატეგიულად აერთიანებს Mamba-ს ეფექტურობას ტრანსფორმატორის მოდელირების ძალასთან.

არქიტექტურის ინოვაცია მდგომარეობს მის ხელახლა შემუშავებულ Mamba ფორმულირებაში, რომელიც სპეციალურად არის შექმნილი ვიზუალური მახასიათებლების მოდელირებისთვის, გაძლიერებული თვით-ყურადღების ბლოკების სტრატეგიული განლაგებით საბოლოო ფენებში კომპლექსური სივრცითი დამოკიდებულებების დასაფიქსირებლად.

ჩვეულებრივი ხედვის მოდელებისგან განსხვავებით, რომლებიც ექსკლუზიურად ეყრდნობიან ყურადღების მექანიზმებს ან კონვოლუციურ მიდგომებს, MambaVision-ის იერარქიული არქიტექტურა ერთდროულად იყენებს ორივე პარადიგმას. მოდელი ამუშავებს ვიზუალურ ინფორმაციას Mamba-სგან თანმიმდევრული სკანირებაზე დაფუძნებული ოპერაციების მეშვეობით, ხოლო იყენებს თვით-ყურადღებას გლობალური კონტექსტის მოდელირებისთვის — ეფექტურად იღებს ორივე სამყაროს საუკეთესოს.

MambaVision-ს ახლა 740 მილიონი პარამეტრი აქვს

MambaVision მოდელების ახალი ნაკრები, რომელიც გამოვიდა Hugging Face-ზე, ხელმისაწვდომია Nvidia Source Code License-NC-ის ქვეშ, რომელიც არის ღია ლიცენზია.

MambaVision-ის საწყისი ვარიანტები, რომლებიც გამოვიდა 2024 წელს, მოიცავს T და T2 ვარიანტებს, რომლებიც გაწვრთნილი იყო ImageNet-1K ბიბლიოთეკაზე. ამ კვირაში გამოშვებული ახალი მოდელები მოიცავს L/L2 და L3 ვარიანტებს, რომლებიც მასშტაბური მოდელებია.

„საწყისი გამოშვების შემდეგ, ჩვენ მნიშვნელოვნად გავაუმჯობესეთ MambaVision, გავზარდეთ ის შთამბეჭდავ 740 მილიონ პარამეტრამდე“, - წერს ალი ჰატამიზადე, Nvidia-ს უფროსი მკვლევარი, Hugging Face-ის დისკუსიის პოსტში. „ჩვენ ასევე გავაფართოვეთ ჩვენი ტრენინგის მიდგომა უფრო დიდი ImageNet-21K მონაცემთა ნაკრების გამოყენებით და დავნერგეთ მშობლიური მხარდაჭერა უფრო მაღალი რეზოლუციებისთვის, ახლა ვამუშავებთ სურათებს 256 და 512 პიქსელზე თავდაპირველი 224 პიქსელისგან განსხვავებით“.

Nvidia-ს თანახმად, ახალი MambaVision მოდელების გაუმჯობესებული მასშტაბი ასევე აუმჯობესებს შესრულებას.

დამოუკიდებელმა ხელოვნური ინტელექტის კონსულტანტმა ალექს ფაზიომ VentureBeat-ს განუცხადა, რომ ახალი MambaVision მოდელების ტრენინგი უფრო დიდ მონაცემთა ნაკრებზე მათ გაცილებით უკეთესს ხდის უფრო მრავალფეროვანი და კომპლექსური ამოცანების შესრულებაში.

მან აღნიშნა, რომ ახალი მოდელები მოიცავს მაღალი რეზოლუციის ვარიანტებს, რომლებიც იდეალურია დეტალური გამოსახულების ანალიზისთვის. ფაზიოს თქმით, შემადგენლობა ასევე გაფართოვდა მოწინავე კონფიგურაციებით, რომლებიც გვთავაზობენ მეტ მოქნილობას და მასშტაბურობას სხვადასხვა სამუშაო დატვირთვისთვის.

„რაც შეეხება ბენჩმარკებს, მოსალოდნელია, რომ 2025 წლის მოდელები გადააჭარბებენ 2024 წლის მოდელებს, რადგან ისინი უკეთ განზოგადდებიან უფრო დიდ მონაცემთა ნაკრებებსა და ამოცანებზე“, - თქვა ფაზიომ.

MambaVision-ის საწარმოო შედეგები

საწარმოებისთვის, რომლებიც ქმნიან კომპიუტერული ხედვის აპლიკაციებს, MambaVision-ის ბალანსი შესრულებასა და ეფექტურობას შორის ხსნის ახალ შესაძლებლობებს.

შემცირებული დასკვნის ღირებულება: გაუმჯობესებული გამტარუნარიანობა ნიშნავს GPU-ს გამოთვლის დაბალ მოთხოვნებს მსგავსი შესრულების დონეებისთვის ტრანსფორმატორებზე დაფუძნებულ მოდელებთან შედარებით.

Edge განლაგების პოტენციალი: მიუხედავად იმისა, რომ MambaVision-ის არქიტექტურა ჯერ კიდევ დიდია, უფრო ადვილია Edge მოწყობილობებისთვის ოპტიმიზაცია, ვიდრე მხოლოდ ტრანსფორმატორებზე დაფუძნებული მიდგომები.

გაუმჯობესებული ქვედა დინების ამოცანების შესრულება: მოგება კომპლექსურ ამოცანებზე, როგორიცაა ობიექტების ამოცნობა და სეგმენტაცია, პირდაპირ ითარგმნება რეალურ სამყაროში აპლიკაციების უკეთეს შესრულებაში, როგორიცაა ინვენტარის მართვა, ხარისხის კონტროლი და ავტონომიური სისტემები.

გამარტივებული განლაგება: NVIDIA-მ გამოუშვა MambaVision Hugging Face-თან ინტეგრაციით, რაც ახორციელებს განხორციელებას მარტივად, კლასიფიკაციისა და ფუნქციების ამოღებისთვის მხოლოდ რამდენიმე ხაზის კოდით.

რას ნიშნავს ეს საწარმოს ხელოვნური ინტელექტის სტრატეგიისთვის

MambaVision წარმოადგენს შესაძლებლობას საწარმოებისთვის განათავსონ უფრო ეფექტური კომპიუტერული ხედვის სისტემები, რომლებიც ინარჩუნებენ მაღალ სიზუსტეს. მოდელის ძლიერი შესრულება ნიშნავს, რომ მას პოტენციურად შეუძლია ემსახურებოდეს მრავალმხრივ საფუძველს მრავალი კომპიუტერული ხედვის აპლიკაციისთვის ინდუსტრიებში.

MambaVision ჯერ კიდევ გარკვეულწილად ადრეული მცდელობაა, მაგრამ ის წარმოადგენს კომპიუტერული ხედვის მოდელების მომავლის ხედვას.

MambaVision ხაზს უსვამს, თუ როგორ აგრძელებს არქიტექტურული ინოვაცია — და არა მხოლოდ მასშტაბი — მნიშვნელოვანი გაუმჯობესებების წამოწყებას ხელოვნური ინტელექტის შესაძლებლობებში. ამ არქიტექტურული მიღწევების გაგება სულ უფრო მნიშვნელოვანი ხდება ტექნიკური გადაწყვეტილების მიმღებთათვის, რათა მიიღონ ინფორმირებული გადაწყვეტილებები ხელოვნური ინტელექტის განლაგების შესახებ.

დამუშავებულია ასინეთა AI-ის მიერ.

კომენტარები