ღია კოდის ეფექტურობით ხელოვნური ინტელექტის დასკვნების მასშტაბირება

NVIDIA-მ გამოუშვა Dynamo, ღია კოდის დასკვნის პროგრამული უზრუნველყოფა, რომელიც შექმნილია ხელოვნური ინტელექტის ფაბრიკებში მსჯელობის მოდელების დასაჩქარებლად და მასშტაბირებისთვის. ხელოვნური ინტელექტის დასკვნის მოთხოვნების ეფექტურად მართვა და კოორდინაცია GPU-ების ფლოტში კრიტიკული ამოცანაა, რათა უზრუნველყოფილი იყოს ხელოვნური ინტელექტის ფაბრიკების ოპტიმალური ხარჯთეფექტურობით მუშაობა და ტოკენების შემოსავლის მაქსიმიზაცია. იმის გამო, რომ ხელოვნური ინტელექტის მსჯელობა სულ უფრო გავრცელებული ხდება, მოსალოდნელია, რომ თითოეული ხელოვნური ინტელექტის მოდელი ყოველ მოთხოვნაზე ათობით ათას ტოკენს გამოიმუშავებს, რაც არსებითად წარმოადგენს მის „აზროვნების“ პროცესს. დასკვნის მუშაობის გაუმჯობესება და ამავდროულად მისი ღირებულების შემცირება გადამწყვეტია ზრდის დაჩქარებისა და მომსახურების პროვაიდერებისთვის შემოსავლის შესაძლებლობების გაზრდისთვის. ხელოვნური ინტელექტის დასკვნის ახალი თაობის პროგრამული უზრუნველყოფა NVIDIA Dynamo, რომელიც NVIDIA Triton Inference Server-ის მემკვიდრეა, წარმოადგენს ხელოვნური ინტელექტის დასკვნის პროგრამული უზრუნველყოფის ახალ თაობას, რომელიც სპეციალურად შექმნილია მსჯელობის ხელოვნური ინტელექტის მოდელების დანერგვის ხელოვნური ინტელექტის ფაბრიკებისთვის ტოკენების შემოსავლის გამომუშავების მაქსიმიზაციისთვის.

Dynamo ახდენს დასკვნის კომუნიკაციის ორგანიზებას და აჩქარებას პოტენციურად ათასობით GPU-ზე. ის იყენებს დეზაგრეგირებულ სერვისს, ტექნიკას, რომელიც გამოყოფს დიდი ენობრივი მოდელების (LLM) დამუშავებისა და გენერირების ფაზებს ცალკეულ GPU-ებზე. ეს მიდგომა თითოეულ ფაზას საშუალებას აძლევს ოპტიმიზირებული იყოს დამოუკიდებლად, დააკმაყოფილოს მისი სპეციფიკური გამოთვლითი საჭიროებები და უზრუნველყოს GPU რესურსების მაქსიმალური გამოყენება. „მსოფლიოს გარშემო ინდუსტრიები ავარჯიშებენ ხელოვნური ინტელექტის მოდელებს, რომ იფიქრონ და ისწავლონ სხვადასხვა გზით, რაც მათ დროთა განმავლობაში უფრო დახვეწილს ხდის“, - განაცხადა ჯენსენ ჰუანგმა, NVIDIA-ს დამფუძნებელმა და აღმასრულებელმა დირექტორმა. „მორგებული მსჯელობის ხელოვნური ინტელექტის მომავლის გასააქტიურებლად, NVIDIA Dynamo ეხმარება ამ მოდელების მასშტაბურ მომსახურებას, რაც იწვევს ხარჯების დაზოგვას და ეფექტურობას ხელოვნური ინტელექტის ფაბრიკებში.“

იგივე რაოდენობის GPU-ების გამოყენებით, Dynamo-მ აჩვენა Llama მოდელების მომსახურე ხელოვნური ინტელექტის ფაბრიკების მუშაობის და შემოსავლის გაორმაგების შესაძლებლობა NVIDIA-ს მიმდინარე Hopper პლატფორმაზე. გარდა ამისა, DeepSeek-R1 მოდელის GB200 NVL72 თაროების დიდ კლასტერზე გაშვებისას, NVIDIA Dynamo-ს ინტელექტუალურმა დასკვნის ოპტიმიზაციამ აჩვენა თითო GPU-ზე გენერირებული ტოკენების რაოდენობის 30-ჯერ მეტად გაზრდა. დასკვნის მუშაობის ამ გაუმჯობესების მისაღწევად, NVIDIA Dynamo აერთიანებს რამდენიმე ძირითად მახასიათებელს, რომელიც შექმნილია გამტარუნარიანობის გაზრდისა და საოპერაციო ხარჯების შესამცირებლად. Dynamo-ს შეუძლია დინამიურად დაამატოს, ამოიღოს და გადაანაწილოს GPU-ები რეალურ დროში, რათა მოერგოს მოთხოვნების მოცულობისა და ტიპების ცვალებადობას. პროგრამულ უზრუნველყოფას ასევე შეუძლია დაადგინოს კონკრეტული GPU-ები დიდ კლასტერებში, რომლებიც საუკეთესოდ შეეფერება რეაგირების გამოთვლების მინიმიზაციას და მოთხოვნების ეფექტურად მარშრუტიზაციას. Dynamo-ს ასევე შეუძლია დასკვნის მონაცემების გადატვირთვა უფრო ეკონომიურ მეხსიერებასა და შესანახ მოწყობილობებში და საჭიროების შემთხვევაში სწრაფად აღდგენა, რითაც მინიმუმამდე ამცირებს დასკვნის საერთო ხარჯებს.

NVIDIA Dynamo გამოიცემა როგორც სრულად ღია კოდის პროექტი, რომელიც გთავაზობთ ფართო თავსებადობას პოპულარულ ჩარჩოებთან, როგორიცაა PyTorch, SGLang, NVIDIA TensorRT-LLM და vLLM. ეს ღია მიდგომა მხარს უჭერს საწარმოებს, სტარტაპებსა და მკვლევარებს ხელოვნური ინტელექტის მოდელების დეზაგრეგირებულ დასკვნის ინფრასტრუქტურებში მომსახურების ახალი მეთოდების შემუშავებასა და ოპტიმიზაციაში. NVIDIA მოელის, რომ Dynamo დააჩქარებს ხელოვნური ინტელექტის დასკვნის მიღებას ორგანიზაციების ფართო სპექტრში, მათ შორის მსხვილ ღრუბლოვან პროვაიდერებსა და ხელოვნური ინტელექტის ინოვატორებს, როგორიცაა AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI და VAST.

NVIDIA Dynamo: დასკვნისა და აგენტური ხელოვნური ინტელექტის გაძლიერება

NVIDIA Dynamo-ს ძირითადი ინოვაცია მდგომარეობს მის უნარში, ასახოს ცოდნა, რომელსაც დასკვნის სისტემები ინახავს მეხსიერებაში წინა მოთხოვნების მომსახურებიდან, ცნობილი როგორც KV ქეში, პოტენციურად ათასობით GPU-ზე. შემდეგ პროგრამული უზრუნველყოფა ინტელექტუალურად მიმართავს ახალ დასკვნის მოთხოვნებს GPU-ებზე, რომლებსაც აქვთ საუკეთესო ცოდნის შესატყვისი, ეფექტურად აცილებს თავიდან ძვირადღირებულ გადაანგარიშებებს და ათავისუფლებს სხვა GPU-ებს ახალი შემომავალი მოთხოვნების დასამუშავებლად. ეს ჭკვიანი მარშრუტიზაციის მექანიზმი მნიშვნელოვნად აუმჯობესებს ეფექტურობას და ამცირებს შეყოვნებას. „თვეში ასობით მილიონი მოთხოვნის დასამუშავებლად, ჩვენ ვეყრდნობით NVIDIA GPU-ებს და დასკვნის პროგრამულ უზრუნველყოფას, რათა მივაწოდოთ ის შესრულება, საიმედოობა და მასშტაბი, რასაც ჩვენი ბიზნესი და მომხმარებლები მოითხოვენ“, - თქვა დენის იარატსმა, Perplexity AI-ის CTO-მ. „ჩვენ მოუთმენლად ველით Dynamo-ს გამოყენებას, მისი გაძლიერებული განაწილებული სერვისის შესაძლებლობებით, რათა კიდევ უფრო გავზარდოთ დასკვნის სერვისის ეფექტურობა და დავაკმაყოფილოთ ხელოვნური ინტელექტის ახალი მსჯელობის მოდელების გამოთვლითი მოთხოვნები.“

ხელოვნური ინტელექტის პლატფორმა Cohere უკვე გეგმავს NVIDIA Dynamo-ს გამოყენებას თავისი Command სერიის მოდელებში აგენტური ხელოვნური ინტელექტის შესაძლებლობების გასაუმჯობესებლად. „მოწინავე ხელოვნური ინტელექტის მოდელების მასშტაბირება მოითხოვს დახვეწილ მრავალ-GPU განრიგს, შეუფერხებელ კოორდინაციას და დაბალი შეყოვნების კომუნიკაციის ბიბლიოთეკებს, რომლებიც მსჯელობის კონტექსტებს შეუფერხებლად გადასცემენ მეხსიერებასა და საცავში“, - განმარტა საურაბ ბაჯიმ, Cohere-ის საინჟინრო SVP-მ. „ჩვენ მოველით, რომ NVIDIA Dynamo დაგვეხმარება ჩვენი კორპორატიული მომხმარებლებისთვის უმაღლესი დონის მომხმარებლის გამოცდილების მიწოდებაში.“

დეზაგრეგირებული სერვისის მხარდაჭერა

NVIDIA Dynamo დასკვნის პლატფორმა ასევე გამოირჩევა დეზაგრეგირებული სერვისის მყარი მხარდაჭერით. ეს მოწინავე ტექნიკა LLM-ების სხვადასხვა გამოთვლით ფაზებს - მათ შორის მომხმარებლის მოთხოვნის გაგებისა და შემდეგ ყველაზე შესაფერისი პასუხის გენერირების გადამწყვეტ ნაბიჯებს - ინფრასტრუქტურის შიგნით სხვადასხვა GPU-ებს ანიჭებს. დეზაგრეგირებული სერვისი განსაკუთრებით კარგად შეეფერება მსჯელობის მოდელებს, როგორიცაა NVIDIA Llama Nemotron მოდელების ახალი ოჯახი, რომელიც იყენებს მოწინავე დასკვნის ტექნიკას კონტექსტური გაგებისა და პასუხის გენერირების გასაუმჯობესებლად. თითოეულ ფაზას დამოუკიდებლად დახვეწისა და რესურსებით უზრუნველყოფის შესაძლებლობით, დეზაგრეგირებული სერვისი აუმჯობესებს საერთო გამტარუნარიანობას და მომხმარებლებს უფრო სწრაფ რეაგირების დროს აწვდის.

Together AI, ხელოვნური ინტელექტის აჩქარების ღრუბლოვანი სივრცის გამოჩენილი მოთამაშე, ასევე გეგმავს საკუთარი Together Inference Engine-ის ინტეგრირებას NVIDIA Dynamo-სთან. ეს ინტეგრაცია მიზნად ისახავს მრავალ GPU კვანძზე დასკვნის დატვირთვების შეუფერხებლად მასშტაბირების უზრუნველყოფას. გარდა ამისა, ის Together AI-ს საშუალებას მისცემს დინამიურად გადაჭრას სატრანსპორტო შეფერხებები, რომლებიც შეიძლება წარმოიშვას მოდელის მილსადენის სხვადასხვა ეტაპზე. „მსჯელობის მოდელების ხარჯთეფექტურად მასშტაბირება მოითხოვს ახალ მოწინავე დასკვნის ტექნიკას, მათ შორის დეზაგრეგირებულ სერვისსა და კონტექსტზე მორგებულ მარშრუტიზაციას“, - განაცხადა ცე ჟანგმა, Together AI-ის CTO-მ. „NVIDIA Dynamo-ს გახსნილობა და მოდულურობა საშუალებას მოგვცემს შეუფერხებლად ჩავრთოთ მისი კომპონენტები ჩვენს ძრავში, რათა მეტი მოთხოვნა მოვემსახუროთ რესურსების ოპტიმიზაციისას - მაქსიმალურად გავზარდოთ ჩვენი აჩქარებული გამოთვლების ინვესტიცია. ჩვენ აღფრთოვანებული ვართ პლატფორმის გარღვევის შესაძლებლობების გამოყენებით, რათა ხარჯთეფექტურად მივაწოდოთ ღია კოდის მსჯელობის მოდელები ჩვენს მომხმარებლებს.“

NVIDIA Dynamo-ს ოთხი ძირითადი ინოვაცია

NVIDIA-მ გამოყო Dynamo-ში ოთხი ძირითადი ინოვაცია, რომლებიც ხელს უწყობს დასკვნის სერვისის ხარჯების შემცირებას და მომხმარებლის საერთო გამოცდილების გაუმჯობესებას:

GPU Planner: დახვეწილი დაგეგმვის ძრავა, რომელიც დინამიურად ამატებს და აშორებს GPU-ებს მომხმარებლის ცვალებადი მოთხოვნის საფუძველზე. ეს უზრუნველყოფს რესურსების ოპტიმალურ განაწილებას, ხელს უშლის როგორც ზედმეტად, ისე არასაკმარისად GPU სიმძლავრის გამოყოფას.

Smart Router: ინტელექტუალური, LLM-ზე მორგებული როუტერი, რომელიც მიმართავს დასკვნის მოთხოვნებს GPU-ების დიდ ფლოტებში. მისი ძირითადი ფუნქციაა განმეორებადი ან გადახურული მოთხოვნების ძვირადღირებული GPU გადაანგარიშების მინიმიზაცია, რითაც ათავისუფლებს ღირებულ GPU რესურსებს ახალი შემომავალი მოთხოვნების უფრო ეფექტურად დასამუშავებლად.

Low-Latency Communication Library: დასკვნისთვის ოპტიმიზებული ბიბლიოთეკა, რომელიც შექმნილია უახლესი GPU-to-GPU კომუნიკაციის მხარდასაჭერად. ის აბსტრაქტებს მონაცემთა გაცვლის სირთულეებს ჰეტეროგენულ მოწყობილობებში, მნიშვნელოვნად აჩქარებს მონაცემთა გადაცემის სიჩქარეს.

Memory Manager: ინტელექტუალური ძრავა, რომელიც მართავს დასკვნის მონაცემების გადატვირთვას და გადატვირთვას უფრო იაფ მეხსიერებასა და შესანახ მოწყობილობებში. ეს პროცესი შექმნილია იმისთვის, რომ იყოს შეუფერხებელი და უზრუნველყოს მომხმარებლის გამოცდილებაზე უარყოფითი გავლენის არ მოხდენა.

NVIDIA Dynamo ხელმისაწვდომი გახდება NIM მიკროსერვისებში და მხარდაჭერილი იქნება კომპანიის AI Enterprise პროგრამული პლატფორმის მომავალ გამოშვებაში.

იხილეთ აგრეთვე: LG EXAONE Deep არის მათემატიკის, მეცნიერებისა და კოდირების მოყვარული

გსურთ გაიგოთ მეტი ხელოვნური ინტელექტისა და დიდი მონაცემების შესახებ ინდუსტრიის ლიდერებისგან? იხილეთ AI & Big Data Expo, რომელიც იმართება ამსტერდამში, კალიფორნიასა და ლონდონში. ყოვლისმომცველი ღონისძიება განთავსებულია სხვა წამყვან ღონისძიებებთან, მათ შორის Intelligent Automation Conference, BlockX, Digital Transformation Week და Cyber Security & Cloud Expo. გამოიკვლიეთ სხვა მომავალი საწარმოო ტექნოლოგიების ღონისძიებები და ვებინარები, რომლებიც იკვებება TechForge-ის მიერ აქ.

კატეგორიები

ღია კოდის ეფექტურობით ხელოვნური ინტელექტის დასკვნების მასშტაბირება

კომენტარები

მსგავსი სიახლეები

Genesis X Gran Equator SUV-ის კონცეფცია: დაფაზე განლაგებული წრიული მაჩვენებლები,...

ხელოვნური ინტელექტის ხმოვანი აგენტი მილანის დიზაინის კვირეულზე ხავსით დაფარულ სა...

Smashing - Goodreads-ის დამფუძნებლის აპლიკაცია - დაიხურა

Rippling-ი Revolut-ს Deel-ის სავარაუდო ჯაშუშისთვის თანხის გადამხდელის დასახელება...

Hugging Face მოუწოდებს მთავრობას, ხელოვნური ინტელექტის სამოქმედო გეგმაში ღია კოდზე გააკეთოს აქცენტი

ჩინური ხელოვნური ინტელექტის ინოვაცია აახლოებს ტექნოლოგიურ უფსკრულს აშშ-სთან

კატეგორიები

ღია კოდის ეფექტურობით ხელოვნური ინტელექტის დასკვნების მასშტაბირება

კომენტარები

გსურთ კომენტარის დატოვება?

მსგავსი სიახლეები

Genesis X Gran Equator SUV-ის კონცეფცია: დაფაზე განლაგებული წრიული მაჩვენებლები,...

ხელოვნური ინტელექტის ხმოვანი აგენტი მილანის დიზაინის კვირეულზე ხავსით დაფარულ სა...

Smashing - Goodreads-ის დამფუძნებლის აპლიკაცია - დაიხურა

Rippling-ი Revolut-ს Deel-ის სავარაუდო ჯაშუშისთვის თანხის გადამხდელის დასახელება...

Hugging Face მოუწოდებს მთავრობას, ხელოვნური ინტელექტის სამოქმედო გეგმაში ღია კოდზე გააკეთოს აქცენტი

ჩინური ხელოვნური ინტელექტის ინოვაცია აახლოებს ტექნოლოგიურ უფსკრულს აშშ-სთან