ადრე გამოცხადებული გეგმების შესაბამისად, Nvidia-მ განაცხადა, რომ Run:ai პლატფორმის ახალი ელემენტები, მათ შორის KAI Scheduler-ი, ღია კოდით გახადა ხელმისაწვდომი. განრიგების პროგრამა წარმოადგენს Kubernetes-ის მშობლიურ GPU რესურსების განაწილების გადაწყვეტას, რომელიც ახლა უკვე Apache 2.0 ლიცენზიით არის ხელმისაწვდომი. თავდაპირველად Run:ai პლატფორმაში შემუშავებული KAI Scheduler-ი ახლა უკვე საზოგადოებისთვის არის ხელმისაწვდომი, ამავდროულად ის კვლავაც რჩება NVIDIA Run:ai პლატფორმის ნაწილად და მიეწოდება მასთან ერთად. Nvidia-ში განაცხადეს, რომ ეს ინიციატივა ხაზს უსვამს Nvidia-ს ერთგულებას ღია კოდის და საწარმოთა ხელოვნური ინტელექტის ინფრასტრუქტურის განვითარების მიმართ, აქტიური და თანამშრომლობითი საზოგადოების წახალისებას, წვლილის შეტანის, უკუკავშირისა და ინოვაციების ხელშეწყობას. Nvidia-ს წარმომადგენლებმა, რონენ დარმა და ეკინ კარაბულუტმა, თავიანთ პოსტში მიმოიხილეს KAI Scheduler-ის ტექნიკური დეტალები, ხაზი გაუსვეს მის მნიშვნელობას IT და ML გუნდებისთვის და განმარტეს განრიგების ციკლი და მოქმედებები.
KAI Scheduler-ის უპირატესობები
GPU-ებზე და CPU-ებზე ხელოვნური ინტელექტის სამუშაო დატვირთვების მართვა მთელ რიგ გამოწვევებს წარმოშობს, რომელთა გადაჭრასაც ტრადიციული რესურსების განრიგების პროგრამები ხშირად ვერ ახერხებენ. განრიგების პროგრამა სპეციალურად ამ პრობლემების გადასაჭრელად შეიქმნა: GPU-ზე ცვალებადი მოთხოვნის მართვა; გამოთვლით რესურსებზე წვდომის მოლოდინის დროის შემცირება; რესურსების გარანტიები ან GPU-ს გამოყოფა; და ხელოვნური ინტელექტის ინსტრუმენტებთან და ფრეიმვორკებთან შეუფერხებელი დაკავშირება.
GPU-ზე ცვალებადი მოთხოვნის მართვა
ხელოვნური ინტელექტის სამუშაო დატვირთვები შეიძლება სწრაფად შეიცვალოს. მაგალითად, შეიძლება დაგჭირდეთ მხოლოდ ერთი GPU ინტერაქტიული სამუშაოსთვის (მაგალითად, მონაცემთა შესწავლისთვის), შემდეგ კი მოულოდნელად რამდენიმე GPU განაწილებული წვრთნისთვის ან მრავალი ექსპერიმენტისთვის. ტრადიციული განრიგების პროგრამები ასეთ ცვალებადობასთან გამკლავებას ვერ ახერხებენ. KAI Scheduler-ი მუდმივად ახდენს სამართლიანი წილის მნიშვნელობების გადაანგარიშებას და რეალურ დროში არეგულირებს კვოტებსა და ლიმიტებს, ავტომატურად ერგება მიმდინარე სამუშაო დატვირთვის მოთხოვნებს. ეს დინამიური მიდგომა ხელს უწყობს GPU-ს ეფექტურ განაწილებას ადმინისტრატორების მუდმივი ხელით ჩარევის გარეშე.
გამოთვლით რესურსებზე წვდომის მოლოდინის დროის შემცირება
ML ინჟინრებისთვის დრო არსებითია. განრიგების პროგრამა ამცირებს მოლოდინის დროს ჯგუფური განრიგების, GPU-ს გაზიარების და იერარქიული რიგების სისტემის კომბინაციით, რაც საშუალებას გაძლევთ წარადგინოთ სამუშაოების პაკეტები და შემდეგ მოშორდეთ, დარწმუნებული, რომ ამოცანები დაიწყება როგორც კი რესურსები ხელმისაწვდომი გახდება და პრიორიტეტებისა და სამართლიანობის შესაბამისად. რესურსების გამოყენების შემდგომი ოპტიმიზაციისთვის, მოთხოვნის ცვალებადობის პირობებშიც კი, განრიგების პროგრამა იყენებს ორ ეფექტურ სტრატეგიას როგორც GPU-სთვის, ასევე CPU-სთვის:
ბინ-პეკინგი და კონსოლიდაცია: მაქსიმალურად ზრდის გამოთვლითი რესურსების გამოყენებას რესურსების ფრაგმენტაციასთან ბრძოლით - უფრო მცირე ამოცანების ნაწილობრივ გამოყენებულ GPU-ებსა და CPU-ებში შეფუთვით - და კვანძების ფრაგმენტაციის მოგვარებით ამოცანების კვანძებს შორის გადანაწილებით.
გადანაწილება: თანაბრად ანაწილებს სამუშაო დატვირთვებს კვანძებზე ან GPU-ებსა და CPU-ებზე თითოეული კვანძის დატვირთვის შესამცირებლად და თითოეული სამუშაო დატვირთვისთვის რესურსების ხელმისაწვდომობის მაქსიმიზაციისთვის.
რესურსების გარანტიები ან GPU-ს გამოყოფა
საერთო კლასტერებში ზოგიერთი მკვლევარი დღის დასაწყისში იმაზე მეტ GPU-ს იღებს, ვიდრე საჭიროა, რათა უზრუნველყოს ხელმისაწვდომობა მთელი დღის განმავლობაში. ამ პრაქტიკამ შეიძლება გამოიწვიოს არასაკმარისად გამოყენებული რესურსები, მაშინაც კი, როდესაც სხვა გუნდებს ჯერ კიდევ აქვთ გამოუყენებელი კვოტები. KAI Scheduler-ი ამ პრობლემას რესურსების გარანტიების დაწესებით აგვარებს. ის უზრუნველყოფს, რომ ხელოვნური ინტელექტის პრაქტიკოსთა გუნდებმა მიიღონ მათთვის გამოყოფილი GPU-ები, ამავდროულად დინამიურად გადაანაწილებს გამოუყენებელ რესურსებს სხვა სამუშაო დატვირთვებზე. ეს მიდგომა ხელს უშლის რესურსების მონოპოლიზაციას და ხელს უწყობს კლასტერის საერთო ეფექტურობას.
ხელოვნური ინტელექტის ინსტრუმენტებთან და ფრეიმვორკებთან შეუფერხებელი დაკავშირება
ხელოვნური ინტელექტის სამუშაო დატვირთვების სხვადასხვა ხელოვნური ინტელექტის ფრეიმვორკებთან დაკავშირება შეიძლება რთული აღმოჩნდეს. ტრადიციულად, გუნდები ხელით კონფიგურაციების ლაბირინთს აწყდებიან, რათა სამუშაო დატვირთვები დააკავშირონ ისეთ ინსტრუმენტებთან, როგორიცაა Kubeflow, Ray, Argo და Training Operator. ეს სირთულე აფერხებს პროტოტიპირებას. KAI Scheduler-ი ამ პრობლემას პოდების დაჯგუფების ჩაშენებული მექანიზმის საშუალებით აგვარებს, რომელიც ავტომატურად აღმოაჩენს და უკავშირდება ამ ინსტრუმენტებსა და ფრეიმვორკებს - ამცირებს კონფიგურაციის სირთულეს და აჩქარებს განვითარებას.
გსურთ კომენტარის დატოვება?
კომენტარის დასატოვებლად საჭიროა ავტორიზაცია
შესვლა რეგისტრაციაკომენტარები არ არის
იყავით პირველი, ვინც დატოვებს კომენტარს