ग्रीनबूस्टच्या आगमनाने स्थानिक कृत्रिम बुद्धिमत्तेच्या विकासाच्या परिस्थितीमध्ये महत्त्वपूर्ण बदल होत आहेत. लिनक्स कर्नलसाठी हे नाविन्यपूर्ण मॉड्यूल डेव्हलपर आणि संशोधकांना भेडसावणाऱ्या मुख्य अडथळ्यांपैकी एकावर मात करण्याचे वचन देते: ग्राहक NVIDIA कार्ड्सवरील व्हिडिओ मेमरी (VRAM) ची मर्यादा. CUDA आर्किटेक्चरद्वारे सिस्टीम RAM ला वापरण्यायोग्य संसाधनामध्ये रूपांतरित करून, GreenBoost थेट कमोडिटी पीसीवर जटिल मोठ्या-स्तरीय भाषा मॉडेल्स (LLMs) चालविण्यासाठी नवीन दरवाजे उघडते.
स्वतंत्र प्रोग्रामर Ferran Duarri द्वारे विकसित केलेला उपक्रम, अशा वातावरणात एक महत्त्वपूर्ण प्रगती दर्शवितो जेथे उच्च-क्षमतेचे हार्डवेअर, जसे की मुबलक VRAM सह एंटरप्राइझ-ग्रेड GPUs, बहुतेकांसाठी प्रवेश करण्यायोग्य नाही. समाधान विद्यमान संसाधनांचा वापर अनुकूल करण्यावर लक्ष केंद्रित करते, NVIDIA GPU ची संगणकीय शक्ती VRAM च्या मर्यादांसह पूर्णपणे वापरण्याची परवानगी देते, ओपन सोर्स AI मध्ये संशोधन आणि विकासाला चालना देते.
“glm-4.7-flash:q8_0” सारखी 31.8 GB मेमरी, ग्राहक उपकरणांवर पूर्वी दहा गीगाबाइट मेमरी आवश्यक असणारे मॉडेल चालवण्याची क्षमता हे जवळजवळ अत्युत्तम आव्हान होते. पारंपारिक पध्दतींमुळे बऱ्याचदा कार्यप्रदर्शनातील अडथळे किंवा निकृष्ट अंदाज गुणवत्तेचा परिणाम होतो, ज्यामुळे अनेक उत्साही आणि लहान विकसकांसाठी या मॉडेल्ससह व्यावहारिक संवाद अशक्य होतो.
पारंपारिक VRAM अडथळ्यांवर मात करणे
ऐतिहासिकदृष्ट्या, ग्राहक GPU मध्ये VRAM च्या कमतरतेला सामोरे जाण्यासाठी धोरणे मर्यादित आहेत. सर्वात सामान्य उपायांपैकी एक म्हणजे न्यूरल नेटवर्कचे अतिरिक्त स्तर CPU सिस्टम मेमरीवर ऑफलोड करणे. तथापि, हा दृष्टिकोन गंभीर कार्यप्रदर्शन समस्येने ग्रस्त आहे. CPU मेमरीमध्ये CUDA सुसंगततेच्या अभावामुळे GPU आणि CPU दरम्यान मोठ्या प्रमाणात आणि जटिल डेटा ट्रान्सफरची आवश्यकता होती, ज्यामुळे टोकन जनरेशनची गती दहा पटीने कमी होऊ शकते.
शोधण्यात आलेला दुसरा पर्याय म्हणजे मॉडेलच्या क्वांटायझेशन पातळीमध्ये तीव्र घट. यामुळे स्मरणशक्तीची मागणी कमी झाली असली तरी, LLM च्या अनुमान आणि तार्किक तर्क क्षमतांमध्ये लक्षणीय घट झाली. गुणवत्ता राखण्यासाठी, 48GB किंवा अधिक VRAM सह एंटरप्राइझ-ग्रेड GPU मध्ये गुंतवणूक करणे हा एकमेव व्यवहार्य पर्याय होता, जो संपूर्ण वर्कस्टेशनच्या खर्चापेक्षा जास्त आहे आणि वैयक्तिक विकासक आणि मर्यादित बजेट असलेल्या स्टार्टअप्सच्या आवाक्याबाहेर आहे.
GreenBoost चे नाविन्यपूर्ण 3-स्तरीय आर्किटेक्चर
GreenBoost हा केवळ ड्रायव्हर ट्वीक किंवा स्टॉपगॅप उपाय नाही; GPLv2 अंतर्गत परवानाकृत लिनक्स कर्नल मॉड्यूल काळजीपूर्वक डिझाइन केलेले आहे. हे स्वतंत्रपणे आणि अधिकृत NVIDIA ड्रायव्हर्सच्या समांतरपणे कार्य करते, थेट CUDA मेमरी ऍलोकेशन लेयरमध्ये हस्तक्षेप करते. हा कल्पक हस्तक्षेप GPU ड्रायव्हरला “बाह्य मेमरी” म्हणून सिस्टम RAM ओळखण्याची परवानगी देतो, मेमरी विस्तार आर्किटेक्चर तयार करतो जे कार्यप्रदर्शन आणि क्षमता ऑप्टिमाइझ करण्यासाठी तीन भिन्न स्तरांवर कार्य करते.
पहिला स्तर, T1 म्हणून ओळखला जातो, मूळ VRAM जीपीयूमध्ये एकत्रित केला जातो. GeForce RTX 5070 वापरून चाचणी वातावरणात, त्याच्या 12 GB क्षमतेसह आणि अंदाजे 336 GB/s च्या बँडविड्थसह, हा स्तर गणनासाठी महत्त्वपूर्ण मार्ग बनतो. हे अनुमान प्रक्रियेदरम्यान सर्वात जास्त प्रवेश केलेले सक्रिय स्तर संग्रहित करते, सर्वात जास्त मागणी असलेल्या ऑपरेशन्ससाठी जास्तीत जास्त वेग सुनिश्चित करते.
दुसरा स्तर, T2, मदरबोर्ड सिस्टमच्या DDR4 किंवा DDR5 RAM मेमरीपासून बनलेला आहे. PCIe 4.0 x16 लिंकद्वारे GPU शी कनेक्ट केलेले, ते अंदाजे 32 GB/s चा वेग देते. हा स्तर स्थिर मॉडेल वजन डेटा आणि महत्त्वपूर्ण की-व्हॅल्यू (KV) कॅशेसाठी एक कार्यक्षम स्टोरेज एरिया म्हणून काम करतो, जे LLM साठी विस्तृत संदर्भ राखण्यासाठी आणि संदर्भ देण्यासाठी महत्त्वपूर्ण आहे, ज्यामुळे AI अधिक व्यापक माहितीसह कार्य करू शकते.
शेवटी, सुरक्षिततेचा तिसरा स्तर, T3, NVMe स्टोरेज आहे. सुमारे 1.8 GB/s च्या तुलनेने कमी गतीसह स्वॅप स्पेस म्हणून वाटप केले जाते, कोणत्याही मेमरी ओव्हरफ्लो शोषून घेण्यासाठी ते मॅप केले जाते. हा स्तर केवळ अपवादात्मक परिस्थितीतच कार्यात येतो, जेव्हा VRAM आणि सिस्टम RAM दोन्ही पूर्णपणे संपलेले असतात, अत्यंत वापराच्या परिस्थितीत सिस्टम अपयश टाळण्यासाठी एक सुरक्षा उपाय ऑफर करते.
एकीकरणामागील सुसंस्कृतपणा
GreenBoost ची तांत्रिक बुद्धिमत्ता कर्नल आणि वापरकर्ता-स्पेस घटक अखंडपणे सहकार्य करण्याच्या पद्धतीमध्ये आहे. कर्नल मॉड्यूल (`greenboost.ko`) पेजिंग ओव्हरहेड आणि फ्रॅगमेंटेशन काढून टाकून, DDR4 मध्ये एक मोठी पृष्ठ जागा आरक्षित करण्यासाठी ऑप्टिमाइझ केलेल्या मेमरी वाटपकर्त्याचा वापर करते. ही जागा DMA-BUF फाइल वर्णनकर्ता म्हणून निर्यात केली जाते, ज्यामुळे थेट मेमरी प्रवेश मिळतो.
GPU नंतर ही ऑपरेटिंग सिस्टम पृष्ठे `cudaImportExternalMemory` API द्वारे CUDA बाह्य मेमरी म्हणून आयात करते. या प्रक्रियेमुळे CUDA प्लॅटफॉर्म भौतिक DDR4 पृष्ठांचा अर्थ लावतो जसे की ते थेट ग्राफिक्स कार्डशी जोडलेले मेमरी आहेत, मदरबोर्ड आर्किटेक्चरला मुखवटा लावतात. CPU द्वारे अनावश्यक कॉपी सायकल काढून टाकून PCI एक्सप्रेस 4.0 बस द्वारे डेटा हालचाली नंतर DMA हस्तांतरण म्हणून व्यवस्थापित केल्या जातात.
वापरकर्ता स्पेसमध्ये, `libgreenboost_cuda.so` लायब्ररी स्मार्ट इंटरसेप्टर म्हणून काम करते. `LD_PRELOAD` द्वारे डायनॅमिकरित्या घातलेले, ते `cudaMalloc` आणि `cudaFree` सारखे API कॉल्स इंटरसेप्ट करते. लहान वाटप विनंत्या विलंब न करता थेट मूळ VRAM वर पाठवल्या जातात. तथापि, VRAM मर्यादा ओलांडणाऱ्या मोठ्या विनंत्या कर्नलमधील GreenBoost मॉड्यूलकडे पुनर्निर्देशित केल्या जातात, जे सिस्टम RAM मधून आवश्यक मेमरी वाटप करते आणि वैध CUDA डिव्हाइस पॉइंटर म्हणून अनुप्रयोगात परत करते. `dlopen` आणि `dlsym` वापरणाऱ्या अनुमानित इंजिनसाठी, GreenBoost कडे काउंटरमेजर्स आहेत, ते `dlsym` फंक्शनलाच व्यत्यय आणतात आणि RAM वर जबरदस्तीने ऑफलोड करण्यासाठी नोंदवलेले VRAM क्षमता देखील बदलतात.
ऑप्टिमायझर्स आणि व्यावहारिक कामगिरीसह समन्वय
GreenBoost हे बहुआयामी ऑप्टिमायझेशन टूलसेट ऑफर करून नवीनतम अनुमान पद्धतींसोबत काम करण्यासाठी डिझाइन केले आहे. एक उदाहरण म्हणजे त्याचे `ExLlamaV3` सह एकत्रीकरण, एक अनुमान इंजिन जे GreenBoost द्वारे प्रदान केलेल्या KV कॅशे लेयर पथला मूळपणे समर्थन देते. हे मॉडेलच्या KV टेन्सरला `/dev/greenboost` वरून Python ला `mmap` प्रवेशाद्वारे कॉपी न करता, I/O ओव्हरहेड काढून टाकून आणि कार्यप्रदर्शन सुधारण्यास अनुमती देते.
100,000 टोकन्सपेक्षा जास्त लांब संदर्भांसाठी, `kvpress` टूल सिस्टीम RAM बँडविड्थवरील ओव्हरहेड कमी करण्यासाठी संयोगाने वापरले जाऊ शकते. अधिक मूलभूतपणे, NVIDIA ModelOpt, NVIDIA चे अधिकृत ऑप्टिमायझेशन साधन सह एकत्रीकरण, 31.8GB मॉडेल्सना पुन्हा प्रशिक्षण न देता कार्यक्षम FP8 फॉरमॅटमध्ये रूपांतरित करण्याची परवानगी देते, आकार 16GB पेक्षा कमी करते. हे धोरणात्मक संयोजन, जे VRAM ला मॉडेल वेट्स आणि सिस्टम RAM ला KV कॅशेमध्ये वाटप करते, GeForce RTX 5070 वर 10 ते 25 टोकन प्रति सेकंद (tok/s) सरासरी अनुमानित गती प्रदर्शित केली आहे, बेंचमार्क वातावरणाच्या तुलनेत लक्षणीय वाढ (2 ते 5 tok/s).
PCIe 4.0 बस आव्हान
एक क्रांतिकारी दृष्टीकोन असूनही, GreenBoost हार्डवेअरच्या मूलभूत भौतिक मर्यादा दूर करत नाही. फेरान दुआरी, विकसक, सर्वात मोठ्या अडथळ्याबद्दल पारदर्शक आहे: कमाल PCIe 4.0 x16 बस ट्रान्सफर बँडविड्थ अंदाजे 32 GB/s. आधुनिक GPUs चे इंटिग्रेटेड VRAM शेकडो GB/s, किंवा अगदी 1 TB/s पेक्षा जास्त हाय-एंड मॉडेलमध्ये ऑफर करत असताना, PCIe द्वारे सिस्टीम RAM मध्ये प्रवेश करण्याची गती लक्षणीयरीत्या कमी आहे, अनेकदा दहाव्यापेक्षा कमी.
जर मॉडेल वजन डेटा, ज्यामध्ये वारंवार प्रवेश केला जातो, तो VRAM आणि सिस्टम RAM दरम्यान वारंवार हस्तांतरित केला गेला, तर या “थ्रॅशिंग” मुळे पाइपलाइनमध्ये बराच विलंब होईल. त्याचप्रमाणे, जरी NVMe ड्राइव्ह्स अनुक्रमिक प्रवेशासाठी कार्यक्षम असले तरी, अनुमानादरम्यान लहान ब्लॉक्समध्ये लाखो रँडम ऍक्सेस ऑपरेशन्स हाताळताना स्वॅप लेयरमधील कार्यप्रदर्शन नाटकीयरित्या खराब होऊ शकते. GreenBoost ची क्षमता वाढवण्याचा आदर्श उपाय एका मॉड्यूलमध्ये नाही तर वर्कलोडचे बुद्धिमत्तापूर्वक विभाजन करणे, VRAM (T1) मध्ये डेटाचे वजन कमीत कमी ठेवण्यासाठी FP8 आणि INT4-AWQ सारख्या नवीनतम पॅरामीटर क्वांटायझेशन तंत्रज्ञानाचा वापर करणे आणि केव्ही कॅशे वर हलवणे, जे डीडीआर 2 (डीडीआर 2) वेळेत वाढवते.
AI पायाभूत सुविधांसाठी परिणाम
ओपन सोर्स म्हणून ग्रीनबूस्टचे प्रकाशन हे ग्राहक GPU मार्केटद्वारे लादलेल्या कृत्रिम मर्यादांविरुद्ध विकसक समुदायाकडून तीव्र प्रतिसाद दर्शवते, जेथे संगणकीय शक्ती जास्त असते परंतु VRAM औद्योगिक वापरास मर्यादित करते. ॲपल एम-सिरीज आर्किटेक्चरमध्ये दिसणाऱ्या युनिफाइड मेमरी अनुभवाचे सॉफ्टवेअरद्वारे अनुकरण करण्याचा हा एक प्रयत्न आहे, जे हे तंत्रज्ञान सध्याच्या पीसी प्लॅटफॉर्ममध्ये समाकलित करून, महागड्या HBM मॉड्यूल्सची गरज न ठेवता मोठ्या प्रमाणात AI अनुमान सक्षम करते.
ही अंमलबजावणी पद्धत एंटरप्राइझ-ग्रेड एआय प्रवेगकांच्या वाढत्या किमतींविरूद्ध वैयक्तिक संशोधक आणि लहान ते मध्यम आकाराच्या AI विकास परिसंस्थांसाठी एक शक्तिशाली प्रतिकार प्रदान करते. सध्या GeForce RTX 5070 वर प्रात्यक्षिक, स्त्रोत कोडच्या उपलब्धतेसह, Ada Lovelace आणि Ampere आर्किटेक्चर कार्ड असलेल्या वापरकर्त्यांच्या विस्तृत श्रेणीने सोल्यूशनची पडताळणी आणि रुपांतर करणे अपेक्षित आहे. हार्डवेअर-अंमलबजावणीची स्केलेबिलिटी एका पठारावर पोहोचली असताना, कर्नल व्यवस्थापनापासून PCI-एक्सप्रेस इंटरफेस आणि CUDA पर्यावरणापर्यंतच्या जटिल स्तरांना बायपास करून, फेरान दुआरीचा दृष्टीकोन, भविष्यात वितरित AI पायाभूत सुविधांना तोंड देण्याची गरज असलेल्या मेमरी व्यवस्थापन आव्हानांकडे निर्देश करते. जगभरातील विकासक हा अडथळा दूर करण्यासाठी पर्याय तयार करत आहेत.

