Сенарияи рушди зеҳни сунъии маҳаллӣ бо фарорасии GreenBoost тағироти назаррасро аз сар мегузаронад. Модули инноватсионии Este барои ядрои Linux ваъда медиҳад, ки яке аз монеаҳои асосиеро, ки таҳиягарон ва муҳаққиқон дучор мешаванд, бартараф мекунад: маҳдудияти хотираи видео (VRAM) дар кортҳои истеъмолии NVIDIA. Бо табдил додани хотираи RAM-и система ба захирае, ки аз ҷониби меъмории CUDA истифода мешавад, GreenBoost дарҳои навро барои иҷро кардани моделҳои мураккаби забонҳои калонҳаҷм (LLM) мустақиман дар компютерҳои молӣ мекушояд.
Ташаббус, ки аз ҷониби барномасози мустақил Ferran Duarri таҳия шудааст, як пешравии муҳим дар муҳитест, ки таҷҳизоти иқтидори баланд, ба монанди GPU-ҳои дараҷаи корхона бо VRAM-и фаровон барои аксарият дастнорас аст. Ҳал ба оптимизатсияи истифодаи захираҳои мавҷуда тамаркуз карда, имкон медиҳад, ки қудрати ҳисоббарории NVIDIA GPU-ҳо ҳатто бо маҳдудиятҳои VRAM пурра истифода шавад ва таҳқиқот ва рушдро дар AI манбаи кушода афзоиш диҳад.
Қобилияти иҷро кардани моделҳое, ки қаблан даҳҳо гигабайт хотираро талаб мекарданд, ба мисли “glm-4.7-flash:q8_0” бо хотираи 31,8 ГБ дар таҷҳизоти истеъмолӣ як мушкили қариб бартарафнашаванда буд. Равишҳои анъанавӣ аксар вақт ба монеаҳои иҷроиш ё паст шудани сифати хулоса оварда мерасонанд, ки ҳамкории амалӣ бо ин моделҳоро барои бисёре аз ҳаваскорон ва таҳиягарони хурд номумкин мегардонд.
Бартараф кардани монеаҳои анъанавии VRAM
Таърихан, стратегияҳо барои мубориза бо норасоии VRAM дар GPU-ҳои истеъмолӣ маҳдуд буданд. Яке аз роҳҳои маъмултарин бор кардани қабатҳои зиёдатии шабакаи нейрон ба хотираи системаи CPU буд. Бо вуҷуди ин, ин равиш аз мушкилоти ҷиддии иҷроиш дучор омад. Набудани ҳамоҳангии CUDA дар хотираи CPU интиқоли азим ва мураккаби маълумотро байни GPU ва CPU талаб мекард, ки монеа эҷод мекунад, ки метавонад суръати тавлиди токенҳоро то даҳ маротиба кам кунад.
Дигар алтернативаи таҳқиқшуда ин коҳиши шадиди сатҳи квантизатсияи модел буд. Embora ин талаботро ба хотира коҳиш дод, бо таназзули назарраси қобилиятҳои хулосабарорӣ ва тафаккури мантиқии LLM ҳамроҳӣ мекард. Para нигоҳ доштани сифат, ягона варианти қобили қабул сармоягузорӣ ба GPU-ҳои дараҷаи корхона бо 48 ГБ ё бештар аз VRAM буд, ки ин хароҷот аз арзиши як истгоҳи пурраи корӣ зиёдтар аст ва барои таҳиягарон ва стартапҳои инфиродӣ бо буҷаҳои маҳдуд дастрас нест.
Меъмории инноватсионии 3-зинаи GreenBoost
GreenBoost на танҳо як роҳи ҳалли драйвер ё таваққуф аст; модули ядрои Linux бодиққат тарҳрезӣ шудааст, ки дар доираи GPLv2 иҷозатнома дорад. Ele мустақилона ва дар баробари драйверҳои расмии NVIDIA амал карда, бевосита ба қабати тақсимоти хотираи CUDA дахолат мекунад. Дахолати оқилонаи Essa ба ронандаи GPU имкон медиҳад, ки RAM-и системаро ҳамчун “хотираи беруна” эътироф кунад ва меъмории тавсеаи хотираро эҷод кунад, ки дар се сатҳҳои гуногун барои оптимизатсияи кор ва қобилият кор мекунад.
Қабати аввал, ки бо номи T1 маълум аст, VRAM-и аслии ба GPU пайвастшуда мебошад. Дар муҳити санҷишӣ бо истифода аз GeForce RTX 5070, бо иқтидори 12 ГБ ва фарохмаҷрои тақрибан 336 ГБ/с, ин қабат роҳи муҳими ҳисобкунӣ мегардад. Ela қабатҳои фаъолеро, ки дар ҷараёни хулосабарорӣ бештар дастрас мешаванд, нигоҳ медорад ва суръати ҳадди аксарро барои амалиётҳои серталаб таъмин мекунад.
Сатҳи дуюм, T2, аз хотираи RAM DDR4 ё DDR5 системаи motherboard иборат аст. Conectada ба GPU тавассути пайванди PCIe 4.0 x16, суръати тақрибан 32 ГБ/с пешниҳод мекунад. Сатҳи Este ҳамчун як минтақаи муассири нигаҳдории маълумот барои вазни модели статикӣ ва кэши назарраси арзиши калидӣ (KV) хидмат мекунад, ки барои LLMҳо барои нигоҳдорӣ ва истинод ба контекстҳои калон муҳим аст ва ба AI имкон медиҳад, ки бо маълумоти ҳамаҷониба кор кунад.
Ниҳоят, қабати сеюми амният, T3, нигаҳдории NVMe мебошад. Alocado ҳамчун фазои своп бо суръати нисбатан сусттар тақрибан 1,8 ГБ/с, он барои азхудкунии ҳама гуна изофабори хотира харита шудааст. Қабати Esta танҳо дар ҳолатҳои истисноӣ, вақте ки ҳам VRAM ва ҳам RAM-и система комилан тамом мешаванд, ба кор медарояд, ки барои пешгирии нокомии система дар сенарияҳои истифодаи шадид кафолат пешниҳод мекунад.
Мукаммалии паси ҳамгироӣ
Зеҳни техникии GreenBoost дар роҳи ҳамкории бефосилаи ҷузъҳои ядро ва фазои корбар вобаста аст. Модули ядро (`greenboost.ko`) ҷудокунандаи хотираи оптимизатсияшударо барои захира кардани фазои калони саҳифа дар DDR4 истифода мебарад, ки сарбории пейджинг ва фрагментатсияро аз байн мебарад. Фосилаҳои Esses ҳамчун дескрипторҳои файли DMA-BUF содир карда мешаванд, ки дастрасии мустақими хотираро фароҳам меорад.
Сипас GPU ин саҳифаҳои системаи амалиётиро ҳамчун хотираи берунии CUDA тавассути API ‘cudaImportExternalMemory’ ворид мекунад. Раванди Esse боиси он мегардад, ки платформаи CUDA саҳифаҳои физикии DDR4-ро тавре тафсир кунад, ки гӯё онҳо хотираи мустақим ба корти графикӣ пайваст шуда, меъмории motherboardро ниқоб мекунанд. Пас аз он ҳаракати маълумот ҳамчун интиқоли DMA тавассути автобуси PCI Express 4.0 идора карда мешавад, ки давраҳои нолозими нусхабардориро аз ҷониби CPU бартараф мекунад.
Дар фазои корбар китобхонаи `libgreenboost_cuda.so` ҳамчун интерсептори интеллектуалӣ амал мекунад. Inserida ба таври динамикӣ тавассути ‘LD_PRELOAD’, он зангҳои API-ро ба монанди ‘cudaMalloc’ ва ‘cudaFree’ халалдор мекунад. Requisições тақсимоти хурд мустақиман ба VRAM-и аслӣ бе таъхир фиристода мешаванд. Бо вуҷуди ин, дархостҳои калоне, ки аз ҳудуди VRAM зиёданд, ба модули GreenBoost дар ядро равона карда мешаванд, ки хотираи заруриро аз RAM система ҷудо мекунад ва онро ба барнома ҳамчун нишондиҳандаи қонунии дастгоҳи CUDA бармегардонад. Муҳаррикҳои хулосабарории Para, ки `dlopen` ва `dlsym`-ро истифода мебаранд, GreenBoost чораҳои муқобил дорад, ки худи функсияи `dlsym`-ро бозмедоранд ва ҳатто қобилияти VRAM-и гузоришшударо барои маҷбур кардани боркунӣ ба хотираи оперативӣ тағир медиҳанд.
Синергия бо оптимизаторҳо ва иҷрои амалӣ
GreenBoost барои кор кардан дар баробари равишҳои охирини хулосабарорӣ тарҳрезӣ шудааст ва маҷмӯи абзорҳои бисёрҷанбаи оптимизатсияро пешниҳод мекунад. Як мисол ин ҳамгироии он бо ‘ExLlamaV3’, як муҳаррики хулосабарорӣ мебошад, ки роҳи қабати кэши KV-ро, ки аз ҷониби GreenBoost пешниҳод шудааст, дастгирӣ мекунад. Isso имкон медиҳад, ки тензорҳои КВ-и модел мустақиман аз `/dev/greenboost` ба Python тавассути дастрасии `mmap` бе нусхабардорӣ ҷудо карда, хароҷоти воридот ва баромадро аз байн бардорад ва иҷрои онро беҳтар созад.
Барои контекстҳои тӯлоние, ки аз 100,000 токен зиёданд, асбоби `kvpress’ метавонад дар якҷоягӣ барои кам кардани сарбории фарохмаҷрои RAM-и система истифода шавад. Mais Муҳим аст, ки ҳамгироӣ бо NVIDIA ModelOpt, воситаи расмии оптимизатсияи NVIDIA, имкон медиҳад, ки моделҳои 31,8 ГБ бидуни ниёз ба бозомӯзӣ ба формати муассири FP8 табдил дода шаванд ва андозаи он то камтар аз 16 ГБ кам карда шавад. Комбинатсияи стратегии Essa, ки VRAM-ро барои вазнҳои моделӣ ва хотираи RAM-и система ба кэши KV ҷудо мекунад, суръати миёнаи хулосабарориро аз 10 то 25 токен дар як сония (ток/с) дар GeForce RTX 5070 нишон дод, ки дар муқоиса бо муҳити истинод (2 то 5 ток/с).
Мушкилоти автобуси PCIe 4.0
Сарфи назар аз як равиши инқилобӣ, GreenBoost маҳдудиятҳои асосии физикии сахтафзорро бартараф намекунад. Ferran Duarri, таҳиякунанда, дар бораи бузургтарин мушкилот шаффоф аст: автобуси PCIe 4.0 x16 паҳнои интиқоли ҳадди аксар тақрибан 32 ГБ/с. Enquanto VRAM-и ҳамгирошудаи GPU-ҳои муосир садҳо ГБ/с ё ҳатто бештар аз 1 ТБ/с дар моделҳои олӣ пешниҳод мекунад, суръати дастрасии RAM-и система тавассути PCIe хеле сусттар аст, аксар вақт камтар аз даҳяк.
Агар маълумоти вазни модел, ки зуд-зуд дастрас карда мешавад, байни VRAM ва хотираи RAM система такроран интиқол дода шавад, ин “зарба” боиси таъхири назаррас дар лӯла мегардад. Da Ба ҳамин монанд, гарчанде ки дискҳои NVMe барои дастрасии пайдарпай самараноканд, иҷроиш дар қабати своп ҳангоми кор бо миллионҳо амалиёти дастрасии тасодуфӣ дар блокҳои хурд ҳангоми хулосабарорӣ метавонад ба таври назаррас коҳиш ёбад. Ҳалли беҳтарин барои ба ҳадди аксар расонидани потенсиали GreenBoost на дар як модул, балки дар тақсимоти оқилонаи сарбории корӣ, истифодаи технологияҳои навтарини квантизатсияи параметрҳо ба монанди FP8 ва INT4-AWQ барои нигоҳ доштани вазни маълумот дар VRAM (T1) ва интиқоли кэши KV, ки бо мурури замон афзоиш меёбад, ба DDR4 RAM (T2) ҷойгир аст.
Таъсири инфрасохтори AI
Нашри GreenBoost ҳамчун манбаи кушода вокуниши қавии ҷомеаи таҳиягаронро бар зидди маҳдудиятҳои сунъии аз ҷониби бозори GPU истеъмолкунанда ҷорӣ мекунад, ки дар он қудрати ҳисоббарорӣ баланд аст, аммо маҳдуди VRAM истифодаи саноатиро маҳдуд мекунад. Ин як кӯшиши тақлид кардани таҷрибаи хотираи ягонаи меъмории силсилаи Apple мебошад, ки бидуни ниёз ба модулҳои гаронарзиши HBM, тавассути ҳамгироии ин технология ба платформаҳои мавҷудаи компютерӣ хулосаҳои азими AI фароҳам меорад.
Ин усули татбиқ барои муҳаққиқони инфиродӣ ва экосистемаҳои хурд ва миёна барои рушди AI бар зидди хароҷоти афзояндаи суръатбахшҳои AI-и дараҷаи корхона як чораи пурқувватро пешниҳод мекунад. Atualmente дар GeForce RTX 5070 намоиш дода шудааст, ки бо мавҷудияти коди ибтидоӣ интизор меравад, ки доираи васеи корбарон бо кортҳои меъмории Ada Lovelace ва Ampere ҳалли худро тафтиш ва мутобиқ кунанд. Дар замоне, ки миқёспазирии сахтафзор ба сатҳи баланд расидааст, равиши Ferran Duarri бо гузашти қабатҳои мураккаб аз идоракунии ядро то интерфейси PCI-Express ва муҳити CUDA, ба мушкилоти идоракунии хотира ишора мекунад, ки инфрасохторҳои тақсимшудаи AI дар оянда бояд ҳал кунанд. Desenvolvedores дар саросари ҷаҳон эҷоди алтернативаҳоро барои гузаштан аз ин монеа идома медиҳанд.

