GreenBoost: modil Linux transfòme RAM nan memwa CUDA ak revolisyone itilizasyon LLM ak NVIDIA.

NVIDIA

NVIDIA - Stock all / Shutterstock.com

Senaryo devlopman entèlijans atifisyèl lokal la ap sibi yon transfòmasyon enpòtan ak arive GreenBoost. Este modil inovatè pou nwayo a Linux pwomès yo simonte youn nan baryè prensipal yo fè fas pa devlopè ak chèchè yo: limit la nan memwa videyo (VRAM) sou konsomatè kat NVIDIA. Lè yo konvèti RAM sistèm nan yon resous ki ka itilize pa achitekti CUDA a, GreenBoost ouvri nouvo pòt pou kouri modèl konplèks gwo echèl lang (LLM) dirèkteman sou PC komodite.

Inisyativ la, ki te devlope pa pwogramè endepandan Ferran Duarri, reprezante yon avansman enpòtan nan yon anviwònman kote kenkayri gwo kapasite, tankou GPU nan klas antrepriz ak VRAM abondan, pa aksesib pou pifò. Solisyon an konsantre sou optimize itilizasyon resous ki egziste deja yo, sa ki pèmèt pouvwa enfòmatik NVIDIA GPU yo dwe konplètman eksplwate menm avèk kontrent VRAM, ranfòse rechèch ak devlopman nan AI sous louvri.

Kapasite nan kouri modèl ki te deja mande dè dizèn de gigaocte nan memwa, tankou “glm-4.7-flash:q8_0” ak 31.8 GB memwa li yo, sou ekipman konsomatè yo te yon defi prèske enfranchisabl. Apwòch tradisyonèl yo souvan lakòz anbouteyaj pèfòmans oswa bon jan kalite enferans degrade, ki fè entèraksyon pratik ak modèl sa yo enposib pou anpil amater ak ti devlopè.

Simonte baryè VRAM tradisyonèl yo

Istorikman, estrateji pou fè fas ak mank VRAM nan GPU konsomatè yo te limite. Youn nan solisyon ki pi komen se te dechaje kouch sipli rezo neral la nan memwa sistèm CPU a. Sepandan, apwòch sa a te soufri nan yon pwoblèm pèfòmans grav. Mank koerans CUDA nan memwa CPU te egzije transfè done masiv ak konplèks ant GPU a ak CPU, sa ki te kreye yon kou boutèy ki ta ka diminye vitès jenerasyon siy jiska dis fwa.

Yon lòt altènatif eksplore te rediksyon radikal nan nivo quantization modèl la. Embora sa a redwi demann pou memwa, te akonpaye pa yon degradasyon enpòtan nan enferans ak kapasite rezònman lojik LLM la. Para kenbe bon jan kalite, sèlman opsyon solid la se te envesti nan GPU ki gen 48 GB oswa plis VRAM, yon depans ki depase pri a nan yon estasyon travay konplè epi ki pa rive pou devlopè endividyèl ak demaraj ki gen bidjè limite.

Achitekti inovatè 3-niveau GreenBoost la

GreenBoost se pa sèlman yon tweak chofè oswa solisyon stopgap; se yon modil nwayo Linux ki fèt ak anpil atansyon ki gen lisans anba GPLv2. Ele aji endepandamman ak paralèl ak chofè ofisyèl NVIDIA yo, entèvni dirèkteman nan kouch alokasyon memwa CUDA. Essa entèvansyon enjenyeu pèmèt chofè GPU a rekonèt sistèm RAM kòm “memwa ekstèn”, kreye yon achitekti ekspansyon memwa ki opere nan twa nivo diferan pou optimize pèfòmans ak kapasite.

Premye kouch la, ke yo rekonèt kòm T1, se VRAM orijinal la entegre nan GPU la. Nan yon anviwònman tès lè l sèvi avèk yon GeForce RTX 5070, ak 12 GB kapasite ak Pleasant apeprè 336 GB / s, kouch sa a vin chemen an kritik pou kalkil. Ela estoke kouch aktif yo jwenn plis aksè pandan pwosesis enferans la, asire vitès maksimòm pou operasyon ki pi egzijan yo.

Dezyèm nivo a, T2, fèt ak memwa DDR4 oswa DDR5 RAM sistèm plak mèr la. Conectada nan GPU atravè yon lyen PCIe 4.0 x16, ofri yon vitès apeprè 32 GB / s. Nivo Este a sèvi kòm yon zòn depo efikas pou done pwa modèl estatik ak yon gwo kachèt kle-valè (KV), ki enpòtan anpil pou LLM yo kenbe ak referans gwo kontèks, sa ki pèmèt AI travay ak plis enfòmasyon konplè.

Finalman, twazyèm kouch sekirite a, T3, se depo NVMe. Alocado kòm yon espas swap ak yon vitès relativman pi dousman sou 1.8 GB/s, li se trase pou absòbe nenpòt debòde memwa. Kouch Esta antre nan jwèt sèlman nan sitiyasyon eksepsyonèl, lè tou de VRAM ak RAM sistèm yo konplètman fin itilize, ofri yon pwoteksyon pou anpeche echèk sistèm nan senaryo itilizasyon ekstrèm.

Konplike a dèyè entegrasyon

Entèlijans teknik GreenBoost la chita nan fason nwayo ak eleman espas itilizatè yo kolabore san pwoblèm. Modil nwayo a (`greenboost.ko`) itilize yon alokasyon memwa optimize pou rezève yon gwo espas paj nan DDR4, sa ki elimine sou tèt paging ak fwagmantasyon. Esses espas yo ekspòte kòm deskriptè fichye DMA-BUF, ki pèmèt aksè dirèk memwa.

Lè sa a, GPU a enpòte paj sistèm operasyon sa yo kòm memwa ekstèn CUDA atravè API `cudaImportExternalMemory`. Pwosesis Esse lakòz platfòm CUDA a entèprete paj fizik DDR4 yo kòmsi yo te memwa ki konekte dirèkteman ak kat grafik la, maske achitekti mèr la. Lè sa a, mouvman done yo jere kòm yon transfè DMA atravè otobis PCI Express 4.0, elimine sik kopi ki pa nesesè pa CPU a.

Nan espas itilizatè a, bibliyotèk `libgreenboost_cuda.so` aji kòm yon entèrsèptè entelijan. Inserida dinamik atravè `LD_PRELOAD`, li entèsepte apèl API tankou `cudaMalloc` ak `cudaFree`. Requisições ti alokasyon yo voye dirèkteman nan VRAM orijinal la san latansi. Sepandan, gwo demann ki depase limit VRAM yo redireksyon sou modil GreenBoost nan nwayo a, ki asiyen memwa ki nesesè nan RAM sistèm lan epi retounen li nan aplikasyon an kòm yon pointeur aparèy CUDA lejitim. Para motè enferans ki itilize `dlopen` ak `dlsym`, GreenBoost gen kont mezi, entèsepte fonksyon `dlsym` nan tèt li e menm chanje kapasite VRAM rapòte a pou fòse dechajman nan RAM.

Sinèrji ak optimiseurs ak pèfòmans pratik

GreenBoost fèt pou travay ansanm ak dènye apwòch enferans yo, ki ofri yon seri zouti optimize plizyè aspè. Yon egzanp se entegrasyon li ak `ExLlamaV3`, yon motè enferans ki sipòte nativman chemen kouch kachèt KV GreenBoost bay. Isso pèmèt tansè KV modèl la dwe afekte dirèkteman nan `/dev/greenboost` nan Python atravè aksè `mmap` san yo pa kopye, elimine I/O anlè ak amelyore pèfòmans.

Pou kontèks long ki depase 100,000 marqueur, zouti `kvpress` ka itilize ansanm pou redwi anlè sou bandwidth RAM sistèm lan. Mais Entegrasyon ak NVIDIA ModelOpt, zouti optimize ofisyèl NVIDIA, pèmèt modèl 31.8GB konvèti nan fòma FP8 efikas san yo pa bezwen refòmasyon, diminye gwosè a a mwens pase 16GB. Essa konbinezon estratejik, ki asiyen VRAM nan pwa modèl ak RAM sistèm nan kachèt KV, te demontre vitès mwayèn enferans nan 10 a 25 marqueur pou chak segonn (tok / s) sou GeForce RTX 5070 a, yon ogmantasyon siyifikatif konpare ak anviwònman an referans (2 a 5 tok / s).

Defi otobis PCIe 4.0 la

Malgre ke se yon apwòch revolisyonè, GreenBoost pa elimine limit fizik fondamantal yo nan pyès ki nan konpitè. Ferran Duarri, pwomotè a, transparan sou pi gwo blokaj la: lajè transfè maksimòm otobis PCIe 4.0 x16 apeprè 32 GB/s. Enquanto VRAM entegre nan GPU modèn yo ofri dè santèn de GB / s, oswa menm plis pase 1 TB / s nan modèl-wo fen, vitès la nan aksè nan RAM sistèm atravè PCIe se siyifikativman pi dousman, souvan mwens pase yon dizyèm.

Si done pwa modèl yo, ki gen aksè souvan, yo transfere ant VRAM ak RAM sistèm repete, “thrashing” sa a pral lakòz yon reta konsiderab nan tiyo a. Da Menm jan an tou, byenke NVMe kondui yo efikas pou aksè sekans, pèfòmans nan kouch swap la ka degrade dramatikman lè w ap fè fas ak dè milyon de operasyon aksè o aza nan ti blòk pandan enferans. Solisyon ideyal la pou maksimize potansyèl GreenBoost la pa chita nan yon sèl modil, men nan entèlijan divize kantite travay la, itilize dènye teknoloji quantization paramèt tankou FP8 ak INT4-AWQ pou kenbe pwa done yo nan yon minimòm nan VRAM (T1) epi deplase kachèt KV a, ki ap grandi sou tan, nan DDR4 RAM (T2).

Enplikasyon pou enfrastrikti AI

Liberasyon GreenBoost kòm sous louvri reprezante yon repons solid nan men kominote devlopè a kont limit atifisyèl yo enpoze pa mache GPU konsomatè a, kote pouvwa enfòmatik wo men VRAM limite limite itilizasyon endistriyèl. Li se yon tantativ pou imite, atravè lojisyèl, eksperyans memwa inifye yo wè nan achitekti Apple M-seri a, ki pèmèt enferans AI masiv san yo pa bezwen modil HBM chè, nan entegre teknoloji sa a nan platfòm PC ki deja egziste.

Metòd aplikasyon sa a ofri yon kontremèd pwisan pou chèchè endividyèl yo ak ekosistèm devlopman AI ti ak mwayen gwosè kont ogmantasyon pri yo nan akseleratè AI-klas antrepriz. Atualmente demontre sou GeForce RTX 5070 a, ak disponiblite a nan kòd sous la, li espere ke yon pakèt itilizatè ki gen kat nan achitekti Ada Lovelace ak Ampere pral verifye ak adapte solisyon an. Nan yon moman kote ke kenkayri-anfòse évolutivité te rive nan yon plato, Ferran Duarri apwòch la, pa kontoune kouch konplèks soti nan jesyon nwayo nan koòdone PCI-Express la ak anviwònman an CUDA, montre defi jesyon memwa ke enfrastrikti AI distribye nan lavni ap bezwen adrese. Desenvolvedores atravè mond lan kontinye kreye altènativ pou evite baryè sa a.