News (SV)

GreenBoost: Linux-modul förvandlar RAM till CUDA-minne och revolutionerar användningen av LLM med NVIDIA

Av Beatriz • 16 mars 2026 • 9 min de leitura

WhatsApp Twitter Facebook Seguir no Google E-mail

Foto: NVIDIA - Stock all / Shutterstock.com

Det lokala utvecklingsscenariot för artificiell intelligens genomgår en betydande förvandling med ankomsten av GreenBoost. Este innovativ modul för Linux kärnan lovar att övervinna en av de största hindren som utvecklare och forskare möter: begränsningen av videominne (VRAM) på konsument-NVIDIA-kort. Genom att konvertera system-RAM till en resurs som kan användas av CUDA-arkitekturen, öppnar GreenBoost nya dörrar för att köra komplexa storskaliga språkmodeller (LLM) direkt på vanliga datorer.

Initiativet, som utvecklats av den oberoende programmeraren Ferran Duarri, representerar ett avgörande framsteg i en miljö där hårdvara med hög kapacitet, såsom GPU:er av företagsklass med rikligt med VRAM, är otillgänglig för de flesta. Lösningen fokuserar på att optimera användningen av befintliga resurser, vilket gör att beräkningskraften hos NVIDIA GPU:er kan utnyttjas fullt ut även med VRAM-begränsningar, vilket ökar forskning och utveckling inom AI med öppen källkod.

Möjligheten att köra modeller som tidigare krävde tiotals gigabyte minne, som “glm-4.7-flash:q8_0” med sina 31,8 GB minne, på konsumentutrustning var en nästan oöverstiglig utmaning. Traditionella tillvägagångssätt resulterade ofta i prestandaflaskhalsar eller försämrad slutledningskvalitet, vilket gjorde praktisk interaktion med dessa modeller omöjlig för många entusiaster och små utvecklare.

Att övervinna traditionella VRAM-barriärer

Historiskt sett har strategier för att hantera VRAM-brister i konsument-GPU:er varit begränsade. En av de vanligaste lösningarna var att ladda ner överskottslagren i det neurala nätverket till CPU-systemets minne. Detta tillvägagångssätt led emellertid av ett allvarligt prestationsproblem. Bristen på CUDA-koherens i CPU-minnet krävde massiva och komplexa dataöverföringar mellan GPU och CPU, vilket skapade en flaskhals som kunde minska tokengenereringshastigheterna med upp till tio gånger.

Ett annat alternativ som utforskades var den drastiska minskningen av modellens kvantiseringsnivå. Embora detta minskade efterfrågan på minne, åtföljdes av en betydande försämring av slutlednings- och logiska resonemangsförmågan hos LLM. Para upprätthåller kvaliteten, det enda genomförbara alternativet var att investera i GPU:er av företagsklass med 48 GB eller mer VRAM, en kostnad som överstiger kostnaden för en komplett arbetsstation och är utom räckhåll för enskilda utvecklare och nystartade företag med begränsad budget.

GreenBoosts innovativa 3-lagers arkitektur

GreenBoost är inte bara en drivrutinjustering eller stopplösning; är en noggrant designad Linux kärnmodul licensierad under GPLv2. Ele agerar oberoende och parallellt med de officiella NVIDIA-drivrutinerna och ingriper direkt i CUDA-minnestilldelningslagret. Essa genialt ingrepp gör att GPU-drivrutinen känner igen system-RAM som “externt minne”, vilket skapar en minnesexpansionsarkitektur som fungerar på tre olika nivåer för att optimera prestanda och kapacitet.

Det första lagret, känt som T1, är den ursprungliga VRAM som är integrerad i GPU:n. I en testmiljö som använder en GeForce RTX 5070, med dess 12 GB kapacitet och bandbredd på cirka 336 GB/s, blir detta lager den kritiska vägen för beräkning. Ela lagrar de aktiva lagren som är mest åtkomliga under slutledningsprocessen, vilket säkerställer maximal hastighet för de mest krävande operationerna.

Den andra nivån, T2, består av moderkortssystemets DDR4 eller DDR5 RAM-minne. Conectada till grafikprocessorn via en PCIe 4.0 x16-länk, erbjuder en hastighet på cirka 32 GB/s. Este-nivån fungerar som ett effektivt lagringsområde för statisk modellviktsdata och en betydande nyckel-värde (KV) cache, vilket är avgörande för att LLM:er ska underhålla och referera till stora sammanhang, vilket gör att AI kan arbeta med mer omfattande information.

Slutligen är det tredje säkerhetsskiktet, T3, NVMe-lagring. Alocado som ett swap-utrymme med en relativt långsammare hastighet på cirka 1,8 GB/s är den mappad för att absorbera eventuella minnesspill. Esta-lagret kommer endast till spel i exceptionella situationer, när både VRAM och system-RAM är helt slut, vilket erbjuder ett skydd för att förhindra systemfel i extrema användningsscenarier.

Det sofistikerade bakom integrationen

GreenBoosts tekniska intelligens ligger i hur kärnan och komponenterna i användarutrymmet samarbetar sömlöst. Kärnmodulen (`greenboost.ko`) använder en optimerad minnesallokator för att reservera ett stort sidutrymme i DDR4, vilket eliminerar personsökningsoverhead och fragmentering. Esses-utrymmen exporteras som DMA-BUF-filbeskrivningar, vilket möjliggör direkt minnesåtkomst.

GPU:n importerar sedan dessa operativsystemsidor som externt CUDA-minne via API:et “cudaImportExternalMemory”. Esse-processen får CUDA-plattformen att tolka de fysiska DDR4-sidorna som om de vore minne direkt anslutna till grafikkortet, vilket maskerar moderkortets arkitektur. Datarörelser hanteras sedan som en DMA-överföring via PCI Express 4.0-bussen, vilket eliminerar onödiga kopieringscykler av CPU:n.

I användarutrymmet fungerar biblioteket `libgreenboost_cuda.so` som en smart interceptor. Inserida dynamiskt via `LD_PRELOAD`, den fångar upp API-anrop som `cudaMalloc` och `cudaFree`. Requisições av små tilldelningar vidarebefordras direkt till det ursprungliga VRAM utan latens. Men stora förfrågningar som överskrider VRAM-gränserna omdirigeras till GreenBoost-modulen i kärnan, som allokerar det nödvändiga minnet från system-RAM och returnerar det till applikationen som en legitim CUDA-enhetspekare. Para inferensmotorer som använder “dlopen” och “dlsym”, GreenBoost har motåtgärder, avlyssnar själva “dlsym”-funktionen och ändrar till och med den rapporterade VRAM-kapaciteten för att tvinga avlastning till RAM.

Synergi med optimerare och praktisk prestanda

GreenBoost är designat för att fungera tillsammans med de senaste slutledningsmetoderna, och erbjuder en mångfacetterad optimeringsverktyg. Ett exempel är dess integration med `ExLlamaV3`, en inferensmotor som inbyggt stöder KV-cachelagrets sökväg som tillhandahålls av GreenBoost. Isso gör att modellens KV-tensor kan allokeras direkt från `/dev/greenboost` till Python via `mmap`-åtkomst utan kopiering, vilket eliminerar I/O-overhead och förbättrar prestandan.

För långa sammanhang som överstiger 100 000 tokens kan “kvpress”-verktyget användas tillsammans för att minska overhead på systemets RAM-bandbredd. Mais Avgörande är att integration med NVIDIA ModelOpt, NVIDIAs officiella optimeringsverktyg, gör att 31,8 GB-modeller kan konverteras till det effektiva FP8-formatet utan behov av omskolning, vilket minskar storleken till mindre än 16 GB. Essa strategisk kombination, som allokerar VRAM till modellvikter och system-RAM till KV-cache, har visat genomsnittliga slutledningshastigheter på 10 till 25 tokens per sekund (tok/s) på GeForce RTX 5070, en betydande ökning jämfört med referensmiljön (2 till 5 tok/s).

PCIe 4.0-bussutmaningen

Trots att det är ett revolutionerande tillvägagångssätt, eliminerar inte GreenBoost de grundläggande fysiska begränsningarna hos hårdvaran. Ferran Duarri, utvecklaren, är transparent om den största flaskhalsen: PCIe 4.0 x16-bussen maximal överföringsbandbredd på cirka 32 GB/s. Enquanto det integrerade VRAM-minnet för moderna GPU:er erbjuder hundratals GB/s, eller till och med mer än 1 TB/s i avancerade modeller, hastigheten för åtkomst till system-RAM via PCIe är betydligt långsammare, ofta mindre än en tiondel.

Om modellviktsdata, som ofta åtkoms, överförs mellan VRAM och system-RAM upprepade gånger, kommer denna “tröskning” att resultera i avsevärd fördröjning i pipelinen. Da På samma sätt, även om NVMe-enheter är effektiva för sekventiell åtkomst, kan prestandan i växlingsskiktet försämras dramatiskt när man hanterar miljontals direktåtkomstoperationer i små block under slutledning. Den idealiska lösningen för att maximera GreenBoosts potential ligger inte i en enda modul, utan i en intelligent partitionering av arbetsbelastningen, med användning av de senaste parameterkvantiseringsteknologierna som FP8 och INT4-AWQ för att hålla datavikten till ett minimum i VRAM (T1) och flytta KV-cachen, som växer med tiden, till DDR4 RAM (T2).

Implikationer för AI-infrastruktur

Utgivningen av GreenBoost som öppen källkod representerar ett starkt svar från utvecklargemenskapen mot de konstgjorda begränsningarna som införs av konsumenternas GPU-marknaden, där beräkningskraften är hög men begränsad VRAM begränsar industriell användning. Det är ett försök att efterlikna, via mjukvara, den enhetliga minnesupplevelsen som ses i Apple M-seriens arkitektur, som möjliggör massiv AI-inferens utan behov av dyra HBM-moduler, genom att integrera denna teknik i befintliga PC-plattformar.

Denna implementeringsmetod erbjuder en kraftfull motåtgärd för enskilda forskare och små till medelstora AI-utvecklingsekosystem mot de stigande kostnaderna för AI-acceleratorer av företagsklass. Atualmente demonstreras på GeForce RTX 5070, med tillgången till källkoden förväntas det att ett brett spektrum av användare med kort med Ada Lovelace och Ampere arkitekturerna kommer att verifiera och anpassa lösningen. I en tid då hårdvaruförstärkt skalbarhet har nått en platå pekar Ferran Duarri-metoden, genom att kringgå komplexa lager från kärnhantering till PCI-Express-gränssnittet och CUDA-miljön, på minneshanteringsutmaningarna som framtida distribuerade AI-infrastrukturer kommer att behöva ta itu med. Desenvolvedores runt om i världen fortsätter att skapa alternativ för att komma runt denna barriär.

Veja Tambem em News (SV)

Samsung släpper ny systemuppdatering med nya funktioner för Galaxy Watch 4-användare

Digital detaljhandel minskar värdet på Galaxy S25 5G-smarttelefonen med bankbonusar och enhetsbyte

Amazons trådlösa CarPlay-adapter har 50 % rabatt och höga godkännandebetyg från förare

Betydande rabatt på Galaxy S25 Plus minskar värdet till under 4500 reais i webbutiken

Rykten antyder att Nintendo förbereder en specialutgåva av Switch 2 med en nyinspelning av Ocarina of Time

Apple accelererar produktionen av iPhone 17e och utvecklar ny Air-modell med dubbla kamerasystem

Epic Games-plattformen släpper tolv högbudgetspel utan permanent kostnad för PC-användare

Prisfallet på PlayStation 5 Pro accelererar den digitala detaljhandeln och eliminerar globala lager

Ny Apple-systemuppdatering optimerar brådskande uppgiftshantering för iPhone-användare

Läckage detaljerad hårdvara för den nya bärbara PlayStation med överlägsen grafik till Xbox Series S

Oppo lanserar officiellt Find X9 Ultra över hela världen med Hasselblad-linser och robust batteri

Ny utgåva av vikbar smartphone ger guldfinish till vinterspelens konkurrenter

VER MAIS EM NEWS (SV)