GreenBoost: модуль Linux перетворює оперативну пам’ять на пам’ять CUDA та революціонізує використання LLM з NVIDIA
Місцевий сценарій розвитку штучного інтелекту зазнає значних змін із появою GreenBoost. Інноваційний модуль Este для ядра Linux обіцяє подолати одну з основних перешкод, з якою стикаються розробники та дослідники: обмеження відеопам’яті (VRAM) на споживчих картах NVIDIA. Перетворюючи системну оперативну пам’ять на ресурс, придатний для використання архітектурою CUDA, GreenBoost відкриває нові можливості для запуску складних великомасштабних мовних моделей (LLM) безпосередньо на звичайних ПК.
Ініціатива, розроблена незалежним програмістом Ferran Duarri, являє собою важливий прогрес у середовищі, де апаратне забезпечення високої ємності, таке як графічні процесори корпоративного рівня з великою кількістю VRAM, недоступне для більшості. Рішення зосереджено на оптимізації використання існуючих ресурсів, дозволяючи повною мірою використовувати обчислювальну потужність графічних процесорів NVIDIA навіть з обмеженнями VRAM, стимулюючи дослідження та розробки ШІ з відкритим кодом.
Можливість запускати моделі, які раніше вимагали десятки гігабайт пам’яті, наприклад «glm-4.7-flash:q8_0» з його 31,8 ГБ пам’яті, на побутовому обладнанні була майже непереборною проблемою. Традиційні підходи часто призводили до вузьких місць продуктивності або погіршення якості висновків, що робило практичну взаємодію з цими моделями неможливим для багатьох ентузіастів і малих розробників.
Подолання традиційних бар’єрів VRAM
Історично склалося так, що стратегії боротьби з нестачею VRAM у споживчих графічних процесорах були обмеженими. Одним із найпоширеніших рішень було вивантаження зайвих шарів нейронної мережі в системну пам’ять ЦП. Однак цей підхід мав серйозні проблеми з продуктивністю. Відсутність узгодженості CUDA в пам’яті центрального процесора вимагала масивної та складної передачі даних між графічним процесором і центральним процесором, створюючи вузьке місце, яке могло знизити швидкість генерації маркерів до десяти разів.
Іншою дослідженою альтернативою було різке зниження рівня квантування моделі. Embora це зменшило потребу в пам’яті, супроводжувалося значним погіршенням логічного висновку та можливостей LLM. Para підтримуючи якість, єдиним життєздатним варіантом було інвестування в графічні процесори корпоративного рівня з 48 ГБ або більше відеопам’яті, витрати, які перевищують вартість повної робочої станції та недосяжні для окремих розробників і стартапів з обмеженим бюджетом.
Інноваційна 3-рівнева архітектура GreenBoost
GreenBoost — це не просто налаштування драйвера чи тимчасове рішення; це ретельно розроблений модуль ядра Linux, ліцензований під GPLv2. Ele працює незалежно та паралельно з офіційними драйверами NVIDIA, безпосередньо втручаючись у рівень розподілу пам’яті CUDA. Геніальне втручання Essa дозволяє драйверу GPU розпізнавати системну оперативну пам’ять як «зовнішню пам’ять», створюючи архітектуру розширення пам’яті, яка працює на трьох різних рівнях для оптимізації продуктивності та ємності.
Перший рівень, відомий як T1, є оригінальною VRAM, інтегрованою в GPU. У тестовому середовищі з використанням GeForce RTX 5070 з її ємністю 12 ГБ і пропускною здатністю приблизно 336 ГБ/с цей рівень стає критичним шляхом для обчислень. Ela зберігає активні шари, до яких найчастіше звертаються під час процесу висновку, забезпечуючи максимальну швидкість для найскладніших операцій.
Другий рівень, T2, складається з системної пам’яті DDR4 або DDR5 RAM материнської плати. Conectada до GPU через з’єднання PCIe 4.0 x16 забезпечує швидкість приблизно 32 ГБ/с. Рівень Este служить ефективним місцем для зберігання даних про вагу статичної моделі та значним кеш-пам’яттю «ключ-значення» (KV), що є критичним для LLM для підтримки та посилань на великі контексти, дозволяючи ШІ працювати з більш повною інформацією.
Нарешті, третій рівень безпеки, T3, — це сховище NVMe. Alocado як простір підкачки з відносно повільнішою швидкістю приблизно 1,8 ГБ/с, він відображається для поглинання будь-яких переповнень пам’яті. Рівень Esta використовується лише у виняткових ситуаціях, коли повністю вичерпано відеопам’ять і системну оперативну пам’ять, забезпечуючи захист від системних збоїв у екстремальних сценаріях використання.
Витонченість інтеграції
Технічний інтелект GreenBoost полягає в тому, як ядро та компоненти простору користувача бездоганно взаємодіють. Модуль ядра (`greenboost.ko`) використовує оптимізований розподільник пам’яті для резервування великого простору на сторінках у DDR4, усуваючи накладні витрати на підкачку та фрагментацію. Пробіли Esses експортуються як дескриптори файлів DMA-BUF, що забезпечує прямий доступ до пам’яті.
Потім GPU імпортує ці сторінки операційної системи як зовнішню пам’ять CUDA через API cudaImportExternalMemory. Процес Esse змушує платформу CUDA інтерпретувати фізичні сторінки DDR4 так, ніби вони були пам’яттю, безпосередньо підключеною до відеокарти, маскуючи архітектуру материнської плати. Потім переміщення даних здійснюється як передача DMA через шину PCI Express 4.0, усуваючи непотрібні цикли копіювання ЦП.
У просторі користувача бібліотека `libgreenboost_cuda.so` діє як розумний перехоплювач. Inserida динамічно через `LD_PRELOAD`, він перехоплює такі виклики API, як `cudaMalloc` і `cudaFree`. Requisições невеликих розподілів пересилаються безпосередньо до оригінальної VRAM без затримки. Однак великі запити, які перевищують ліміти VRAM, перенаправляються до модуля GreenBoost у ядрі, який виділяє необхідну пам’ять із системної оперативної пам’яті та повертає її програмі як законний покажчик пристрою CUDA. Механізми висновку Para, які використовують `dlopen` і `dlsym`, GreenBoost має контрзаходи, перехоплюючи саму функцію `dlsym` і навіть змінюючи повідомлену ємність VRAM для примусового перевантаження в RAM.
Синергія з оптимізаторами та практична продуктивність
GreenBoost розроблено для роботи разом із найновішими підходами до висновків, пропонуючи багатогранний набір інструментів оптимізації. Одним із прикладів є його інтеграція з `ExLlamaV3`, механізмом висновків, який нативно підтримує шлях рівня кешу KV, наданий GreenBoost. Isso дозволяє розподіляти KV-тензор моделі безпосередньо з `/dev/greenboost` до Python через доступ `mmap` без копіювання, усуваючи накладні витрати введення/виведення та покращуючи продуктивність.
Для довгих контекстів, що перевищують 100 000 токенів, інструмент `kvpress` можна використовувати разом, щоб зменшити накладні витрати на пропускну здатність RAM системи. Mais Важливо те, що інтеграція з NVIDIA ModelOpt, офіційним інструментом оптимізації NVIDIA, дозволяє конвертувати моделі 31,8 ГБ у ефективний формат FP8 без необхідності повторного навчання, зменшуючи розмір до менш ніж 16 ГБ. Стратегічна комбінація Essa, яка розподіляє VRAM для вагових коефіцієнтів моделі та системну RAM для кешу KV, продемонструвала середню швидкість висновку від 10 до 25 токенів на секунду (tok/s) на GeForce RTX 5070, що є значним збільшенням порівняно з еталонним середовищем (2-5 token/s).
Виклик шини PCIe 4.0
Незважаючи на революційний підхід, GreenBoost не усуває фундаментальних фізичних обмежень апаратного забезпечення. Ferran Duarri, розробник, прозоро говорить про найбільше вузьке місце: максимальна пропускна здатність шини PCIe 4.0 x16 становить приблизно 32 ГБ/с. Enquanto інтегрована відеопам’ять сучасних графічних процесорів пропонує сотні ГБ/с або навіть понад 1 ТБ/с у моделях високого класу, швидкість доступу до системної оперативної пам’яті через PCIe значно нижча, часто менше ніж на одну десяту.
Якщо дані про вагу моделі, до яких часто звертаються, постійно передаються між відеопам’яттю та оперативною пам’яттю системи, це «збивання» призведе до значної затримки в конвеєрі. Da Подібним чином, хоча накопичувачі NVMe ефективні для послідовного доступу, продуктивність на рівні підкачки може різко знизитися під час роботи з мільйонами операцій довільного доступу в невеликих блоках під час висновку. Ідеальне рішення для максимального використання потенціалу GreenBoost полягає не в одному модулі, а в інтелектуальному розподілі робочого навантаження з використанням найновіших технологій квантування параметрів, таких як FP8 і INT4-AWQ, щоб зберегти мінімальну вагу даних у VRAM (T1) і перемістити кеш KV, який з часом зростає, до DDR4 RAM (T2).
Наслідки для інфраструктури ШІ
Випуск GreenBoost як відкритого вихідного коду є потужною відповіддю спільноти розробників на штучні обмеження, накладені споживчим ринком GPU, де обчислювальна потужність висока, але обмежена VRAM обмежує промислове використання. Це спроба імітувати за допомогою програмного забезпечення уніфіковану пам’ять, яку можна побачити в архітектурі Apple M-series, яка забезпечує масовий висновок штучного інтелекту без необхідності використання дорогих модулів HBM, шляхом інтеграції цієї технології в існуючі платформи ПК.
Цей метод впровадження пропонує потужний засіб протидії окремим дослідникам і невеликим і середнім екосистемам розробки штучного інтелекту проти зростання вартості прискорювачів штучного інтелекту корпоративного рівня. Atualmente, продемонстрований на GeForce RTX 5070, при наявності вихідного коду очікується, що широке коло користувачів з картами архітектур Ada Lovelace і Ampere перевірить і адаптує рішення. У той час, коли апаратно-примусова масштабованість досягла плато, підхід Ferran Duarri, обходячи складні рівні від керування ядром до інтерфейсу PCI-Express і середовища CUDA, вказує на проблеми управління пам’яттю, які майбутні розподілені інфраструктури штучного інтелекту повинні будуть вирішити. Desenvolvedores у всьому світі продовжує створювати альтернативи, щоб обійти цей бар’єр.
Veja Tambem em News (UA)
Значна знижка на Galaxy S25 Plus знижує вартість нижче 4500 реалів в онлайн-магазині
Apple прискорює виробництво iPhone 17e і розробляє нову модель Air з системою подвійної камери
Платформа Epic Games випускає дванадцять високобюджетних ігор безкоштовно для користувачів ПК
Зниження ціни на PlayStation 5 Pro прискорює цифрові роздрібні продажі та ліквідує глобальні запаси
Нове оновлення системи Apple оптимізує керування терміновими завданнями для користувачів iPhone
Oppo офіційно випускає в усьому світі Find X9 Ultra з лінзами Hasselblad і надійним акумулятором
Витік інформації про апаратне забезпечення нової портативної PlayStation із чудовою графікою, ніж у Xbox Series S
Нова версія складного смартфона приносить золоту фініш учасникам Зимових ігор
Тім Кук показує нові прототипи iPhone та iPod на святкуванні п’ятдесятиріччя Apple
Система Android отримує вбудовану інтеграцію Gemini Nano 4 для офлайн-обробки на смартфонах
Витік розкриває Lords of the Fallen і Sword Art Online у квітневому каталозі PS Plus Essential