De gratis update van Nvidia versnelt LLM’s tot 40% op RTX-kaarten met nieuwe technologie

Nvidia

Nvidia - Foto: Hepha1st0s / Shutterstock.com

Nvidia heeft een gratis software-update aangekondigd die belooft de prestaties van de kunstmatige intelligentie aanzienlijk te verbeteren op computers die zijn uitgerust met RTX grafische kaarten. De reeks optimalisaties komt rechtstreeks ten goede aan gebruikers die lokaal grote taalmodellen (LLM’s) gebruiken, en versnelt taken voor het maken van generatieve inhoud. De verbeteringen, waaronder ondersteuning voor nieuwe precisieformaten om het VRAM-geheugenverbruik te verminderen, verstevigen de positie van RTX GPU’s als toonaangevend platform voor AI-workloads in de consumentenomgeving, waardoor grotere snelheid en efficiëntie worden geleverd.

Het nieuwe pakket combineert vooruitgang op het gebied van verwerkingssnelheid en beheer van grafische bronnen, waarmee een reeks verbeteringen wordt voortgezet die het bedrijf sinds 2023 heeft doorgevoerd. Met de update krijgen pc-gebruikers met RTX-kaarten onmiddellijk toegang tot deze tools, zonder extra kosten, waardoor het gebruik van geavanceerde AI-modellen wordt gedemocratiseerd waarvoor voorheen gespecialiseerde hardware of toegang tot clouddiensten nodig was. Het initiatief versterkt de strategie van Nvidia om zijn GPU’s te onderscheiden van geïntegreerde NPU’s (Processamento Neural Units), die over het algemeen beperkt zijn tot meer basistaken.

De update valt uiteen in verschillende belangrijke componenten die van invloed zijn op verschillende aspecten van generatieve kunstmatige intelligentie, van het uitvoeren van chatbots tot het maken van video’s met hoge resolutie. De optimalisaties zijn ontworpen om naadloos samen te werken met het Windows-besturingssysteem en populaire tools in het AI-ecosysteem, waardoor een vloeiende implementatie wordt gegarandeerd voor ontwikkelaars en makers van inhoud die voor hun workflows afhankelijk zijn van lokale verwerkingskracht.

Nvidia – Jack Hong/shutterstock.com

Expressieve versnelling in taalmodellen

Eén van de pijlers van deze update is de snelheidsverhoging voor het uitvoeren van grote taalmodellen. Testes internals uitgevoerd door Nvidia duiden op prestatieverbeteringen tot 40% op populaire LLM’s zoals Nemotron Nano V2 en verschillende open source varianten van de GPT-familie. De prestatiesprong Esse is een direct resultaat van optimalisaties die zijn geïmplementeerd in de TensorRT-LLM-bibliotheek, waardoor nu snellere en efficiëntere gevolgtrekkingen mogelijk zijn.

In de praktijk zullen gebruikers kortere responstijden merken bij lokaal draaiende tekstassistenten en chatbots. De Essa-verbetering komt vooral ten goede aan ontwikkelaars en makers die LLM’s in hun dagelijkse routines integreren, waardoor flexibeler iteraties en een vloeiendere gebruikerservaring mogelijk worden. De versnelling is van toepassing op zowel kaarten uit de RTX 40-serie als modellen uit de RTX 30-serie, waardoor de reikwijdte van het voordeel wordt uitgebreid naar een brede gebruikersbasis.

[[MVG_PROTECTED_BLOCK_0]

Deze vooruitgang vertegenwoordigt de voortzetting van een inspanning die Nvidia in 2023 begon, toen de eerste versnellingen via TensorRT-LLM werden geïntroduceerd. Het bedrijf blijft zijn software verfijnen om het maximale potentieel uit de Tensor-kernen in zijn GPU’s te halen, zodat zelfs complexe AI-taken efficiënt kunnen worden uitgevoerd op consumentenhardware.

Nieuwe NVFP4-technologie optimaliseert het VRAM-gebruik

Een andere zeer relevante technische nieuwigheid is de introductie van native ondersteuning voor het NVFP4-precisieformaat. Met de Essa-kwantiseringstechnologie kunnen AI-modellen tot 60% worden gecomprimeerd in vergelijking met traditionele versies die het BF16-formaat gebruiken. Compressie vermindert drastisch de ruimte die het model in beslag neemt in videogeheugen (VRAM), een van de meest kritische bronnen voor het uitvoeren van grote LLM’s.

Deze compressie werkt door een deel van de verwerkingsbelasting over te dragen naar het RAM-geheugen van het systeem, waardoor VRAM vrijkomt voor andere gelijktijdige activiteiten. In tools voor het maken van afbeeldingen, zoals ComfyUI, kan het gebruik van NVFP4 bijvoorbeeld resulteren in prestatieverbeteringen tot 4,6 keer voor pijplijnen die modellen als Flux.1 en Flux.2 gebruiken. Isso betekent dat gebruikers sneller en efficiënter afbeeldingen van hoge kwaliteit kunnen genereren.

De vermindering van het VRAM-verbruik democratiseert ook de toegang tot grotere en complexere modellen. Usuários met videokaarten met kleinere geheugencapaciteit, inclusief modellen van vorige generaties, krijgen de mogelijkheid om modellen te draaien die voorheen onhaalbaar waren. Essa-optimalisatie verlengt de levensduur van bestaande hardware en verlegt de grenzen van AI-experimenten op reguliere desktops.

Ondersteuning strekt zich ook uit tot het NVFP8-formaat, dat een andere balans biedt tussen compressie en precisie, waardoor het bijzonder nuttig is in andere toepassingen, zoals het genereren van video. Dankzij de flexibiliteit die deze nieuwe formaten bieden, kunnen ontwikkelaars en gebruikers de beste configuratie voor elk type taak kiezen, waardoor het gebruik van systeembronnen naar behoefte wordt geoptimaliseerd.

Vooruitgang in videogeneratie met het LTX-2-model

Op het gebied van audiovisuele contentcreatie heeft Nvidia de samenwerking met Lightricks verdiept om LTX-2, een van de toonaangevende open source-modellen voor het genereren van video en audio, te optimaliseren. Het Este-model kan clips produceren met een native resolutie tot 4K bij 50 frames per seconde, met volledig gesynchroniseerde audio, een rekenintensieve taak die nu toegankelijker wordt.

Dankzij ondersteuning voor het NVFP8-precisieformaat kan het LTX-2-model de dubbele generatiesnelheid bereiken op de nieuwste RTX-kaarten. Op compatibele hardware kan in ongeveer 20 seconden een video van hoge kwaliteit worden gegenereerd, een opmerkelijk korte tijd voor deze taak. De technologie valt op door zijn vermogen om lange inhoud met geïntegreerde audio te creëren, waardoor makers een krachtig hulpmiddel krijgen voor snelle, lokale productie met behoud van volledige creatieve controle en privacy over gegevens.

RTX Video Super Resolution voor generatieve inhoud

De populaire RTX Video Super Resolution (VSR)-functie, die AI gebruikt om de kwaliteit van video’s in realtime te verbeteren, is uitgebreid en omvat nu ook video’s die zijn gemaakt door generatieve kunstmatige intelligentie. De tool schaalt inhoud op van lagere resoluties, zoals 720p, naar 4K, waarbij aanzienlijke verbeteringen worden toegepast op het detailniveau en de scherpte van het beeld.

De integratie zal naar verwachting in februari 2026 op het ComfyUI-platform verschijnen. Met deze optimalisatie wordt het hele proces van het genereren en opschalen van een 4K-clip van 10 seconden, dat tot 15 minuten kan duren, teruggebracht tot slechts 3 minuten. Essa-versnelling komt direct ten goede aan contentproducenten die snel en efficiënt uitvoer met hoge resolutie nodig hebben, waarbij gebruik wordt gemaakt van de specifieke hardwaremogelijkheden van RTX GPU’s om een ​​superieure visuele kwaliteit te behouden.

RTX-ecosysteem en de democratisering van lokale AI

Deze update consolideert de visie van Nvidia om het RTX-platform te positioneren als de definitieve en meest complete oplossing voor het ontwikkelen en uitvoeren van kunstmatige intelligentie op locatie. Door prestatieverbeteringen tot 40% te leveren in LLM’s, het VRAM-verbruik met tot 60% te verminderen met nieuwe precisieformaten zoals NVFP4, en de generatie van 4K-video dramatisch te versnellen, verbetert het bedrijf niet alleen de gebruikerservaring, maar creëert het ook een duidelijk onderscheid met concurrerende hardwareoplossingen zoals geïntegreerde NPU’s, die doorgaans beperkt zijn tot eenvoudigere, minder computationeel veeleisende AI-taken. De Nvidia-strategie is gebaseerd op een robuust ecosysteem dat krachtige hardware, zoals de Tensor Cores, en voortdurend evoluerende software, zoals de TensorRT-LLM-bibliotheken, combineert. Isso stelt een breed scala aan gebruikers in staat, van ontwikkelaars en onderzoekers tot makers van inhoud en enthousiastelingen, om de grenzen van generatieve AI rechtstreeks op hun desktops te verkennen. Het draaien op locatie biedt cruciale voordelen, zoals verminderde latentie, volledige controle over gegevens en privacy, en het wegnemen van de afhankelijkheid van clouddiensten en de daarmee samenhangende kosten. Met deze tools democratiseert Nvidia effectief de toegang tot geavanceerde AI-technologieën, waardoor innovaties overal vandaan kunnen komen.

Verbeterde integratie met het ComfyUI-platform

Het ComfyUI-platform, een van de populairste knooppuntgebaseerde omgevingen voor het bouwen van generatieve AI-workflows, ontvangt in deze update Nvidia-specifieke optimalisaties. De tool profiteert direct van ondersteuning van het NVFP4-formaat in afbeeldingsmodellen zoals Flux, waardoor gebruikers complexe pipelines kunnen configureren met een veel lagere vraag naar grafische bronnen.

De voortdurende samenwerking tussen Nvidia en ontwikkelaars in het open source-ecosysteem zorgt ervoor dat softwareverbeteringen snel worden geïntegreerd en beschikbaar worden gemaakt voor de gemeenschap. Essas-wijzigingen vereenvoudigen het experimenteren met grote modellen en geavanceerde workflows, waardoor de technologie toegankelijker wordt voor een breder publiek.

Praktische voordelen voor makers van inhoud

Voor professionals die met beeld- en videocreatie werken, vertalen snelheidswinsten zich in snellere iteraties en een dynamischere workflow. De mogelijkheid om professionele clips te genereren met het LTX-2-model zonder afhankelijk te zijn van cloudservices en de vermindering van het VRAM-verbruik maken multitasking mogelijk met meerdere modellen tegelijk actief, waardoor de productiviteit en creatieve flexibiliteit toenemen.