Home Nieuws Nvidia’s Cosmos Reason 2 heeft tot doel de VLM-redenering naar de fysieke...

Nvidia’s Cosmos Reason 2 heeft tot doel de VLM-redenering naar de fysieke wereld te brengen

22
0
Nvidia’s Cosmos Reason 2 heeft tot doel de VLM-redenering naar de fysieke wereld te brengen

Nvidia-CEO Jensen Huang zei vorig jaar dat we nu het tijdperk van fysieke AI betreden. Terwijl bedrijven LLM’s blijven aanbieden voor softwaregebruik, doet Nvidia dat wel zichzelf steeds meer positioneren als leverancier van AI-modellen voor volledig AI-aangedreven systemen – inclusief AI-agenten in de fysieke wereld.

Op CES 2026 kondigde Nvidia een reeks nieuwe modellen aan die zijn ontworpen om AI-agenten voorbij chatinterfaces en naar fysieke omgevingen te duwen.

Nvidia gelanceerd Kosmos Reden 2De nieuwste versie van het visietaalmodel is ontworpen om redeneren te realiseren. Kosmos Reden 1, vorig jaar uitgebrachtintroduceert een tweedimensionale ontologie voor belichaamd en actueel redeneren leidt de fysieke redenen van Hugging Face voor het videoklassement.

Cosmos Reason 2 bouwt voort op dezelfde ontologie en geeft bedrijven meer flexibiliteit om applicaties aan te passen en fysieke agenten in staat te stellen hun volgende acties te plannen, vergelijkbaar met hoe op software gebaseerde agenten redeneren via digitale workflows.

Nvidia heeft ook een nieuwe versie van Cosmos Transfer uitgebracht, een model dat ontwikkelaars in staat stelt trainingssimulaties voor robots produceren.

Andere visietaalmodellen, zoals die van Google PaliGemma En Grote Pixtral van Mistralkan visuele invoer verwerken, maar niet alle in de handel verkrijgbare VLM’s ondersteunen de redenering.

“Robotica bevindt zich op een keerpunt. We evolueren van gespecialiseerde robots die beperkt zijn tot enkele taken naar gespecialiseerde generalistische systemen”, zegt Kari Briski, Nvidia’s vice-president voor generatieve AI-software, in een briefing aan verslaggevers. Hij doelt op robots die brede basiskennis combineren met diepgaande gespecialiseerde vaardigheden. “Deze nieuwe robots combineren brede basiskennis met diepgaande vaardigheid en complexe taken.”

Hij voegde eraan toe dat Cosmos Reason 2 “het redeneervermogen verbetert dat robots nodig hebben om door de onvoorspelbare fysieke wereld te navigeren.”

Ga naar fysieke agent

Briski merkte op dat de routekaart van Nvidia “hetzelfde activapatroon volgt voor al onze open modellen.”

“Bij het bouwen van gespecialiseerde AI-agenten, digitale arbeidskrachten of fysieke belichamingen van AI in robots en autonome voertuigen is meer nodig dan alleen modellen”, aldus Briski. “Ten eerste heeft AI computerbronnen nodig om de wereld eromheen te trainen en te simuleren. Data zijn de brandstof voor AI om te leren en te groeien, en we dragen bij aan ‘s werelds grootste verzameling open en diverse datasets, meer dan alleen het ontsluiten van het gewicht van modellen. Open bibliotheken en trainingsscripts geven ontwikkelaars de tools om speciaal gebouwde AI voor hun toepassingen te bouwen, en we publiceren blauwdrukken en voorbeelden om AI als modelleringssysteem te helpen implementeren.”

Het bedrijf heeft nu speciale open modellen voor fysieke AI in Cosmos, robotica, met het Gr00t actiemodel voor open redenering, visietaal (VLA) en het Nemotron-model voor agent-AI.

Nvidia stelt dat open modellen in verschillende takken van AI een gedeeld bedrijfsecosysteem vormen dat data, training en redenering levert aan agenten in de digitale en fysieke wereld.

Een toevoeging aan de Nemotron-familie

Briski zei dat Nvidia van plan is zijn open modellen, waaronder de Nemotron-familie, verder uit te breiden dan de reden om RAG-modellen en nieuwe inbedding op te nemen om informatie gemakkelijker beschikbaar te maken voor agenten. Bedrijf Nemotron 3 uitgebrachtde nieuwste versie van zijn agentisch redeneermodel, in december.

Nvidia heeft drie nieuwe toevoegingen aan de Nemotron-familie aangekondigd: Nemotron Speech, Nemotron RAG en Nemotron Safety.

In een blogpost zegt Nvidia dat Nemotron Speech “realtime spraakherkenning met lage latentie levert voor live tekst- en spraak-AI-toepassingen” en 10 keer sneller is dan andere spraakmodellen.

Nemotron RAG bestaat technisch gezien uit twee modellen: een inbeddingsmodel en een herrangschikkingsmodel, die beide afbeeldingen kunnen begrijpen om meer multimodale inzichten te bieden waar data-agenten gebruik van kunnen maken.

“Nemotron RAG overtreft wat wij MMTab noemen, of Massive Multilingual Text Embedding Benchmark, met sterke meertalige prestaties terwijl het minder rekenkrachtgeheugen gebruikt, waardoor het geschikt is voor systemen die veel verzoeken zeer snel en met weinig vertragingen moeten afhandelen”, aldus Briski.

Nemotron Safety detecteert gevoelige gegevens, zodat AI-agenten niet per ongeluk persoonlijk identificeerbare gegevens vrijgeven.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in