NVIDIA et OpenAI lancent les modèles de raisonnement ouverts les plus rapides

    Par

    Hanan Zuhry

    Hanan Zuhry

    NVIDIA et OpenAI ont publié des modèles d'IA ouverts et rapides utilisant NVFP4 et CUDA, rendant le raisonnement avancé plus facile et plus accessible.

    NVIDIA et OpenAI lancent les modèles de raisonnement ouverts les plus rapides

    À retenir

    Résumé généré par l'IA, examiné par la rédaction.

    • NVIDIA et OpenAI ont publié deux modèles de raisonnement à poids ouvert : gpt-oss-120b, 20b

    • Le modèle 120b traite 1,5 M de jetons/s à l'aide du système GB200 NVL72 de NVIDIA

    • Le format de précision NVFP4 permet une inférence plus rapide et économe en énergie sans perte de précision

    • Les modèles fonctionnent sur du matériel compatible CUDA, des serveurs cloud aux ordinateurs de bureau RTX

    • La version open source aide les startups, les chercheurs et les développeurs à créer des solutions personnalisées

    NVIDIA et OpenAI ont récemment dévoilé deux nouveaux modèles de raisonnement à pondération ouverte : gpt-oss-120b et gpt-oss-20b. Sur un unique système NVIDIA GB200 NVL72, le modèle 120b a la capacité de gérer jusqu’à 1,5 million de jetons par seconde. L’association de l’architecture Blackwell de NVIDIA et d’un format de précision 4 bits, dénommé NVFP4, rend ce modèle possible. Ce format permet de réaliser un équilibre idéal entre précision et efficacité.

    Qu’est-ce qui alimente les modèles

    L’efficacité de ces modèles est due à la combinaison de nouveaux équipements et de logiciels intelligents. Ils ont été élaborés en utilisant les puissants GPU H100 de NVIDIA et sont optimisés pour une performance fluide sur une variété d’appareils. Ils peuvent être utilisés autant sur des systèmes cloud de grande envergure que sur des ordinateurs de bureau standards dotés de cartes NVIDIA RTX. Si vous êtes déjà familier avec CUDA, il est probable que vous pouvez faire fonctionner ces modèles sans beaucoup d’efforts supplémentaires.

    Ces deux modèles sont aussi classés sous la dénomination de « microservices d’inférence », selon NVIDIA. Ceci rend les modèles relativement plus rapides et plus simples. Il n’est pas indispensable de tout concevoir depuis le début. Si vous utilisez déjà des outils d’IA courants comme Hugging Face ou Llama.cpp, ces modèles s’adapteront de manière immédiate.

    Le matériel Blackwell de NVIDIA, quant à lui, joue aussi un rôle significatif. Il dispose d’une fonctionnalité nommée NVFP4, qui offre aux modèles la possibilité de s’exécuter plus vite et de manière plus efficiente en employant des nombres moins précis sans compromettre la précision. Cela peut sembler complexe, mais le bénéfice est assez clair : une intelligence artificielle plus rapide, nécessitant moins de puissance énergétique et de mémoire. Pour les sociétés, cela pourrait signifier une diminution des dépenses.

    De plus, une relation de longue date existe entre NVIDIA et OpenAI, qui a permis cette collaboration. Ce lien remonte à l’époque où Jensen Huang a personnellement remis le premier DGX-1. L’évolution actuelle de la série gpt-oss semble être le prolongement naturel de cette collaboration. Toutefois, ces créations exigeront une capacité de traitement, une finition et une disponibilité opérationnelle largement supérieures. Il est inhabituel à ce niveau que le matériel, les logiciels et les services opèrent en synergie.

    Ouvert à la construction pour tous

    Un élément crucial de cette version est la possibilité d’ouvrir les modèles. Cela implique que tout le monde, des startups aux universités, a la possibilité d’y contribuer. Ils ont la possibilité de les élaborer, de les adapter à leurs besoins et de les intégrer dans leurs systèmes. Il y a maintenant plus de 4 millions de développeurs chevronnés qui travaillent sur la plateforme d’OpenAI. Quant à NVIDIA, elle a plus de 6,5 millions de développeurs qui utilisent ses outils logiciels. Cela fait presque une décennie que leur collaboration perdure, et son envergure est immense. Des centaines de millions de GPU à travers le monde utilisent la plateforme NVIDIA CUDA. Dans un écosystème aussi étendu et expérimenté, le déploiement d’une technologie telle que celle-ci entraîne souvent une adoption rapide. C’est à ce moment-là que l’on commence à percevoir moins un lancement qu’un tournant.

    Google News Icon

    Suivez-nous sur Google News

    Recevez les dernières informations et mises à jour sur la crypto.

    Suivre