Débloquer les performances pour la génération IA : TensorRT accélère l’IA sur les PC et stations de travail RTX.

L’extension TensorRT pour l’interface Web de stable diffusion prend désormais en charge les réseaux de contrôle (ControlNets), dont les performances sont illustrées par un nouveau benchmark.

Note de l’éditeur : Ce billet fait partie de la série IA Décodée, qui démystifie l’IA en rendant la technologie plus accessible, et qui présente de nouveaux matériels, logiciels, outils et accélérations pour les utilisateurs de PC RTX.

Au fur et à mesure que l’IA générative progresse et se répand dans les industries, l’importance
d’exécuter des applications d’IA générative sur des PC locaux et des stations de travail s’accroît.
L’inférence locale permet aux consommateurs de réduire la latence, d’éliminer leur dépendance au
réseau et de mieux contrôler leurs données.

Les GPU NVIDIA GeForce et NVIDIA RTX sont équipés de Tensor Cores, des accélérateurs matériels
dédiés à l’IA qui fournissent la puissance nécessaire pour exécuter l’IA générative localement.

Stable Video Diffusion est désormais optimisé pour le kit de développement logiciel NVIDIA TensorRT, qui débloque l’IA générative la plus performante sur plus de 100 millions de PC et stations de travail Windows équipés de GPU RTX.

Aujourd’hui, l’extension TensorRT pour la populaire interface Web de Stable Diffusion par
Automatic1111 ajoute la prise en charge des ControlNets, des outils qui donnent aux utilisateurs plus de contrôle pour affiner les résultats génératifs en ajoutant d’autres images en tant que guide.

L’accélération TensorRT peut être mise à l’épreuve dans le nouveau benchmark UL Procyon AI Image Generation, dont les tests internes ont montré qu’il reproduisait fidèlement les performances du monde réel. Il a permis une accélération de 50 % sur un GPU GeForce RTX 4080 SUPER par rapport à l’implémentation non TensorRT la plus rapide, et a été plus de deux fois plus rapide que le concurrent le plus proche.

Une IA plus efficace et plus précise

TensorRT permet aux développeurs d’accéder au matériel qui fournit des expériences d’IA entièrement optimisées. Les performances de l’IA sont généralement doublées par rapport à l’exécution de l’application sur d’autres frameworks.

TensorRT accélère également les modèles d’IA générative les plus populaires, tels que Stable Diffusion et SDXL. Stable Video Diffusion, le modèle d’IA générative image-vidéo de Stability AI, bénéficie d’une accélération de 40% avec TensorRT.

Le modèle image-vidéo optimisé Stable Video Diffusion 1.1 peut être téléchargé sur Hugging Face.

De plus, l’extension TensorRT pour l’interface Web de Stable Diffusion augmente les performances
jusqu’à 2 fois, ce qui simplifie considérablement les flux de travail de Stable Diffusion.

Avec la dernière mise à jour de l’extension, les optimisations de TensorRT s’étendent aux ControlNets – un ensemble de modèles d’IA qui aident à guider la sortie d’un modèle de diffusion en ajoutant des conditions supplémentaires. Avec TensorRT, les ControlNets sont 40 % plus rapides.

Les utilisateurs peuvent orienter certains aspects de la sortie en fonction d’une image d’entrée, ce qui leur permet de mieux contrôler l’image finale. Ils peuvent également utiliser plusieurs ControlNets ensemble pour un contrôle encore plus poussé. Un ControlNet peut être une carte de profondeur, une carte de bord, une carte de normalité ou un modèle de détection de points clés, entre autres.

Téléchargez l’extension TensorRT pour Stable Diffusion Web UI sur GitHub dès aujourd’hui.

Autres applications populaires accélérées par TensorRT

Blackmagic Design a adopté l’accélération NVIDIA TensorRT dans la mise à jour 18.6 de DaVinci Resolve. Ses outils IA, tels que Magic Mask, Speed Warp et Super Scale, s’exécutent plus de 50 % et jusqu’à 2,3 fois plus vite sur les GPU RTX que sur les Mac.
En outre, grâce à l’intégration de TensorRT, Topaz Labs a constaté une augmentation de 60 % des
performances de ses applications Photo AI et Video AI – telles que le débruitage des photos,
l’accentuation de la netteté, la super résolution des photos, le ralenti vidéo, la super résolution vidéo, la stabilisation vidéo et bien plus encore – toutes exécutées sur RTX.
La combinaison des cœurs Tensor avec le logiciel TensorRT apporte des performances inégalées en
matière d’IA générative aux PC locaux et aux stations de travail. Et l’exécution locale permet de bénéficier de plusieurs avantages :

Performance : Les utilisateurs bénéficient d’une latence plus faible, car celle-ci devient
indépendante de la qualité du réseau lorsque l’ensemble du modèle s’exécute localement. Cela
peut être important pour les cas d’utilisation en temps réel tels que les jeux ou les
vidéoconférences. NVIDIA RTX propose les accélérateurs d’IA les plus rapides, avec une mise à
l’échelle à plus de 1 300 trillions d’opérations d’IA par seconde, ou TOPS.
Coût : Les utilisateurs n’ont pas à payer de services cloud, d’interfaces de programmation
d’applications hébergées dans le cloud ou de coûts d’infrastructure pour l’inférence de grands
modèles de langage.
Toujours disponible : Les utilisateurs peuvent accéder aux fonctionnalités LLM partout où ils se
trouvent, sans dépendre d’une connectivité réseau à large bande passante.
Confidentialité des données : Les données privées et propriétaires peuvent toujours rester sur
l’appareil de l’utilisateur.

Optimisé pour les LLM

Ce que TensorRT apporte au deep learning, NVIDIA TensorRT-LLM l’apporte aux derniers LLM.

TensorRT-LLM, une bibliothèque open-source qui accélère et optimise l’inférence LLM, inclut un support prêt à l’emploi pour les modèles communautaires populaires, y compris Phi-2, Llama2, Gemma, Mistral et Code Llama. Tout le monde – des développeurs et créateurs aux employés d’entreprise et aux utilisateurs occasionnels – peut expérimenter des modèles optimisés par TensorRT-LLM dans les modèles de la NVIDIA AI Foundation. De plus, avec NVIDIA ChatRTX, les utilisateurs peuvent voir les performances de différents modèles fonctionnant localement sur un PC Windows. ChatRTX est basé sur TensorRT-LLM pour des performances optimisées sur les GPU RTX.
TensorRT-LLM pour Windows est compatible avec la célèbre API Chat d’OpenAI grâce à un nouveau
wrapper qui permet de basculer facilement entre l’exécution d’applications LLM dans le cloud et sur des systèmes RTX locaux.
NVIDIA collabore avec la communauté open-source pour développer des connecteurs TensorRT-LLM natifs avec les frameworks d’application les plus populaires, comme LlamaIndex et LangChain.
Ces innovations permettent aux développeurs d’utiliser facilement TensorRT-LLM avec leurs applications et de bénéficier des meilleures performances LLM avec RTX.
Recevez des mises à jour hebdomadaires directement dans votre boîte de réception en vous abonnant à la lettre d’information AI Decoded.


En savoir plus sur Fluides et Lubrifiants

Abonnez-vous pour recevoir les derniers articles par e-mail.

Laisser un commentaire