Une nouvelle méthode améliore l'efficacité des systèmes d'IA « Vision Transformer »
MaisonMaison > Nouvelles > Une nouvelle méthode améliore l'efficacité des systèmes d'IA « Vision Transformer »

Une nouvelle méthode améliore l'efficacité des systèmes d'IA « Vision Transformer »

Jun 18, 2023

Les transformateurs de vision (ViT) sont de puissantes technologies d'intelligence artificielle (IA) capables d'identifier ou de catégoriser des objets dans des images. Cependant, il existe des défis importants liés à la fois aux besoins en puissance de calcul et à la transparence de la prise de décision. Les chercheurs ont maintenant développé une nouvelle méthodologie qui répond à ces deux défis, tout en améliorant la capacité du ViT à identifier, classer et segmenter les objets dans les images.

Les transformateurs font partie des modèles d'IA existants les plus puissants. Par exemple, ChatGPT est une IA qui utilise une architecture de transformateur, mais les entrées utilisées pour l'entraîner sont le langage. Les ViT sont des IA basées sur des transformateurs qui sont formées à l'aide d'entrées visuelles. Par exemple, les ViT peuvent être utilisés pour détecter et catégoriser des objets dans une image, comme identifier toutes les voitures ou tous les piétons dans une image.

Cependant, les ViT sont confrontés à deux défis.

Premièrement, les modèles de transformateurs sont très complexes. Par rapport à la quantité de données connectées à l'IA, les modèles de transformateur nécessitent une puissance de calcul importante et utilisent une grande quantité de mémoire. Ceci est particulièrement problématique pour les ViT, car les images contiennent beaucoup de données.

Deuxièmement, il est difficile pour les utilisateurs de comprendre exactement comment les ViT prennent leurs décisions. Par exemple, vous avez peut-être entraîné un ViT à identifier les chiens sur une image. Mais il n'est pas tout à fait clair comment le ViT détermine ce qui est un chien et ce qui ne l'est pas. Selon l'application, la compréhension du processus de prise de décision du ViT, également connu sous le nom d'interprétabilité de son modèle, peut être très importante.

La nouvelle méthodologie ViT, appelée "Patch-to-Cluster attention" (PaCa), répond à ces deux défis.

"Nous relevons le défi lié aux demandes de calcul et de mémoire en utilisant des techniques de clustering, qui permettent à l'architecture du transformateur de mieux identifier et se concentrer sur les objets d'une image", explique Tianfu Wu, auteur correspondant d'un article sur le travail et professeur agrégé de génie électrique et informatique à la North Carolina State University. "Le clustering, c'est quand l'IA regroupe des sections de l'image, en fonction des similitudes qu'elle trouve dans les données d'image. Cela réduit considérablement les demandes de calcul sur le système. Avant le clustering, les demandes de calcul pour un ViT sont quadratiques. Par exemple, si le système décompose une image en 100 unités plus petites, il devrait comparer les 100 unités entre elles - ce qui représenterait 10 000 fonctions complexes.

"En regroupant, nous sommes en mesure d'en faire un processus linéaire, où chaque unité plus petite n'a besoin d'être comparée qu'à un nombre prédéterminé de clusters. Supposons que vous disiez au système d'établir 10 clusters ; cela ne représenterait que 1 000 fonctions complexes ", dit Wu.

"Le clustering nous permet également d'aborder l'interprétabilité du modèle, car nous pouvons voir comment il a créé les clusters en premier lieu. Quelles fonctionnalités a-t-il décidé d'être importantes lors du regroupement de ces sections de données ? Et comme l'IA ne crée qu'un petit nombre de clusters, nous pouvons les examiner assez facilement."

Les chercheurs ont effectué des tests complets de PaCa, en le comparant à deux ViT de pointe appelés SWin et PVT.

"Nous avons constaté que PaCa surpassait SWin et PVT à tous points de vue", déclare Wu. "PaCa était meilleur pour classer les objets dans les images, mieux pour identifier les objets dans les images et mieux pour la segmentation - décrivant essentiellement les limites des objets dans les images. Il était également plus efficace, ce qui signifie qu'il était capable d'effectuer ces tâches plus rapidement que les autres ViT.

"La prochaine étape pour nous consiste à faire évoluer PaCa en nous formant sur des ensembles de données fondamentaux plus vastes."

L'article, "PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers", sera présenté à la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, qui se tiendra du 18 au 22 juin à Vancouver, au Canada. Le premier auteur de l'article est Ryan Grainger, titulaire d'un doctorat. étudiant à NC State. L'article a été co-écrit par Thomas Paniagua, un Ph.D. étudiant à NC State; Xi Song, chercheur indépendant ; et Naresh Cuntoor et Mun Wai Lee de BlueHalo.

Les travaux ont été réalisés avec le soutien du Bureau du directeur du renseignement national, sous le numéro de contrat 2021-21040700003 ; le US Army Research Office, dans le cadre des subventions W911NF1810295 et W911NF2210010 ; et la National Science Foundation, dans le cadre des subventions 1909644, 1822477, 2024688 et 2013451.

-navire-

Remarque aux rédacteurs :Le résumé de l'étude suit.

"PaCa-ViT : Apprentissage de l'attention patch-to-cluster dans les transformateurs de vision"

Auteurs : Ryan Grainger, Thomas Paniagua et Tianfu Wu, North Carolina State University ; Xi Song, chercheur indépendant ; Naresh Cuntoor et Mun Wai Lee, BlueHalo

Présenté : IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023, 18-22 juin, Vancouver, Canada

Abstrait: Les transformateurs de vision (ViT) sont construits sur l'hypothèse de traiter les patchs d'image comme des « jetons visuels » et d'apprendre l'attention patch à patch. Le tokenizer basé sur l'intégration de correctifs présente un écart sémantique par rapport à son homologue, le tokenizer textuel. L'attention patch à patch souffre du problème de complexité quadratique et rend également non triviale l'explication des ViT apprises. Pour résoudre ces problèmes dans ViT, cet article propose d'apprendre l'attention Patch-to-Cluster (PaCa) dans ViT. Les requêtes dans notre PaCa-ViT commencent par des patchs, tandis que les clés et les valeurs sont directement basées sur le clustering (avec un petit nombre prédéfini de clusters). Les clusters sont appris de bout en bout, conduisant à de meilleurs tokenizers et induisant un clustering-for-attention et un attention-for-clustering pour des modèles meilleurs et interprétables. La complexité quadratique est relaxée en complexité linéaire. Le module PaCa proposé est utilisé dans la conception de backbones ViT efficaces et interprétables et de réseaux de têtes de segmentation sémantique. Dans des expériences, les méthodes proposées sont testées sur la classification d'images ImageNet-1k, la détection d'objets MS-COCO et la segmentation d'instances et la segmentation sémantique MIT-ADE20k. Par rapport à l'art antérieur, il obtient de meilleures performances dans les trois benchmarks que le SWin et les PVT par des marges significatives dans ImageNet-1k et MIT-ADE20k. Il est également nettement plus efficace que les modèles PVT dans MS-COCO et MIT-ADE20k en raison de la complexité linéaire. Les clusters appris sont sémantiquement significatifs. Les points de contrôle du code et du modèle sont disponibles sur https://github.com/iVMCL/PaCaViT.

Note aux éditeurs : "PaCa-ViT : Apprentissage de l'attention patch-to-cluster dans les transformateurs de vision" Résumé :