Cette recherche sur l'IA plonge dans les limites et les capacités des grands modèles de langage transformateur (LLM), empiriquement et théoriquement, sur les tâches de composition
MaisonMaison > Blog > Cette recherche sur l'IA plonge dans les limites et les capacités des grands modèles de langage transformateur (LLM), empiriquement et théoriquement, sur les tâches de composition

Cette recherche sur l'IA plonge dans les limites et les capacités des grands modèles de langage transformateur (LLM), empiriquement et théoriquement, sur les tâches de composition

Jun 13, 2023

ChatGPT est à la mode et des millions de personnes l'utilisent chaque jour. Avec ses incroyables capacités d'imitation des humains, telles que la réponse aux questions, la génération de contenu unique et créatif, la synthèse de données textuelles massives, la complétion de code et le développement d'assistants virtuels très utiles, ChatGPT nous facilite la vie. Développé par OpenAI, ChatGPT est basé sur GPT 3.5 (Generative Pre-Trained Transformer) et l'architecture de transformateur de GPT 4. GPT 4, la dernière version des modèles de langage publiée par OpenAI, est de nature multimodale, c'est-à-dire qu'elle prend en entrée sous forme de texte et d'images, contrairement aux versions précédentes. Même d'autres grands modèles de langage (LLM) comme PaLM, LLaMA et BERT sont utilisés dans des applications de divers domaines impliquant la santé, le commerce électronique, la finance, l'éducation, etc.

Une équipe de chercheurs a mis en évidence la différence entre les performances impressionnantes des LLM comme GPT sur des tâches complexes et leurs difficultés avec des tâches simples dans un document de recherche récemment publié. Plongeant dans les limites et les capacités des transformateurs LLM, l'équipe a mené des expériences sur trois tâches de composition représentatives : la multiplication à plusieurs chiffres, les puzzles de grille logique et un problème de programmation dynamique classique. Ces tâches impliquent de décomposer les problèmes en étapes plus petites et de combiner ces étapes pour produire une solution exacte.

Dans le but d'étudier les limites des Transformers dans la résolution de tâches de composition nécessitant un raisonnement en plusieurs étapes, les auteurs ont proposé deux hypothèses. La première est que les transformateurs accomplissent des tâches en linéarisant le raisonnement en plusieurs étapes dans la correspondance de chemin, s'appuyant ainsi sur la correspondance de modèles et l'apprentissage par raccourci plutôt que sur la compréhension et la mise en œuvre des règles de calcul sous-jacentes nécessaires pour développer des solutions appropriées. Cette approche permet des prédictions rapides et précises dans des modèles similaires pendant la formation, mais ne parvient pas à généraliser à des exemples complexes peu communs. La deuxième hypothèse stipule que les transformateurs peuvent avoir des limitations inhérentes tout en essayant de résoudre des tâches de composition très complexes ayant des modèles uniques. Les premières erreurs de calcul peuvent se propager et entraîner de graves erreurs de composition dans les étapes ultérieures, empêchant les modèles d'arriver à la bonne solution.

Les auteurs ont formulé les tâches de composition sous forme de graphes de calcul afin d'étudier les deux hypothèses. Ces graphiques décomposent le processus de résolution de problèmes en étapes fonctionnelles sous-modulaires plus petites et plus gérables, permettant des mesures structurées de la complexité du problème et la verbalisation des étapes de calcul en tant que séquences d'entrée dans les modèles de langage. Ils utilisent même le gain d'informations pour faire des prédictions sur les modèles que les modèles apprendraient probablement en fonction de la distribution des tâches sous-jacentes sans exécuter de calculs complets dans le graphique.

Sur la base des résultats empiriques, les auteurs ont proposé que les transformateurs traitent les défis de composition en réduisant le raisonnement en plusieurs étapes en une correspondance de sous-graphes linéarisée. Ils ont fourni des arguments théoriques basés sur des problèmes abstraits de raisonnement en plusieurs étapes, qui soulignent qu'à mesure que la complexité de la tâche augmente, les performances de Transformers se détériorent rapidement. Cela montre que les modèles pourraient déjà être limités dans leur capacité à traiter des problèmes de composition d'une grande complexité.

En conclusion, les résultats empiriques et théoriques impliquent qu'au lieu d'une compréhension approfondie des processus de pensée sous-jacents, les performances de Transformers sont principalement motivées par l'appariement de modèles et l'appariement de sous-graphes, ce qui soutient également l'idée que Transformers aurait du mal à accomplir des tâches de plus en plus difficiles.

VérifiezPapier.N'oubliez pas de rejoindrenotre sous-reddit 22k+ ML,Chaîne discorde, etCourriel , où nous partageons les dernières nouvelles sur la recherche en IA, des projets d'IA sympas, et plus encore. Si vous avez des questions concernant l'article ci-dessus ou si nous avons manqué quelque chose, n'hésitez pas à nous envoyer un courriel à[email protected]

🚀 Découvrez les outils d'intelligence artificielle de 100 dans AI Tools Club

Tanya Malhotra est une dernière année de premier cycle de l'Université d'études pétrolières et énergétiques de Dehradun, poursuivant un BTech en génie informatique avec une spécialisation en intelligence artificielle et en apprentissage automatique.

Papier. notre 22k+ ML SubReddit Discord Channel Email Newsletter [email protected] 🚀 Découvrez 100's AI Tools dans AI Tools Club