AMST2 : multi agrégé - Colline du Château inc.

Rapports scientifiques volume 13, Numéro d'article : 9062 (2023) Citer cet article

59 Accès

2 Altmétrique

Détails des métriques

Récemment, de nombreux trackers visuels existants ont fait des progrès significatifs en incorporant soit des informations spatiales provenant de couches de convolution à plusieurs niveaux, soit des informations temporelles pour le suivi. Cependant, les avantages complémentaires des informations spatiales et temporelles ne peuvent être exploités lorsque ces deux types d'informations sont utilisés séparément. Dans cet article, nous présentons une nouvelle approche pour un suivi visuel robuste à l'aide d'un modèle basé sur un transformateur qui intègre à la fois des informations de contexte spatial et temporel à plusieurs niveaux. Pour intégrer les cartes de similarité raffinées via des encodeurs spatiaux et temporels multi-niveaux, nous proposons un encodeur d'agrégation. Par conséquent, la sortie de l'encodeur d'agrégation proposé contient des fonctionnalités utiles qui intègrent les contextes globaux des contextes spatiaux et temporels à plusieurs niveaux. La fonctionnalité que nous proposons offre une représentation contrastée mais complémentaire de contextes spatiaux et temporels multi-niveaux. Cette caractéristique est particulièrement bénéfique dans les scénarios aériens complexes, où des échecs de suivi peuvent se produire en raison de l'occlusion, du flou de mouvement, des petits objets et des variations d'échelle. De plus, notre tracker utilise une dorsale réseau légère, assurant un suivi rapide et efficace des objets dans les ensembles de données aériennes. De plus, l'architecture proposée peut réaliser un suivi d'objet plus robuste contre des variations significatives en mettant à jour les caractéristiques du dernier objet tout en conservant les informations de modèle initiales. Des expériences approfondies sur sept repères de suivi aérien difficiles à court et à long terme ont démontré que le tracker proposé surpasse les méthodes de suivi de pointe en termes de vitesse de traitement en temps réel et de performances.

Le suivi visuel d'un objet d'intérêt est un sujet de recherche très important et stimulant en vision par ordinateur1. L'objectif principal du suivi visuel est d'estimer l'emplacement et la taille d'un objet arbitraire dans une séquence d'images vidéo en établissant des correspondances entre des pixels similaires dans différentes images. Ces dernières années, avec l'importance et l'utilisation croissantes des véhicules aériens sans pilote (UAV) tels que les drones, diverses méthodes de suivi visuel utilisant des données aériennes ont été étudiées2,3. Malgré des progrès considérables dans le suivi visuel, le suivi aérien est toujours confronté à de nombreux défis, notamment le suivi en temps réel, la fluctuation de l'éclairage, l'occlusion, les mouvements rapides, l'encombrement de l'arrière-plan et le flou.

Les paradigmes de suivi visuel conventionnels peuvent être classés en deux catégories : (1) le suivi par détection et (2) le suivi basé sur le réseau siamois.

La méthode de suivi par détection détecte d'abord l'objet dans chaque image vidéo, puis met à jour l'emplacement de l'objet à l'aide d'un modèle de mouvement. Le filtre de corrélation de discrimination (DCF) est une méthode représentative de suivi par détection, qui utilise des transformées de Fourier pour calculer efficacement le calcul de corrélation croisée et réalise un traitement en temps réel4,5,6,7,8,9,10,11. Le tracker DCF utilise également des fonctionnalités artisanales telles que l'histogramme des gradients orientés (HOG) pour représenter l'objet et l'arrière-plan. Cependant, le tracker DCF souffre de certaines limitations telles que l'incapacité à gérer les changements d'échelle et les variations d'apparence importantes.

En utilisant les fonctionnalités profondes des réseaux de neurones convolutifs (CNN), les méthodes basées sur l'apprentissage en profondeur ont fait de plus grands progrès dans les performances de suivi que les trackers basés sur DCF12,13,14,15,16,17,18. Malgré les progrès des trackers basés sur l'apprentissage en profondeur, certains algorithmes manquent de ressources de calcul qui les rendent inadaptés aux plates-formes embarquées, tandis que d'autres ne peuvent pas fournir le niveau de performances de suivi souhaité. Jusqu'à récemment, les trackers basés sur DCF étaient fréquemment utilisés dans les applications bas de gamme, ignorant leurs performances de suivi plus faibles par rapport aux méthodes basées sur l'apprentissage en profondeur en raison des contraintes des appareils comme celles des plates-formes embarquées.

Récemment, de nombreux trackers ont adopté l'architecture de réseau siamois pour obtenir simultanément un traitement en temps réel et des performances élevées. Des trackers basés sur un réseau siamois estiment la position d'un objet à l'aide d'une carte de similarité générée à partir de l'apparence cible d'un cadre de modèle et d'une représentation caractéristique correspondante d'une région de recherche dans le cadre de recherche. Ces trackers sont formés hors ligne sur un grand ensemble de données, tel que ImageNet19, pour mesurer la similitude entre le modèle et les correctifs de recherche. Bien que la version originale du tracker siamois soit SINT20, la méthode la plus populaire est appelée SiamFC21, qui a contribué à de nombreux autres trackers22,23,24,25,26,27,28,29,30,31,32,33,34,35. Plusieurs trackers siamois qui utilisent des CNN légers comme AlexNet36 sont incapables d'extraire à la fois des fonctionnalités robustes et un contexte global21,22,23,25,37. De nombreux trackers à la pointe de la technologie ont adopté des réseaux de neurones plus profonds comme ResNet38 pour résoudre le problème de performances26,27,28,29,30,31,34,39,40. En plus d'améliorer les réseaux de base, des recherches importantes ont été menées pour améliorer les cadres basés sur les réseaux siamois. Cela inclut la combinaison de diverses techniques telles que le DCF41,42, le module de réseau de proposition de région (RPN)26,37,43,44, le module de mise à jour des modèles44,45, le mécanisme d'attention24,34,35,46, le mécanisme sans ancrage29,30,31,33 et le mécanisme de transformateur47,48,49,50,51.

Comparaison qualitative entre l'état de l'art. Cette figure montre les résultats du tracker proposé AMST\(^2\) et de trois trackers à la pointe de la technologie sur une séquence vidéo difficile (Animal2, Vaulting de DTB70 et Bike2, Truck1 de UAV123). Le tracker AMST\(^2\) démontre des performances supérieures par rapport aux autres algorithmes en combinant un contexte spatial et temporel à plusieurs niveaux tout en ajoutant le mécanisme de mise à jour du modèle au niveau des fonctionnalités.

Bien que les trackers à usage général aient fait des progrès significatifs, le suivi dans un environnement aérien tel que les UAV exige un traitement plus rapide tout en maintenant un certain niveau de performances. Pour répondre à ces exigences, des trackers qui combinent des CNN légers avec diverses techniques d'apprentissage en profondeur ont été proposés. Dans ce contexte, SiamAPN a utilisé un réseau de propositions d'ancres pour affiner les ancres52. SiamAPN++ a adopté un réseau d'agrégation attentionnelle (AAN) pour obtenir un suivi aérien robuste dans des situations complexes grâce aux mécanismes d'attention des auto-AAN et des AAN croisés53. SiamAPN et SiamAPN++ ont généré un petit nombre d'ancres de haute qualité pour augmenter l'efficacité et les performances du tracker. HiFT54 et TCTrack55 sont des exemples de trackers aériens récents qui utilisent des CNN légers et une architecture de transformateur. HiFT résout l'invariance d'échelle en utilisant un transformateur de caractéristiques hiérarchique qui exploite le contexte global à partir de plusieurs couches de caractéristiques CNN. D'autre part, TCTrack utilise un cadre basé sur un transformateur qui intègre une connaissance préalable temporelle de la fonction de recherche et de la carte de similarité, avec des CNN légers modifiés qui prennent en compte les informations temporelles. Séparer l'utilisation d'informations spatiales et temporelles à plusieurs niveaux peut entraîner un problème important dans lequel des performances élevées ne sont atteintes que dans des scénarios robustes spécifiques. Par exemple, l'utilisation d'informations spatiales à plusieurs niveaux peut être robuste aux variations de faible résolution et d'échelle, tandis que s'appuyer uniquement sur des informations temporelles peut montrer de meilleures performances dans le traitement de la déformation.

L'intégration d'informations spatiales et temporelles peut améliorer la robustesse et l'efficacité dans des scénarios complexes. Pour ce faire, nous proposons une architecture agrégée de transformateurs multi-niveaux spatiaux et temporels basés sur le contexte (AMST\(^2\)) pour un suivi aérien robuste. Notre conception comprend un encodeur d'agrégation basé sur un encodeur de transformateur modifié et des encodeurs spatiaux et temporels à plusieurs niveaux qui capturent des contextes utiles pour une carte de similarité améliorée. La sortie de l'encodeur spatial multi-niveaux est alors simplement injectée dans la sortie de l'encodeur temporel à l'aide de l'encodeur d'agrégation. En conséquence, la sortie de l'encodeur d'agrégation est une représentation d'intégration robuste qui peut exploiter pleinement les contextes globaux des contextes spatiaux et temporels à plusieurs niveaux. Le décodeur se concentre sur la génération de cartes de similarité raffinées plus puissantes basées sur la sortie de l'encodeur d'agrégation. Les informations spatiales à plusieurs niveaux incluses dans l'encodeur d'agrégation traitent des informations très pertinentes pour le suivi de petits objets, qui est un gros problème dans le suivi aérien, et les informations temporelles capturent de grands changements dans les petits objets. De plus, le modèle proposé adopte un réseau fédérateur léger. L'utilisation d'un backbone léger présente un avantage global en termes de taille de modèle par rapport à l'utilisation d'un backbone profond lorsqu'il est combiné à divers algorithmes d'IA. En conséquence, ces trackers peuvent résoudre avec succès le problème du suivi de petits objets dans les données obtenues à l'aide de drones tout en fonctionnant en temps réel. De plus, dans la méthode existante55, la mise à jour des informations temporelles uniquement au niveau de la fonctionnalité de la recherche peut entraîner un échec élevé du tracker en raison d'une incohérence entre la recherche et la fonctionnalité du modèle dans le temps. Par conséquent, nous améliorons encore les performances de suivi en utilisant un réseau de mise à jour de modèle, qui est la mise à jour discrète du contexte temporel au niveau du modèle. Comme le montre la figure 1, l'AMST\(^2\) proposé atteint des performances précises et robustes dans des scénarios complexes.

Les principaux apports de ce travail peuvent être résumés comme suit :

Nous proposons un nouveau mécanisme de suivi de vue aérienne, qui introduit l'encodeur d'agrégation qui combine l'encodeur intégrant la représentation de la caractéristique hiérarchique des contextes spatiaux à plusieurs niveaux et la caractéristique des contextes temporels dans la structure du transformateur.

Le tracker proposé applique non seulement des informations temporelles au niveau de la fonctionnalité de recherche et au niveau de la carte de similarité, mais adopte également le processus de mise à jour du modèle au niveau de la fonctionnalité du modèle en tant que mise à jour du contexte temporel discret pour un suivi plus robuste.

Nous effectuons des expériences complètes sur divers ensembles de données de drones pour l'évaluation des performances. Le tracker proposé montre l'obtention de résultats de pointe par rapport à d'autres trackers aériens avec traitement en temps réel.

Le transformateur a été proposé pour la première fois par Vaswani et al. comme modèle pour effectuer des tâches de séquence à séquence, telles que la traduction automatique56. Cette approche est basée sur le mécanisme d'attention, qui peut capturer efficacement les informations globales de la séquence d'entrée lors de la génération de la séquence de sortie en se concentrant davantage sur la partie la plus importante de toute la séquence d'entrée.

Récemment, le transformateur a été appliqué à des tâches de vision, y compris la classification d'images57, la détection d'objets58 et la reconnaissance d'action59, en plus des champs de traitement du langage naturel (TAL). Cette approche est devenue de plus en plus populaire en raison de sa capacité à incorporer des informations contextuelles spatiales et temporelles de manière flexible et efficace, permettant de meilleures performances de suivi dans divers scénarios.

La plupart des trackers basés sur des transformateurs adoptent un processus d'alimentation du transformateur avec des fonctionnalités extraites du réseau fédérateur47,48,49,50,54,55. Inspiré par l'idée principale du transformateur, TransT a proposé un réseau de fusion de fonctionnalités composé d'un module d'augmentation du contexte de l'ego avec auto-attention et d'un module d'augmentation de fonctionnalités croisées avec attention croisée47. En tant que caractéristique utile de la sortie du réseau de fusion d'entités, le résultat de suivi final est obtenu par des processus de classification et de régression de boîte. TrDiMP utilise le prédicteur de modèle DiMP et génère des poids de modèle en utilisant les caractéristiques de sortie de l'encodeur du transformateur comme échantillons d'apprentissage48. Après cela, le modèle cible calcule la carte de score cible en appliquant les poids prédits aux caractéristiques de sortie générées par le décodeur de transformateur. TrDiMP intègre un IoUNet probabiliste pour la régression de la boîte de liaison et introduit également TrSiam, qui formule le modèle proposé dans un pipeline de type siamois. STARK, tel que proposé en49, est un tracker utilisant une architecture de transformateur de bout en bout basée sur DETR58. Le modèle apprend des représentations spatio-temporelles robustes en tirant parti des relations globales dans les informations spatiales et temporelles via l'encodeur, qui extrait les caractéristiques spatio-temporelles discriminantes qui sont introduites dans le décodeur. De plus, ce tracker élimine le besoin de techniques de post-traitement telles que la fenêtre cosinus ou le lissage de boîte englobante, simplifiant ainsi le pipeline de suivi existant. ToMP prédit le poids du noyau convolutif pour la localisation d'objets à l'aide d'un module de prédiction de modèle basé sur un transformateur pour surmonter les limites de la localisation de cible basée sur l'optimisation existante50. Le prédicteur de modèle cible basé sur un transformateur peut éviter une optimisation répétitive inutile et générer dynamiquement des caractéristiques discriminantes à l'aide d'informations cibles. AiATrack a introduit un module d'attention dans l'attention (AiA) qui améliore les corrélations appropriées et supprime les corrélations ambiguës afin de supprimer le bruit du mécanisme d'attention existant. En introduisant une méthode de mise à jour du modèle qui réutilise directement les fonctionnalités mises en cache précédemment codées, ils proposent un processus de suivi simplifié qui utilise efficacement des références à court et à long terme, montrant des performances remarquables.

De plus, des recherches actives et dynamiques ont été menées sur les méthodes de suivi basées sur des transformateurs qui adoptent une colonne vertébrale légère pour le suivi aérien54,55. Contrairement aux trackers mentionnés ci-dessus, la recherche sur les trackers dans lesquels le backbone est remplacé par des transformateurs au lieu des CNN existants montre également des performances remarquables60,61.

L'intégration d'informations spatiales et temporelles est cruciale pour améliorer les performances dans le domaine du suivi d'objets. De nombreux trackers utilisent des caractéristiques spatiales à plusieurs niveaux pour extraire la relation entre le modèle et la région de recherche actuelle en fonction de la dimension spatiale12,26,29,30,54. Le tracker utilisant des fonctionnalités multi-échelles présente l'avantage de pouvoir suivre de manière robuste la localisation d'objets de différentes échelles. Des trackers dynamiques basés sur des modèles, tels que Updatenet45 et SiamTOL44, ont été développés pour améliorer les performances de suivi en utilisant des informations temporelles. En particulier, TCTrack a introduit une méthode de suivi prenant en compte les contextes temporels de deux niveaux, dont le niveau des caractéristiques de recherche et le niveau de la carte de similarité55. Les trackers qui prennent en compte les informations temporelles peuvent atteindre des performances robustes en capturant les changements d'état de l'objet à travers les images. Cependant, lors de l'utilisation séparée d'informations spatiales et temporelles à plusieurs niveaux, il existe un problème en ce que les avantages complémentaires des deux informations ne peuvent pas être utilisés. Pour remédier à cette limitation, une méthode a été introduite pour améliorer la robustesse du tracker en intégrant des informations spatiales et temporelles par apprentissage simultané avec le transformateur, comme démontré dans le tracker STARK49.

En raison des progrès technologiques des UAV équipés de capacités de suivi visuel, le suivi aérien a été largement appliqué dans des secteurs tels que l'aviation, l'agriculture, les transports et la défense1,2,3. Un défi important dans le suivi aérien découle de la distorsion de l'image causée par les vibrations de vol des UAV et des environnements complexes. En particulier, dans le suivi aérien, lorsque des drones volant à haute altitude capturent un objet au sol, il est difficile d'extraire des caractéristiques riches en raison de la petite taille de l'objet. Alors que les trackers basés sur l'apprentissage en profondeur ont démontré leur supériorité sur divers ensembles de données UAV, les ressources limitées des plates-formes aériennes entravent l'utilisation de modèles lourds et limitent l'amélioration des performances de suivi. Pour relever ces défis, plusieurs trackers spécialisés ont été développés en utilisant différents ensembles de données UAV.

AutoTrack est un tracker basé sur DCF qui règle automatiquement les hyperparamètres de la régularisation spatio-temporelle, démontrant des performances élevées sur CPU62. COMET améliore la précision du suivi en proposant un tracker guidé par IoU sensible au contexte qui utilise un réseau multitâche à deux flux pour le suivi des petits objets et une stratégie de génération de proposition de référence hors ligne63. De plus, l'adoption d'un réseau de propositions d'ancres pour générer des ancres de haute qualité pour les trackers légers basés sur le réseau siamois a montré d'excellentes performances de suivi aérien52,53. De plus, l'utilisation d'un transformateur sur la dorsale légère du réseau siamois a entraîné des progrès notables en améliorant la carte de corrélation54,55.

Le développement de plates-formes informatiques d'IA embarquées miniaturisées offre une alternative prometteuse aux GPU de serveurs dédiés, permettant une recherche continue et une utilisation pratique dans les futurs efforts de suivi aérien.

Dans cette section, nous présentons le tracker AMST\(^2\) pour le suivi aérien, qui utilise un transformateur multi-niveaux spatial et temporel basé sur le contexte. Le tracker proposé se compose de quatre sous-modules : (1) le réseau d'extraction de caractéristiques siamoises, (2) le réseau de mise à jour des modèles, (3) le module de transformation (qui comprend l'encodeur spatial à plusieurs niveaux, l'encodeur temporel, l'encodeur d'agrégation et le décodeur multi-contexte) et (4) le réseau de classification et de régression. Pour fournir une comparaison claire avec les algorithmes de suivi existants, nous introduisons des algorithmes de base qui utilisent l'encodeur spatial à plusieurs niveaux, l'encodeur temporel et le réseau de mise à jour de modèles. Nous proposons ensuite une extension à ces algorithmes de base en adoptant un encodeur d'agrégation qui combine les représentations apprises par les encodeurs spatiaux et temporels multi-niveaux, ainsi qu'un décodeur modifié pour le suivi. Une représentation visuelle de notre méthode peut être vue sur la figure 2, et nous fournissons plus de détails sur l'approche ci-dessous.

Le processus de suivi global du tracker proposé. Le tracker AMST\(^2\) est composé de quatre composants principaux : un extracteur de caractéristiques siamois, un réseau de mise à jour de modèles, un transformateur et un réseau de classification et de régression. Le module transformateur se compose d'encodeurs multi-niveaux spatiaux, temporels et d'agrégation, ainsi que d'un décodeur multi-contexte. L'encodeur spatial multiniveau prend la carte de similarité générée à partir des caractéristiques des 3ème et 4ème couches comme entrée, tandis que l'encodeur temporel utilise la carte de similarité générée à partir des caractéristiques de la 5ème couche et la sortie de l'encodeur temporel précédent (indiqué par la ligne pointillée bleue) comme entrée. L'encodeur d'agrégation reçoit les sorties d'encodeurs spatiaux et temporels multiniveaux en tant qu'entrées. Le décodeur multi-contexte utilise les sorties de tous les encodeurs et la carte de similarité générée avec les caractéristiques de la 5ème couche comme entrées. De plus, le processus de mise à jour du modèle intègre un correctif de mise à jour, les fonctionnalités du modèle précédent et les fonctionnalités du modèle initial. Ce processus est exécuté soit pendant chaque trame spécifique, soit sous certaines conditions pour mettre à jour le modèle.

En tant que colonne vertébrale d'extraction de fonctionnalités, les CNN profonds tels que GoogLeNet64, MobileNet65 et ResNet38 ont été largement utilisés dans divers trackers. Cependant, les lourdes exigences de calcul limitent leur utilisation dans les plates-formes embarquées telles que les drones.

Pour résoudre ce problème, nous avons transformé un extracteur de caractéristiques léger tel qu'AlexNet avec des couches de convolution supplémentaires en convolution temporellement adaptative en ligne (TAdaConv)66, inspirée de55. TAdaConv considère le contexte temporel au niveau de la fonctionnalité de recherche. Une couche convolutive typique partage des poids et des biais apprenables dans toute la séquence de suivi. D'autre part, les paramètres de la couche de convolution en ligne sont calculés par des facteurs d'étalonnage qui varient pour chaque image et des poids et biais apprenables. Par conséquent, il est possible d'extraire des entités contenant des informations temporelles au niveau de l'entité en utilisant le poids convolutif dynamiquement calibré par la trame précédente. Étant donné que TAdaConv est calibré à l'aide de descripteurs globaux de la fonctionnalité dans les images précédentes, les performances de suivi avec le réseau convolutif adaptatif temporel (TAdaCNN) s'améliorent remarquablement malgré une diminution de la fréquence d'images. Pour plus de détails sur la façon de transformer une couche de convolution standard en TAdaConv, veuillez vous référer à55,66.

L'utilisation des fonctionnalités des couches de convolution de bas niveau et de haut niveau améliore la précision du suivi. Par conséquent, en utilisant TAdaCNN \(\phi\) comme épine dorsale, des informations spatiales à plusieurs niveaux sont obtenues en calculant la carte de similarité à l'aide des caractéristiques hiérarchiques de la multicouche de TAdaCNN à la t-ième image.

où \(\textrm{Z}\) et \(\textrm{X}\) représentent respectivement le modèle et l'image de recherche. \(\circledast\) désigne une corrélation croisée en profondeur et \(\phi _{\textrm{t}}^{i}\left( \cdot \right)\) représente la ième couche de convolution de TAdaCNN dans la tième image. Pour exploiter les fonctionnalités profondes multicouches, nous extrayons les fonctionnalités après avoir transformé les trois dernières couches de convolution du backbone en TAdaConv. Enfin, la carte de similarité \({\textbf{R}}_{t}^{3}\in {\mathbb {R}}^{H\times W\times C}\), \({\textbf{R}}_{t}^{4}\in {\mathbb {R}}^{H\times W\times C}\), et \({\textbf{R}}_{t}^{5}\in {\mathbb { R}}^{H\times W\times C}\) peut être obtenu en utilisant des fonctionnalités profondes multicouches.

Les cartes de similarité calculées à l'aide des caractéristiques hiérarchiques de la couche multiniveaux de la dorsale sont prétraitées avant d'être introduites dans des encodeurs spatiaux et temporels multiniveaux. L'architecture du codeur de transformateur proposé est illustrée à la Fig. 3. Tout d'abord, les cartes de similarité \({\textbf{R}}_{t}^{3}\), \({\textbf{R}}_{t}^{4}\) et \({\textbf{R}}_{t}^{5}\) obtenues à partir de la t-ième image sont passées à travers la couche convolutive. Ensuite, les cartes de similarité raffinées \({{\varvec{T}}}_{t}\in {\mathbb {R}}^{HW\times C}\), \({{\varvec{S}}}_{t}^{3}\in {\mathbb {R}}^{HW\times C}\), \({{\varvec{S}}}_{t}^{4}\in {\mathbb {R}}^{ HW\times C}\), et \({{\varvec{S}}}_{t}^{5}\in {\mathbb {R}}^{HW\times C}\) peuvent être obtenus en utilisant l'opération de remodelage ( \({{\varvec{T}}}_{t}\) peut être obtenu en copiant \({{\varvec{S}}}_{t}^{5}\), de sorte que \({{\varvec{T}}} _{t}\) = \({{\varvec{S}}}_{t}^{5}\)).

Le mécanisme d'attention est un élément crucial dans un transformateur standard. Cela implique d'utiliser la requête, la clé et la valeur représentées respectivement par \({\textbf{Q}},{\textbf{K}},\) et \({\textbf{V}}\). La fonction d'attention dans un transformateur standard est généralement définie comme l'attention du produit scalaire à l'échelle, qui peut être exprimée comme suit :

où \(1/\sqrt{d_{k}}\) est un facteur d'échelle pour contrôler la distribution softmax et éviter le problème de disparition du gradient. En étendant le module d'attention à plusieurs têtes, le modèle peut extraire des représentations dans plusieurs sous-espaces comme suit :

où \({\textbf{W}}_{j}^{{\textbf{Q}}\in {\mathbb{R}}^{C\times C/N}\), \({\textbf{W}}_{j}^{{\textbf{K}}}\in {\mathbb{R}}^{C\times C/N}\), \({\textbf{W}}_{j}^{{\textb f {V}}}\in {\mathbb{R}}^{C\times C/N}\), et \({\textbf{W}}^{{\textbf{O}}}\in {\mathbb{R}}^{C\times C}\) sont des matrices de poids apprenables, \(\textrm{Concat}(\cdot)\) représente la concaténation et \(N\) est le nombre de têtes d'attention.

Architecture du codeur de transformateur proposé. L'encodeur proposé se compose de trois composants : un encodeur spatial à plusieurs niveaux, un encodeur temporel et un encodeur d'agrégation.

Cao et al. ont utilisé une combinaison d'informations spatiales à plusieurs niveaux pour explorer pleinement les interdépendances entre les caractéristiques hiérarchiques54. Plus précisément, avec le codage de position apprenable, \({{\varvec{S}}}_{t}^{3}\) et \({{\varvec{S}}}_{t}^{4}\) sont combinés à l'aide d'une addition et d'une normalisation pour obtenir \({\textbf{M}}_{t}^{1}\), c'est-à-dire \({\textbf{M}}_{t}^{1}=\textrm{Norm}\left( {{ \varvec{S}}}_{t}^{3}+{{\varvec{S}}}_{t}^{4}\right)\), qui est ensuite introduit dans une couche d'attention à plusieurs têtes pour obtenir \({\textbf{M}}_{t}^{2}\) en utilisant l'équation de (3).

Comme indiqué dans (4), en considérant le contexte global de \({{\varvec{S}}}_{t}^{3}\) et \({{\varvec{S}}}_{t}^{4}\) et en apprenant les interdépendances des deux cartes de caractéristiques, \({\textbf{M}}_{t}^{2}\) est amélioré en une carte de caractéristiques haute résolution. Par la suite, \({\textbf{M}}_{t}^{3}\) peut être obtenu en ajoutant une opération et une couche de normalisation, c'est-à-dire \({\textbf{M}}_{t}^{3}=\textrm{Norm}\left( \mathbf {{M}}_{t}^{2}+{{\varvec{S}}}_{t}^{3}\right)\). Pour explorer pleinement les interdépendances entre \({\textbf{M}}_{t}^{3}\) et \({{\varvec{S}}}_{t}^{4}\), nous adoptons une couche de modulation. La couche de modulation peut exploiter efficacement les informations spatiales internes entre \({\textbf{M}}_{t}^{3}\) et \({{\varvec{S}}}_{t}^{4}\), la sortie \({\textbf{M}}_{t}^{4}\) de la couche de modulation peut être exprimée comme :

où \(\textrm{FFN}\left( \cdot \right)\) désigne un réseau à anticipation (FFN), \(\textrm{GAP}\left( \cdot \right)\) désigne un regroupement moyen global (GAP), et \(\gamma\) et \({\mathcal {F}}\left( \cdot \right)\) représentent respectivement le poids d'apprentissage et la couche de convolution. La sortie finale \({\textbf{M}}_{t}^{m}\in {\mathbb {R}}^{HW\times C}\) de l'encodeur spatial multiniveau peut être exprimée comme :

Les fonctionnalités d'intégration compressées du codeur spatial multiniveau non seulement discriminent efficacement les objets du scénario de variation d'échelle, mais sont également robustes à la détection de petits objets. L'encodeur spatial multi-niveaux est représenté sur la figure 3a.

En plus d'utiliser des informations temporelles au niveau des caractéristiques, Cao et al. affiné la carte de similarité à l'aide des connaissances temporelles antérieures en intégrant à la fois les connaissances antérieures et les informations actuelles au niveau de la similarité55. La structure du codeur basé sur le contexte temporel est composée de trois couches d'attention multi-têtes et d'un filtre d'informations temporelles. Le codeur temporel est représenté sur la figure 3b. Étant donné les connaissances antérieures \({{\varvec{T}}}_{t-1}^{m}\) et la carte de similarité actuelle \({{\varvec{T}}}_{t}\) comme entrées de l'encodeur, \({{\varvec{T}}}_{t}^{1}\) peut être obtenu en utilisant la première couche d'attention multi-tête.

Ensuite, \({{\varvec{T}}}_{t}^{2}\) est obtenu en normalisant après avoir ajouté \({{\varvec{T}}}_{t}\) et \({{\varvec{T}}}_{t}^{1}\), c'est-à-dire \({{\varvec{T}}}_{t}^{2}=\textrm{Norm}\left( {{\varvec{T}}}_ {t}+{{\varvec{T}}}_{t}^{1}\right)\). De la même manière qu'en (7), \({{\varvec{T}}}_{t}^{3}\) est obtenu en utilisant \({{\varvec{T}}}_{t}^{2}\) comme entrée de la deuxième couche d'attention multi-tête.

Après cela, \({{\varvec{T}}}_{t}^{4}\) peut être obtenu en ajoutant une opération et une couche de normalisation, c'est-à-dire \({{\varvec{T}}}_{t}^{4}=\textrm{Norm}\left( {{\varvec{T}}}_{t}^{2}+{{\varvec{T}}}_{t}^{3}\right)\). Lors du suivi, le contexte temporel dégradé se produit à cause de divers bruits. Par conséquent, le contexte inutile peut être inclus, ce qui dégrade les performances du dispositif de suivi lorsque les informations temporelles de la trame entière sont exploitées. Pour résoudre ce problème, le filtre d'informations temporelles peut être obtenu en alimentant le descripteur global de \({{\varvec{T}}}_{t}^{2}\), qui est le résultat de GAP dans le FFN. Le filtre d'informations temporelles et les informations filtrées \({{\varvec{T}}}_{t}^{f}\) peuvent être exprimés comme :

où f est le filtre d'information temporelle. La connaissance temporelle de la t-ième trame \({{\varvec{T}}}_{t}^{m}\in {\mathbb {R}}^{HW\times C}\) en tant que sortie finale de l'encodeur temporel peut être exprimée comme :

où \(\textrm{Norm}\left( \cdot \right)\) désigne la couche de normalisation. Notamment, la première trame présente un problème en ce qu'il n'y a pas de caractéristique distinctive de la trame précédente. Par conséquent, par opération de convolution, la carte de similarité initiale est définie sur \({{\varvec{T}}}_{0}^{m}={\mathcal {F}}_{init}\left( {{\varvec{T}}}_{1}\right)\), où \({\mathcal {F}}_{init}\left( \cdot \right)\) représente la couche de convolution initiale.

Afin d'améliorer les performances de suivi en utilisant des informations spatiales et temporelles multi-niveaux intégrées, nous proposons un encodeur d'agrégation qui agrège les sorties des encodeurs spatiaux et temporels multi-niveaux. L'encodeur d'agrégation modifie la couche d'attention multi-têtes de l'encodeur standard, permettant à la sortie de l'encodeur spatial multiniveau d'être injectée dans la sortie de l'encodeur temporel. Le poids d'attention pour l'encodeur d'agrégation peut être exprimé comme suit, étant donné les sorties \({\textbf{M}}_{t}^{m}\) et \({{\varvec{T}}}_{t}^{m}\) de chaque encodeur :

où \({\textbf{W}}_{j}^{{\textbf{M}}}\in {\mathbb {R}}^{C\times C/N}\), \({\textbf{W}}_{j}^{{{\varvec{T}}}}\in {\mathbb {R}}^{C\times C/N}\), \({\textbf{W}}_{j}^{\alpha }\in {\mathbb {R}}^{2C\times C/N}\) sont le poids apprenable de la couche linéaire et j est l'indice de la tête. Selon (11), la sortie de la tête \(j\text{-th}\) et la sortie H de la couche d'attention multi-tête modifiée peuvent être exprimées comme suit :

où \({\textbf{W}}^{O}\in {\mathbb {R}}^{C\times C}\) sont des matrices de poids apprenables et \(N\) est le nombre de têtes d'attention. Ensuite, \({\textbf{A}}_{t}^{1}\) peut être obtenu en utilisant l'opération d'ajout et la couche de normalisation, c'est-à-dire \({\textbf{A}}_{t}^{1}=\textrm{Norm}\left( {{\varvec{T}}}_{t}^{m}+H\right)\). Enfin, la sortie \({\textbf{A}}_{t}^{m}\) de l'encodeur d'agrégation peut être obtenue par :

La sortie de l'encodeur d'agrégation intègre des informations spatiales et temporelles à plusieurs niveaux pour générer des scénarios complexes de caractéristiques plus puissantes. La structure détaillée du codeur d'agrégation est illustrée à la Fig. 3c.

Nous proposons un décodeur multi-contexte pour utiliser à la fois des informations à haute résolution et à basse résolution, et exploiter davantage l'interrelation entre les caractéristiques spatiales actuelles et les connaissances temporelles. Le décodeur multi-contexte proposé introduit une structure qui intègre les caractéristiques multi-contextes raffinées en utilisant les sorties des encodeurs spatiaux et temporels multi-niveaux. Par conséquent, nous adoptons trois attentions multi-têtes différentes de la structure de décodeur du transformateur standard. De plus, après la première attention multi-tête, la sortie de l'encodeur d'agrégation a été utilisée pour la clé, et la sortie des encodeurs spatiaux et temporels à plusieurs niveaux a été utilisée pour la valeur, respectivement. Par conséquent, le procédé proposé non seulement maintient les informations de caractéristique de chacun des encodeurs spatiaux et temporels multiniveaux, mais obtient également la caractéristique avec une attention accrue à un emplacement correspondant contenant les informations multi-contexte sur la base des informations valides de l'emplacement contenant les informations multi-contexte agrégées de l'encodeur d'agrégation. Le codage positionnel du codeur spatial multiniveau est utilisé pour distinguer chaque emplacement sur la carte des caractéristiques. Cependant, afin d'éviter une influence directe sur les caractéristiques transformées basées sur plusieurs contextes, le décodeur est conçu sans codage positionnel et reçoit implicitement les informations de position du codeur spatial multiniveau54. Le décodeur multi-contexte est illustré à la Fig. 4.

Architecture du décodeur de transformateur proposé. Le décodeur proposé vise à affiner la carte de similarité en utilisant de multiples informations contextuelles et est composé de trois modules d'attention multi-têtes.

La carte de similarité basse résolution actuelle \({{\varvec{S}}}_{t}^{5}\) et \({{\varvec{T}}}_{t}\) sont la même carte de similarité et sont désignées par \({\textbf{D}}_{t}\), le résultat normalisé après addition à \({\textbf{D}}_{t}\) passé par l'attention multi-tête est le suivant :

Les sorties du calcul des deux attentions multi-têtes utilisant à la fois \({\textbf{D}}_{t}^{1}\) et les sorties des encodeurs sont ensuite normalisées après avoir ajouté à \({\textbf{D}}_{t}^{1}\) est exprimée comme :

où \({\textbf{D}}_{t}^{2}\) est le résultat de définir la clé et la valeur sur \({\textbf{A}}_{t}^{m}\) et \({\textbf{M}}_{t}^{m}\), respectivement, et \({\textbf{D}}_{t}^{3}\) est le résultat de définir la clé et la valeur sur \({\textbf{A}}_{ t}^{m}\) et \({{\varvec{T}}}_{t}^{m}\), respectivement. Le résultat final \({\textbf{D}}_{t}^{*}\) du transformateur contenant des informations multi-contexte peut être obtenu en utilisant \({\textbf{D}}_{t}^{2}\) et \({\textbf{D}}_{t}^{3}\) obtenu à partir de (15).

Malgré l'utilisation des informations de contexte temporel via TAdaCNN, la mise à jour des informations temporelles uniquement au niveau de la fonctionnalité de la recherche peut entraîner un échec élevé du tracker en raison de l'incohérence entre la recherche et la fonctionnalité de modèle au fil du temps. De plus, lors de la mise à jour d'un modèle à l'aide d'un réseau fédérateur, les informations du modèle initial qui est un échantillon non contaminé peuvent être perdues et violent les critères de suivi visuel pour suivre un objet arbitraire à l'aide d'un modèle initial. Nous adoptons le réseau de mise à jour de modèles en tant que réseau de fusion de fonctionnalités44 pour combiner les fonctionnalités du modèle initial et de l'échantillon de mise à jour, comme illustré à la Fig. 2.

Étant donné le modèle et l'échantillon de mise à jour dans la k-ième image, le modèle mis à jour \(\hat{\textrm{Z}}_{k}\) utilisant le réseau de mise à jour du modèle est calculé comme suit :

où \(\textrm{Z}_{1}\) et \(\textrm{U}_{k}\) désignent respectivement le modèle initial et la k-ième image mise à jour du cadre. \(\tilde{\textrm{Z}}_{k}^{i}\) et \(\phi _{1}^{i}\left( \textrm{Z}_{1}\right)\) représentent respectivement le modèle mis à jour précédent et la fonctionnalité de modèle initial de la première image. \(\psi _{k}^{i}\left( \cdot \right)\) représente le réseau de mise à jour du modèle. \(\tilde{\textrm{Z}}_{k}^{i}\) est initialisé à \(\phi _{1}^{i}\left( \textrm{Z}_{1}\right)\) lors du premier processus de mise à jour. Le réseau de mise à jour du modèle se compose de trois couches convolutives 1\(\times\)1 avec différents canaux de C, C/2 et C. Chacune des deux premières couches convolutives est suivie d'une ReLU. Nous mettons à jour le modèle toutes les trames \(\delta\) ou lorsque le score de confiance est inférieur au seuil \(\tau\). Le réseau de mise à jour de modèles peut apprendre des représentations puissantes des changements d'apparence d'objet et peut empêcher l'échec du suivi en raison d'une dérive extrême au fil du temps.

La fonction de perte proposée consiste en deux branches pour les tâches de classification et de régression, similaires au tracker HiFT54. La première branche de classification calcule les scores de premier plan et d'arrière-plan d'un emplacement donné, tandis que la deuxième branche mesure le contraste de distance entre l'emplacement et le centre de la vérité au sol pour supprimer les boîtes de mauvaise qualité. Pour la régression, une combinaison linéaire de la norme L1 et du IoU complet (CIoU)67 est utilisée. La perte de régression peut être formulée comme suit :

où \({\textbf{b}}_{j}\) est la jème boîte englobante prédite et \({\textbf{b}}^{gt}\) est sa boîte de vérité terrain correspondante, cj et cgt représentent respectivement le centre des boîtes prédites et de vérité terrain, \(\rho \left( \cdot \right)\) représente la distance euclidienne, et d est la longueur diagonale de la boîte couvrant la boîte englobante prédite et la boîte de vérité terrain, et \(\upsilon\) représente la correspondance entre les rapports d'aspect de la boîte englobante prédite et de la boîte de vérité terrain, et \(\alpha\) est un paramètre de compromis positif, qui contrôle l'équilibre entre les cas non superposés et les cas superposés, et \(\lambda _{I}=1\), \(\lambda _{C}=0,5\) et \(\lambda _{L1}=0,5\) sont les paramètres de régularisation dans notre expériences. La fonction de perte totale peut être exprimée comme suit :

où \(\lambda _{1}=1\), \(\lambda _{2}=1\) et \(\lambda _{3}=1.2\) sont les paramètres de régularisation dans nos expériences.

L'extracteur de fonctionnalités du modèle proposé comprend un réseau siamois et un réseau de mise à jour de modèles pour contrôler les fonctionnalités en ligne. Cependant, la formation du réseau avec seulement une perte totale peut conduire à un sur-ajustement et à un dilemme dans l'équilibrage de la fonction entre le réseau siamois et le réseau de mise à jour du modèle. Pour résoudre ce problème, nous adoptons une méthode de formation aux pertes multi-aspects44. La perte d'entraînement multi-aspects comprend trois aspects. Premièrement, la perte \(L_{template}\) est basée sur l'échantillon de modèle et la région de recherche pour permettre au réseau de suivre comme un tracker siamois existant utilisant le modèle. Deuxièmement, la perte \(L_{update}\) est obtenue à l'aide de l'échantillon de mise à jour et de la région de recherche, qui peut également être considérée comme un échantillon de modèle, ce qui entraîne un effet complémentaire d'augmentation des données de l'échantillon. Troisièmement, la perte \(L_{overall}\) est obtenue en utilisant le modèle mis à jour, qui est la sortie du réseau de mise à jour du modèle, et la zone de recherche pour apprendre à suivre l'emplacement d'un objet à l'aide des informations de modèle mises à jour. Enfin, la perte \(L_{final}\) s'exprime comme suit :

où \(L_{template}\), \(L_{update}\) et \(L_{overall}\) sont construits comme \(L_{total}\) de (19) perte obtenue à l'aide de l'échantillon de modèle, de l'échantillon de mise à jour et de la fonction de modèle mise à jour, respectivement.

Dans cette section, nous avons mené des expériences complètes du tracker proposé AMST\(^2\) sur divers ensembles de données UAV, notamment DTB7068, UAV12369, UAV123@10fps69, UAV20L69, UAVTrack112\(\_\)L70, VisDrone-SOT202071 et UAVDT72. Pour évaluer les performances de la méthode de suivi visuel SOTA, nous avons comparé quantitativement le tracker proposé avec 51 top trackers existants. Les méthodes existantes incluent les trackers légers5,6,7,8,9,10,11,12,16,21,22,23,26,32,37,52,53,54,55,62,73,74,75,76 trackers et les trackers profonds26,27,28,29,30,31,33,39,40,46,47,48,49,5 0,51,77,78. Pour une comparaison équitable, nous avons utilisé des trackers basés sur le réseau siamois pour toutes les dorsales légères telles qu'AlexNet. Dans toutes les expériences, nous avons utilisé des codes accessibles au public ou des résultats fournis par l'auteur original.

Au cours de la phase de formation, AMST\(^2\) a été formé sur les ensembles de données ImageNet VID19, COCO79, GOT-10K80 et LaSOT81. Nous avons exploité trois échantillons pour la formation. Nous avons utilisé la même taille de patch 127 \(\times\) 127 pour le modèle et la mise à jour, et avons utilisé le patch de recherche de taille 287 \(\times\) 287. Notre backbone est un AlexNet avec les trois dernières couches converties par TAdaConv et initialisées avec des poids pré-formés d'ImageNet. Pour un apprentissage efficace du contexte temporel de TAdaConv, nous avons utilisé un patch de recherche dans la moitié et deux patchs de recherche dans un tiers pour l'époque entière, respectivement, et trois patchs de recherche pour les époques restantes. L'architecture du transformateur se compose d'une couche de codeur spatial multiniveau, d'une couche de codeur temporel, d'une couche de codeur d'agrégation et de deux couches de décodeur multicontexte. L'ensemble de nos réseaux est formé avec une descente de gradient stochastique (SGD) avec une décroissance de l'élan et du poids de 0,9 et 0,0001, respectivement. La taille du lot était de 180 et le réseau a été formé pendant 100 époques. Pour les 20 premières époques, les couches de la colonne vertébrale sont gelées et les époques restantes affinent les trois dernières couches. Nous avons utilisé un taux d'apprentissage d'échauffement de 0,005 à 0,01 dans les 10 premières époques et un taux d'apprentissage décroissant de 0,01 à 0,00005 dans l'espace logarithmique dans les époques restantes. Le processus de formation a été mené avec deux GPU NVIDIA RTX 3090.

Dans la phase d'inférence, pour obtenir la connaissance préalable temporelle initiale, nous avons calculé la corrélation entre le modèle et les correctifs de recherche en utilisant uniquement la trame initiale. Ensuite, le suivi fluide des objets a été possible en faisant correspondre en permanence la caractéristique de la zone de recherche recadrée en fonction de la position de l'objet du cadre précédent avec la fonction de modèle obtenue dans le cadre initial ou la fonction de modèle mise à jour via le réseau de mise à jour de modèle. Le seuil \(\tau\) du processus de mise à jour du modèle a été défini sur 0,8. De plus, \(\delta\) a été fixé à 50 pour les ensembles de données de suivi aérien à court terme tels que DTB70 et à 150 pour les ensembles de données aériennes à long terme tels que UAV123. Afin de lisser le mouvement de l'objet, la fenêtre cosinus et la pénalité de changement d'échelle sont appliquées pour la boîte prédite afin d'éliminer les valeurs aberrantes des limites et de minimiser les grands changements de taille et de rapport5,37. Après cela, en sélectionnant la boîte de prédiction avec le meilleur score, la taille de la boîte englobante est mise à jour par interpolation linéaire. La figure 2 montre un processus de suivi complet, où notre tracker fonctionne sur un seul GPU NVIDIA RTX 3090 pour un suivi en temps réel.

Nous avons utilisé One Pass Evaluation (OPE)69,82 pour évaluer la méthode proposée. OPE est basé sur deux métriques : (1) la précision et (2) le taux de réussite.

La précision exploite l'erreur de localisation centrale (CLE) entre la boîte englobante prédite et la boîte de vérité au sol.

où \(c_{t}\) et \(c_{t}^{gt}\) représentent respectivement le centre de la t-ième boîte englobante prédite et de la vérité au sol, et \(\left\| \cdot \right\|\) est les distances euclidiennes. Le tracé de précision affiche le pourcentage d'images où l'erreur d'emplacement central est inférieure à un seuil spécifique. Un seuil de 20 pixels est utilisé pour évaluer et classer les trackers.

Le taux de réussite calcule le chevauchement en tant qu'IOU entre les cadres de délimitation prédits et de la vérité au sol. Le taux de chevauchement \(\textbf{OR}_{t}\) dans la t-ième image est exprimé comme :

où \(\cap\) et \(\cup\) représentent respectivement l'intersection et l'union des régions de deux boîtes, et \(\left| \cdot \right|\) est le nombre de pixels dans la région. Le graphique de succès montre le pourcentage de trames réussies dont le taux de chevauchement est au-delà d'un seuil prédéfini variant de 0 à 1. Le score d'aire sous la courbe (AUC) du graphique de succès est principalement adopté pour classer les trackers.

Comparaison des performances globales avec les trackers légers. L'évaluation a utilisé les tracés de précision et de réussite du tracker proposé et de 29 autres trackers légers.

DTB7068 contient 70 séquences difficiles construites à partir de données collectées par des drones. De plus, diverses scènes difficiles avec translation, rotation et taille et rapport d'aspect différents en raison du mouvement de la caméra compliquent davantage l'ensemble de données. La robustesse de notre tracker dans divers scénarios complexes causés par le mouvement rapide du drone peut être démontrée avec ce benchmark. À la suite d'une comparaison avec d'autres trackers, AMST\(^2\) a obtenu une précision (0,851) et un taux de réussite (0,658), se classant au premier rang, et les résultats sont présentés à la Fig. 5. Par rapport aux deuxième et troisième meilleures places TCTrack (0,815) et HiFT (0,804), la précision s'est améliorée d'environ 4,4\(\%\) et 5,8\(\%\), respectivement. De même, en termes de taux de réussite, AMST\(^2\) a une augmentation des performances de 6,0\(\%\) et 10,8\(\%\) par rapport à TCTrack (0,621) et HiFT (0,594), respectivement.

L'UAV12369 est une référence de suivi aérien à grande échelle collectée à partir d'un point de vue aérien composé d'un total de 123 séquences vidéo contenant plus de 112 000 images. L'objet dans l'ensemble de données est difficile à suivre en raison des changements à grande échelle, des changements d'éclairage et de l'occlusion, en particulier des petits objets. Comme le montre la figure 5, l'AMST\(^2\) surpasse tous les autres trackers en termes de précision et de taux de réussite. En termes de précision, la méthode proposée surpasse le deuxième meilleur TCTrack (0,800) et le troisième meilleur HiFT (0,787) de 4,0\(\%\) et 5,7\(\%\), respectivement, avec un score de précision (0,832). Le taux de réussite a également atteint une meilleure augmentation des performances d'environ 4,3\(\%\) et 7,0\(\%\), respectivement, par rapport aux trackers de base.

Le UAV123@10fps69 est sous-échantillonné en adoptant le taux d'image 10FPS de la version originale UAV123. Le problème de suivi est plus difficile que la version originale car le déplacement et la variation du mouvement de l'objet sont plus importants. Comme le montre la Fig. 5, notre tracker atteint les meilleures performances en termes de précision (0,798) et de taux de réussite (0,616). Cela montre clairement que notre tracker est capable d'effectuer un suivi robuste dans des données aériennes discontinues sans dégradation des performances due à la fréquence d'images.

L'UAV20L69 a été utilisé pour l'évaluation des performances de suivi à long terme. Ce benchmark est un sous-ensemble de UAV123 et se compose de 20 séquences de suivi à long terme avec une moyenne de 2934 images. Comme le montre le tableau 1, AMST\(^2\) atteint la première place avec une précision de 0,784, devant les deuxième et troisième meilleures places TCTrack (0,780) et HiFT (0,763) avec une petite marge d'environ 0,5\(\%\) et 2,8\(\%\), respectivement. En outre, le taux de réussite d'AMST\(^2\) a le meilleur score (0,601), montrant de meilleures performances de suivi que TCTrack (0,580) et HiFT (0,566). Cela signifie que la méthode proposée génère de meilleures fonctionnalités pour le suivi que les méthodes existantes sur des ensembles de données à long terme.

UAVTrack112_L70 est un ensemble de données de suivi à long terme bien connu conçu pour le suivi aérien, comprenant plus de 60 000 images et un sous-ensemble de UAVTrack11270. Comme le montre le tableau 2, AMST\(^2\) est un tracker plus résistant que les trackers à la pointe de la technologie. AMST\(^2\) s'assure la première place avec un score de précision de 0,835, dépassant TCTrack (0,786) et SiamRPN++ (0,769) d'environ 6,2 % et 8,6 %, respectivement. En termes de taux de réussite (0,629), AMST\(^2\) affiche également des performances supérieures aux autres trackers. Ces résultats confirment la supériorité de notre tracker sur les trackers légers existants dans les benchmarks à long terme.

Graphiques de réussite de l'OPE des attributs des ensembles de données DTB70 et UAV123. Les différentes évaluations basées sur les attributs sur les benchmarks de suivi aérien DTB70 et UAV123.

Performance globale des attributs du jeu de données UAV123@10fps. Toutes les évaluations basées sur les attributs des 10 meilleurs trackers sur la référence de suivi aérien UAV123 @ 10fps. Les polices rouges et bleues représentent respectivement les scores les plus élevés et les plus bas.

En raison du mouvement intense des UAV, le suivi aérien est confronté à divers défis. Les attributs ont été annotés dans les ensembles de données de référence, comme le montrent les Fig. 6 et 7 pour évaluer les performances du tracker dans diverses conditions difficiles.

La figure 6 montre que le tracker proposé surpasse les autres trackers légers dans plusieurs scénarios difficiles sur les benchmarks DTB70 et UAV123. La figure 7 illustre les résultats d'évaluation de tous les attributs sur le benchmark UAV123@10fps. En termes de précision, notre tracker assure la deuxième meilleure position dans les conditions d'objets à basse résolution et similaires, et la première place dans tous les autres attributs. En particulier, AMST\(^2\) affiche le taux de réussite le plus élevé parmi tous les attributs de l'ensemble de données UAV123@10fps. En utilisant des informations spatiales et temporelles à plusieurs niveaux, notre tracker présente des performances exceptionnelles dans divers scénarios, tels que la variation d'échelle, la déformation, le mouvement rapide de la caméra et l'occlusion, entre autres. De plus, les mises à jour de modèle au niveau des fonctionnalités du modèle offrent l'avantage d'un suivi plus robuste pour les variations extrêmes.

Pour valider les impacts de la méthode proposée, nous avons réalisé plusieurs études d'ablation sur le jeu de données DTB70. Nous avons évalué cinq variantes de notre tracker, notamment : (1) MS, qui utilise uniquement les fonctionnalités de l'encodeur spatial multiniveau comme première ligne de base, (2) TE, qui utilise uniquement un encodeur temporel comme deuxième ligne de base, (3) MS+TE, qui applique à la fois des encodeurs spatiaux et temporels multiniveaux, (4) MS+TE+TU, un modèle dans lequel un réseau de mise à jour de modèles est ajouté à MS+TE, et (5) MS+TE+AE+TU, le modèle final qui inclut l'encodeur d'agrégation. ajouté à MS+TE+TU. Dans cette étude d'ablation, la même structure de décodeur multi-contexte a été utilisée pour la méthode d'application des informations spatiales et temporelles multi-niveaux. Comme le montre le tableau 3, notre contribution démontre non seulement des performances exceptionnelles dans diverses conditions complexes, mais affiche également le score le plus élevé en termes de précision et de taux de réussite.

La comparaison de la qualité et de la vitesse des trackers à la pointe de la technologie avec des backbones plus profonds sur DTB70. Les trackers utilisés à des fins de comparaison sont des trackers qui adoptent un réseau dorsal plus profond qu'AlextNet.

Résultats de comparaison basés sur les attributs des trackers avec des backbones plus profonds. Les trackers utilisés pour la comparaison sont composés de trackers avec les 10 meilleures vitesses de course parmi les trackers profonds.

Notre objectif était d'améliorer la robustesse de notre suivi aérien proposé en combinant des informations spatiales et temporelles multi-niveaux, et ainsi de gérer des conditions complexes. Pour obtenir des résultats plus clairs, nous avons comparé notre méthode avec 22 trackers à la pointe de la technologie avec des dorsales plus profondes. Comme le montre la figure 8, même si notre méthode utilise une dorsale légère, elle atteint des performances compétitives avec une vitesse de suivi nettement plus rapide qu'AiATrack, qui a le taux de réussite le plus élevé. De plus, nous avons mené des expériences de comparaison sur tous les scénarios du DTB70 en utilisant les 10 meilleurs trackers basés sur la vitesse de suivi pour prendre en charge l'analyse basée sur les attributs avec des trackers profonds. Comme le montre la Fig. 9, notre tracker surpasse les autres dans divers scénarios complexes et encombrés. La représentation robuste des caractéristiques proposée, qui agrège le contexte spatial et temporel à plusieurs niveaux, réduit l'écart de performance avec des trackers plus profonds et assure un suivi efficace et robuste dans diverses scènes aériennes. Le tableau 4 présente une comparaison approfondie entre la méthode proposée et les trackers basés sur le backbone plus profond, ainsi que les trackers de base. nous avons effectué des évaluations sur plusieurs facteurs, notamment les images par seconde (fps), les paramètres et les mesures de performance à l'aide d'ensembles de données aériennes bien connus tels que VisDrone-SOT202071 et UAVDT72. VisDrone-SOT2020 est basé sur des données collectées dans de nombreuses situations réelles sur les variations météorologiques et d'éclairage, et UAVDT comprend également divers cadres dans des scénarios complexes qui confondent les performances du tracker telles que la météo, l'altitude, la vue de la caméra, l'apparence de l'objet et l'occlusion. Pour plus de clarté, STARK et TransT utilisent une version modifiée de ResNet qui supprime la dernière étape, ils ont donc moins de paramètres que les trackers utilisant les autres backbones plus profonds. HiFT, TCTrack et le tracker proposé affichent un temps de traitement plus rapide avec beaucoup moins de paramètres et des vitesses de suivi de plus de 100 ips que les trackers profonds. De plus, HiFT et TCTrack ont des avantages en termes de paramètres et de fps par rapport au tracker proposé, mais en termes de performances, ils sous-performent les trackers profonds et le tracker proposé. De plus, notre tracker proposé démontre non seulement une complexité de paramètre inférieure par rapport à TransT, qui a obtenu le score le plus élevé dans VisDrone-SOT2020, mais présente également des performances de précision similaires et des performances de réussite comparables aux modèles de backbone plus profonds, même avec un fps doublé. Ces résultats mettent en évidence l'efficience et l'efficacité de notre tracker proposé en termes d'utilisation des paramètres et de performances de suivi globales, mettant en évidence son potentiel pour les applications de suivi aérien en temps réel. Dans l'ensemble de données UAVDT, la méthode proposée montre une performance comparable aux trackers de pointe, tout en maintenant une faible complexité des paramètres et une vitesse de traitement rapide. Ces résultats démontrent en outre l'efficacité et l'efficience de notre méthode proposée dans les tâches de suivi aérien. Parmi les trackers plus profonds basés sur le backbone, il y a des trackers proches de 100 fps, mais le tracker proposé surpasse en termes de paramètres et de performances. Par conséquent, notre tracker démontre une plus grande efficacité dans le suivi aérien à l'aide de drones que de nombreux trackers SOTA avec une faible latence, une vitesse de suivi rapide et des performances supérieures.

Dans cet article, nous avons présenté l'architecture de transformateur agrégé multi-niveaux spatial et temporel basé sur le contexte (AMST \ (^ 2 \)), une nouvelle approche pour un suivi aérien robuste qui exploite des informations spatiales et temporelles multi-niveaux via un modèle basé sur Transformer. L'approche proposée comprend un encodeur d'agrégation qui améliore la carte de similarité et un décodeur multi-contexte qui génère de puissantes cartes de similarité raffinées. L'utilisation d'un transformateur basé sur des informations spatiales et temporelles agrégées à plusieurs niveaux, ainsi qu'une colonne vertébrale légère, répond efficacement aux défis de la vitesse de suivi et du suivi aérien lors de l'utilisation d'UAV. L'adoption d'un processus de mise à jour des modèles renforce encore la robustesse de notre approche face à des scénarios complexes.

Des expériences approfondies sur des benchmarks aériens complexes, notamment DTB70, UAV123, UAV123@10fps, UAV20L et UAVTrack112\(\_\)L, ont démontré que l'AMST\(^2\) surpasse les méthodes de pointe en termes de précision et d'efficacité.

Bien que notre approche montre des résultats prometteurs, il reste encore des limites à résoudre, telles que la sensibilité aux conditions de faible éclairage et le besoin d'une grande quantité de données d'entraînement. Les recherches futures peuvent étudier les moyens de surmonter ces limitations et d'améliorer encore la précision et l'efficacité du suivi aérien. Dans l'ensemble, l'approche proposée représente une avancée significative dans le développement de systèmes de suivi aérien plus robustes et plus efficaces.

Toutes les données générées ou analysées dans cette étude sont incluses dans cet article publié. Les ensembles de données de formation et de test utilisés dans cette étude sont accessibles au public et ont été cités conformément aux règles de recherche. Des descriptions détaillées des ensembles de données et de leurs citations peuvent être trouvées dans la section "Résultats expérimentaux" de l'article. Par exemple, l'ensemble de formation de l'ensemble de données ImageNet VID peut être téléchargé à partir du lien https://image-net.org/challenges/LSVRC/2015/index.php. L'ensemble de formation de l'ensemble de données COCO peut être téléchargé à partir de https://cocodataset.org/#home, tandis que l'ensemble de formation de l'ensemble de données GOT-10K peut être téléchargé à partir de http://got-10k.aitestunion.com/. De plus, l'ensemble de formation de l'ensemble de données LaSOT est accessible via http://vision.cs.stonybrook.edu/~lasot/. Les ensembles de tests de l'ensemble de données DTB70, les ensembles de données UAV123, UAV123@10fps et UAV20L, et l'ensemble de données UAVTrack112_L, l'ensemble de données VisDrone-SOT2020 et l'ensemble de données UAVDT peuvent être téléchargés à partir de https://github.com/flyers/drone-tracking, https://cemse.kaust.edu.sa/ivul/uav123, https:// github.com/vision4robotics/SiamAPN, http://aiskyeye.com/ et https://sites.google.com/view/grli-uavdt, respectivement.

Marvasti-Zadeh, SM, Cheng, L., Ghanei-Yakhdan, H. & Kasaei, S. Apprentissage en profondeur pour le suivi visuel : Une enquête complète. IEEE Trans. Renseignement. Transp. Syst. 20, 20 (2021).

Google Scholar

Fu, C. et al. Suivi d'objets siamois pour véhicule aérien sans pilote : un examen et une analyse complète. arXiv:2205.04281 (prépublication arXiv) (2022).

Fu, C., Li, B., Ding, F., Lin, F. & Lu, G. Filtres de corrélation pour le suivi aérien basé sur un véhicule aérien sans pilote : examen et évaluation expérimentale. IEEE Trans. Géosci. Remote Sens. 10, 125–160 (2022).

Article Google Scholar

Bolme, DS, Beveridge, JR, Draper, BA & Lui, YM Suivi visuel d'objets à l'aide de filtres de corrélation adaptatifs. In Proceedings/IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2544–2550 (2010).

Henriques, JF, Caseiro, R., Martins, P. & Batista, J. Suivi à grande vitesse avec filtres de corrélation kernelisés. IEEE Trans. Modèle Anal. Mach. Renseignement. 37, 583–596 (2015).

Article PubMed Google Scholar

Danelljan, M., Hager, G., Shahbaz Khan, F. & Felsberg, M. Apprentissage de filtres de corrélation spatialement régularisés pour le suivi visuel. Dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur (ICCV), 4310–4318 (2015).

Bertinetto, L., Valmadre, J., Golodetz, S., Miksik, O. & Torr, PH Staple : Apprenants complémentaires pour le suivi en temps réel. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1401–1409 (2016).

Danelljan, M., Häger, G., Khan, FS et Felsberg, M. Suivi spatial à échelle discriminante. IEEE Trans. Modèle Anal. Mach. Renseignement. 39, 1561-1575 (2017).

Article PubMed Google Scholar

Kiani Galoogahi, H., Fagg, A. & Lucey, S. Apprentissage de filtres de corrélation sensibles à l'arrière-plan pour le suivi visuel. Dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur (ICCV), 1135-1143 (2017).

Wang, C., Zhang, L., Xie, L. et Yuan, J. Corrélateur croisé Kernel. Dans Actes de la conférence AAAI sur l'intelligence artificielle, vol. 32 (2018).

Huang, Z., Fu, C., Li, Y., Lin, F. & Lu, P. Filtres de corrélation réprimés par aberration d'apprentissage pour le suivi en temps réel des drones. Dans Actes de la Conférence internationale IEEE/CVF sur la vision par ordinateur (ICCV), 2891–2900 (2019).

Ma, C., Huang, J.-B., Yang, X. & Yang, M.-H. Fonctionnalités convolutionnelles hiérarchiques pour le suivi visuel. Dans Actes de la conférence internationale IEEE sur la vision par ordinateur (ICCV) (2015).

Qi, Y. et al. Suivi en profondeur couvert. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 4303–4311 (2016).

Choi, J. et al. Compression profonde des fonctionnalités sensible au contexte pour un suivi visuel à grande vitesse. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 479–488 (2018).

Nam, H. & Han, B. Apprentissage de réseaux de neurones convolutifs multi-domaines pour le suivi visuel. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 4293–4302 (2016).

Danelljan, M., Bhat, G., Shahbaz Khan, F. & Felsberg, M. ECO : opérateurs de convolution efficaces pour le suivi. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 6638–6646 (2017).

Song, Y. et al. VITAL : Suivi visuel par apprentissage contradictoire. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 8990–8999 (2018).

Pu, S., Song, Y., Ma, C., Zhang, H. & Yang, M.-H. Suivi attentif approfondi via l'apprentissage réciproque. Dans Actes des progrès dans les systèmes de traitement de l'information neuronale (NIPS), vol. 31, 1931-1941 (2018).

Russakovsky, O. et al. Défi de reconnaissance visuelle à grande échelle ImageNet. Int. J. Comput. Vis. 115, 211-252 (2015).

Article MathSciNet Google Scholar

Tao, R., Gavves, E. & Smeulders, AW Recherche d'instance siamoise pour le suivi. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1420–1429 (2016).

Bertinetto, L., Valmadre, J., Henriques, JF, Vedaldi, A. & Torr, PHS Réseaux siamois entièrement convolutionnels pour le suivi d'objets. Dans Actes de la Conférence européenne sur les ateliers de vision par ordinateur (ECCVW), 850–865 (2016).

Guo, Q. et al. Apprentissage d'un réseau siamois dynamique pour le suivi visuel d'objets. Dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur (ICCV), 1763–1771 (2017).

Zhu, Z. et al. Réseaux siamois conscients des distracteurs pour le suivi visuel des objets. Dans Actes de la Conférence européenne de l'IEEE sur la vision par ordinateur (ECCV), 101–117 (2018).

Wang, Q. et al. Attentions d'apprentissage : Réseau siamois attentionnel résiduel pour un suivi visuel en ligne de haute performance. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 4854–4863 (2018).

Wang, X., Li, C., Luo, B. & Tang, J. SINT++ : Suivi visuel robuste via la génération d'instances positives contradictoires. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 4864–4873 (2018).

Li, B. et al. SiamRPN++ : Evolution du tracking visuel siamois avec des réseaux très profonds. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 4282–4291 (2019).

Danelljan, M., Bhat, G., Khan, FS et Felsberg, M. ATOM : Suivi précis par maximisation du chevauchement. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 4660–4669 (2019).

Bhat, G., Danelljan, M., Gool, LV et Timofte, R. Apprentissage de la prédiction de modèle discriminatif pour le suivi. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur (ICCV), 6182–6191 (2019).

Chen, Z., Zhong, B., Li, G., Zhang, S. & Ji, R. Réseau adaptatif de boîtes siamoises pour le suivi visuel. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 6668–6677 (2020).

Guo, D., Wang, J., Cui, Y., Wang, Z. et Chen, S. SiamCAR : classification et régression entièrement convolutionnelles siamoises pour le suivi visuel. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 6269–6277 (2020).

Zhang, Z., Peng, H., Fu, J., Li, B. & Hu, W. Ocean : Suivi sans ancre sensible aux objets. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 771–787 (2020).

Li, X., Ma, C., Wu, B., He, Z. & Yang, M.-H. Suivi en profondeur sensible à la cible. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1369-1378 (2019).

Xu, Y., Wang, Z., Li, Z., Yuan, Y. & Yu, G. SiamFC++ : Vers un suivi visuel robuste et précis avec des directives d'estimation de cible. Dans Actes de la conférence AAAI sur l'intelligence artificielle vol. 34, 12549–12556 (2020).

Zhou, W. et al. SiamCAN : suivi visuel en temps réel basé sur le réseau conscient du centre siamois. IEEE Trans. Processus d'image 30, 3597–3609 (2021).

Article ADS PubMed Google Scholar

Yu, Y., Xiong, Y., Huang, W. & Scott, MR Réseaux d'attention siamois déformables pour le suivi d'objets visuels. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 6728–6737 (2020).

Krizhevsky, A., Sutskever, I. & Hinton, GE Classification ImageNet avec réseaux de neurones à convolution profonde. Dans Actes des progrès dans les systèmes de traitement de l'information neuronale (NIPS), vol. 25 (2012).

Li, B., Yan, J., Wu, W., Zhu, Z. & Hu, X. Suivi visuel haute performance avec le réseau de proposition de la région siamoise. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 8971–8980 (2018).

He, K., Zhang, X., Ren, S. et Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 770–778 (2016).

Wang, Q., Zhang, L., Bertinetto, L., Hu, W. & Torr, PH Suivi et segmentation rapides des objets en ligne : une approche unificatrice. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1328-1338 (2019).

Danelljan, M., Gool, LV & Timofte, R. Régression probabiliste pour le suivi visuel. Dans Proc. Conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 7183–7192 (2020).

Valmadre, J., Bertinetto, L., Henriques, J., Vedaldi, A. & Torr, PHS Apprentissage de représentation de bout en bout pour le suivi basé sur un filtre de corrélation. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 2805–2813 (2017).

Wang, Q., Gao, J., Xing, J., Zhang, M. & Hu, W. DCFNet : réseau de filtres de corrélation discriminants pour le suivi visuel. arXiv : 1704.04057 (préimpression arXiv) (2017).

Shen, Q. et al. Apprentissage non supervisé du pistage siamois précis. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 8101–8110 (2022).

Sun, X. et al. Tracker siamois actualisable avec apprentissage en deux étapes. arXiv:2104.15049 (prépublication arXiv) (2021).

Zhang, L., Gonzalez-Garcia, A., Weijer, J. vd, Danelljan, M. & Khan, FS Apprendre la mise à jour du modèle pour les traqueurs siamois. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur (ICCV), 4010–4019 (2019).

Guo, D. et al. Suivi graphique de l'attention. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 9543–9552 (2021).

Chen, X. et al. Suivi du transformateur. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 8126–8135 (2021).

Wang, N., Zhou, W., Wang, J. & Li, H. Le transformateur rencontre le traqueur : Exploitation du contexte temporel pour un suivi visuel robuste. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1571-1580 (2021).

Yan, B., Peng, H., Fu, J., Wang, D. & Lu, H. Transformateur spatio-temporel d'apprentissage pour le suivi visuel. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur (ICCV), 10448–10457 (2021).

Mayer, C. et al. Transformer la prédiction du modèle pour le suivi. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 8731–8740 (2022).

Gao, S., Zhou, C., Ma, C., Wang, X. & Yuan, J. AiATrack : Attention dans l'attention pour le suivi visuel du transformateur. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 146-164 (2022).

Fu, C., Cao, Z., Li, Y., Ye, J. & Feng, C. Réseau de proposition d'ancres siamoises pour le suivi aérien à grande vitesse. Dans Actes de la Conférence internationale IEEE sur la robotique et l'automatisation (ICRA), 510–516 (2021).

Cao, Z., Fu, C., Ye, J., Li, B. & Li, Y. SiamAPN++ : réseau d'agrégation attentionnelle siamois pour le suivi en temps réel des drones. Dans Conférence internationale IEEE/RSJ sur les robots et systèmes intelligents (IROS), 3086–3092 (2021).

Cao, Z., Fu, C., Ye, J., Li, B. & Li, Y. HiFT : transformateur de caractéristiques hiérarchiques pour le suivi aérien. Dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur (ICCV), 15457–15466 (2021).

Cao, Z. et al. TCTrack : contextes temporels pour le suivi aérien. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 14798–14808 (2022).

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Actes des progrès dans les systèmes de traitement de l'information neuronale (NIPS), vol. 30, 6000–6010 (2017).

Alexey, D. et al. Une image vaut 16x16 mots : Transformateurs pour la reconnaissance d'images à grande échelle. Dans Actes de la Conférence internationale sur les représentations de l'apprentissage (ICLR) (2021).

Carion, N. et al. Détection d'objets de bout en bout avec transformateurs. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 213-229 (2020).

Girdhar, R., Carreira, J., Doersch, C. & Zisserman, A. Réseau de transformateurs d'action vidéo. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 244–253 (2019).

Cui, Y., Jiang, C., Wang, L. & Wu, G. MixFormer : suivi de bout en bout avec une attention mixte itérative. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 13608–13618 (2022).

Chen, B. et al. Backbone est tout ce dont vous avez besoin : une architecture simplifiée pour le suivi visuel des objets. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 375–392 (2022).

Li, Y., Fu, C., Ding, F., Huang, Z. & Lu, G. AutoTrack : vers un suivi visuel performant pour les drones avec régularisation spatio-temporelle automatique. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 11923–11932 (2020).

Marvasti-Zadeh, SM, Khaghani, J., Ghanei-Yakhdan, H., Kasaei, S. & Cheng, L. COMET : réseau guidé par IoU sensible au contexte pour le suivi de petits objets. Dans Actes de la Conférence asiatique sur la vision par ordinateur (ACCV), 594–611 (2020).

Szegedy, C. et al. Aller plus loin avec les circonvolutions. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1–9 (2015).

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. & Chen, L.-C. MobileNetV2 : résidus inversés et goulots d'étranglement linéaires. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 4510–4520 (2018).

Huang, Z. et al. Tada ! convolutions temporellement adaptatives pour la compréhension vidéo. Dans Actes de la Conférence internationale sur les représentations de l'apprentissage (ICLR) (2022).

Zheng, Z. et al. Perte de Distance-IoU : Apprentissage plus rapide et meilleur pour la régression de la boîte englobante. Dans Actes de la conférence AAAI sur l'intelligence artificielle, vol. 34, 12993–13000 (2020).

Li, S. & Yeung, D.-Y. Suivi visuel d'objets pour véhicules aériens sans pilote : une référence et de nouveaux modèles de mouvement. Dans Actes de la conférence AAAI sur l'intelligence artificielle vol 31, 1–7 (2017).

Mueller, M., Smith, N. & Ghanem, B. Une référence et un simulateur pour le suivi des drones. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 445–461 (2016).

Fu, C., Cao, Z., Li, Y., Ye, J. & Feng, C. Suivi aérien en temps réel à bord avec un réseau de proposition d'ancre siamois efficace. IEEE Trans. Géosci. Remote Sens. 60, 1–13 (2022).

Google Scholar

Fan, H. et al. VisDrone-SOT2020 : La vision rencontre les résultats du défi de suivi d'objet unique par drone. Dans Actes de la Conférence européenne sur les ateliers de vision par ordinateur (ECCVW), 728–749 (2020).

Du, D. et al. La référence du véhicule aérien sans pilote : détection et poursuite d'objets. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 370–386 (2018).

Lukezic, A., Vojir, T., Cehovin Zajc, L., Matas, J. & Kristan, M. Filtre de corrélation discriminant avec canal et fiabilité spatiale. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 6309–6318 (2017).

Wang, N. et al. Filtres de corrélation multi-cue pour un suivi visuel robuste. Dans Actes de l'IEEE Computer Vision and Pattern Recognition (CVPR), 4844–4853 (2018).

Li, F., Tian, C., Zuo, W., Zhang, L. & Yang, M.-H. Apprentissage de filtres de corrélation spatio-temporels régularisés pour le suivi visuel. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 4904–4913 (2018).

Wang, N. et al. Suivi en profondeur non supervisé. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1308–1317 (2019).

Mayer, C., Danelljan, M., Paudel, DP & Van Gool, L. Apprentissage de l'association des candidats cibles pour garder une trace de ce qu'il ne faut pas suivre. Dans Actes de la conférence internationale IEEE sur la vision par ordinateur (ICCV), 13444–13454 (2021.).

Sosnovik, I., Moskalev, A. & Smeulders, AW L'équivariance de l'échelle améliore le suivi siamois. Dans Actes de la Conférence d'hiver de l'IEEE sur les applications de la vision par ordinateur (WACV), 2765–2774 (2021).

Lin, T.-Y. et coll. Microsoft COCO : Objets communs en contexte. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 740–755 (2014).

Huang, L., Zhao, X. & Huang, K. GOT-10k : une grande référence de haute diversité pour le suivi d'objets génériques dans la nature. IEEE Trans. Modèle Anal. Mach. Renseignement. 43, 1562-1577 (2019).

Article Google Scholar

Fan, H. et al. LaSOT : une référence de haute qualité pour le suivi d'objets uniques à grande échelle. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR), 5374–5383 (2019).

Wu, Y., Lim, J. & Yang, M.-H. Suivi d'objets en ligne : une référence. Dans Actes de la conférence internationale IEEE sur la vision par ordinateur (ICCV), 2411–2418 (2013).

Télécharger les références

Ce travail a été soutenu en partie par la subvention de l'Institut de planification et d'évaluation des technologies de l'information et des communications (IITP) financée par le gouvernement coréen (MSIT) [2021-0-01341, Programme d'études supérieures en intelligence artificielle (Université de Chung-Ang)], et en partie par le projet de développement technologique axé sur le terrain pour l'administration des douanes par le biais de la Fondation nationale de recherche de Corée (NRF) financé par le ministère des Sciences et des TIC et le service des douanes de Corée (2021M3I1A1097911).

Département d'image, Université Chung-Ang, 84 Heukseok-ro, Séoul, 06974, Corée

Parc Hasil, Dasol Jeong et Joonki Paik

Département d'intelligence artificielle, Université Chung-Ang, 84 Heukseok-ro, Séoul, 06974, Corée

Injae Lee et Joonki Paik

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

HP a conçu et développé l'algorithme et réalisé l'expérience. IL a effectué une expérience et une analyse des données. DJ a effectué une analyse des données. JP a guidé le projet et a rédigé l'ébauche originale. Tous les auteurs ont examiné le manuscrit.

Correspondance à Joonki Paik.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Park, H., Lee, I., Jeong, D. et al. AMST2 : transformateur agrégé multi-niveaux spatial et temporel basé sur le contexte pour un suivi aérien robuste. Sci Rep 13, 9062 (2023). https://doi.org/10.1038/s41598-023-36131-2

Télécharger la citation

Reçu : 03 avril 2023

Accepté : 30 mai 2023

Publié: 04 juin 2023

DOI : https://doi.org/10.1038/s41598-023-36131-2

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.