Des chercheurs ont développé Torque Clustering, un algorithme d’IA offrant une nouvelle approche pour apprendre et identifier des clusters d’information dans de grands ensembles de données sans supervision humaine. L’algorithme permettrait d’imiter davantage l’intelligence naturelle, notamment en apprenant sans instructions explicites ou sans données préalablement étiquetées par des intervenants humains.
Le regroupement de données, ou « clustering », est largement utilisé dans le domaine de la recherche pour l’identification d’informations spécifiques. Cette technique est utilisée dans un large éventail de domaines allant de la biologie à la chimie, en passant par l’astronomie, la psychologie, la finance, etc. L’identification de modèles par clustering permet d’extraire des informations, telles que la tendance épidémique d’une maladie, les tentatives de fraude financière, des comportements humains spécifiques, etc.
Dans le domaine de l’apprentissage automatique, le clustering est utilisé pour regrouper les données non étiquetées présentant des caractéristiques similaires. Cela permet donc d’éliminer le besoin d’étiquetage des données, un processus qui consiste à les classer ou à leur attribuer des valeurs prédéfinies. Cependant, les techniques de clustering actuelles présentent un certain nombre de limites, telles que le besoin d’ajustements complexes en fonction des besoins des chercheurs.
En conséquence, presque tous les algorithmes d’IA reposent sur l’apprentissage supervisé. Il s’agit de la méthode habituelle de formation d’IA, consistant à utiliser de grandes quantités de données préalablement étiquetées par des intervenants humains. Cette technique d’instruction explicite permet aux modèles d’effectuer des prédictions et d’identifier les différentes relations entre les données disponibles.
Cependant, l’apprentissage supervisé présente également des limites dans la mesure où l’étiquetage de données est à la fois coûteux, chronophage et peu pratique pour les tâches complexes ou à grande échelle. « L’apprentissage non supervisé, en revanche, fonctionne sans données étiquetées, révélant les structures et les modèles inhérents aux ensembles de données », affirme dans un communiqué Chin-Teng Lin, professeur émérite à l’Université technologique de Sydney.
Dans le cadre d’une nouvelle étude, récemment publiée dans la revue IEEE Transactions on Pattern Analysis and Machine Intelligence, Lin et son collègue Jie Yang, proposent une nouvelle technique de clustering améliorant considérablement la capacité des systèmes d’IA à apprendre de manière autonome (c’est-à-dire sans étiquetage de données).
Les chercheurs affirment que leur nouvel algorithme d’IA, baptisé Torque Clustering, se rapproche plus de l’intelligence naturelle que les modèles de clustering existants. « Dans la nature, les animaux apprennent en observant, en explorant et en interagissant avec leur environnement, sans instructions explicites. La prochaine vague d’IA, l’apprentissage non supervisé, vise à imiter cette approche », affirme Lin.
Un modèle inspiré de l’équilibre des forces des fusions galactiques
Torque Clustering se distingue des précédents modèles en étant basé sur le phénomène de la physique de couple. Plus précisément, « il s’inspire de l’équilibre des forces gravitationnelles lors de la fusion des galaxies. Il repose sur deux propriétés naturelles de l’Univers : la masse et la distance. Ce lien avec la physique ajoute une dimension fondamentale à la méthode », explique Yang.
En termes plus simples, il est basé sur le principe intuitif selon lequel un cluster doit naturellement fusionner avec son voisin le plus proche ayant une masse plus élevée. Ce principe est valable dans quasiment tous les processus physiques à moins que les deux clusters aient des masses relativement importantes ou soient éloignés par une distance tout aussi importante. Torque Clustering s’appuie sur le même principe pour identifier les clusters de manière autonome et s’adapter à différents types de données aux formes, densités et niveaux de bruits variés.
« La méthode proposée est entièrement sans paramètre, ce qui lui permet de reconnaître de manière autonome différents types de clusters, de déterminer le nombre optimal de clusters et d’identifier le bruit », expliquent les experts dans leur document. L’algorithme détecte et supprime automatiquement les fusions de clusters incorrectes en identifiant les pics de masse et de distance. Cela permettrait de surpasser les modèles existants en permettant de traiter de grands ensembles de données variés avec une capacité de calcul inégalée.
Pour évaluer les performances de leur modèle, Lin et Yang l’ont testé sur 1 000 ensembles de données différents. Il a atteint un score moyen d’information mutuelle ajustée (AMI) — une mesure des résultats de regroupement — de 97,7 %, contre 80 % pour les modèles de clustering de pointe existants.
Les chercheurs estiment que Torque Clustering pourrait contribuer considérablement au développement de l’IA pour les systèmes autonomes. Il permettrait par exemple d’optimiser les mouvements, le contrôle et la prise de décision dans le domaine de la robotique – ouvrant ainsi potentiellement la voie aux technologies véritablement autonomes.
« Le prix Nobel de physique de l’année dernière a été décerné pour des découvertes fondamentales ayant permis l’essor de l’apprentissage automatique supervisé avec des réseaux neuronaux artificiels. L’apprentissage automatique non supervisé, inspiré par le principe du couple, a le potentiel d’avoir un impact similaire », affirme Yang. Le code (open source) de Torque Clustering a été mis à la disposition des chercheurs.