Les grands modèles de langue ont été convertis en intermédiaires cotidiens de la connaissance. Répondez avec fluidité aux questions académiques, juridiques ou techniques, ce qui vous permettra de bénéficier d’une compréhension profonde des contenus. Sans embargo, un studio récent dirigé par des chercheurs de l’Université nationale d’éducation à distance (UNED) a posé une question clé : qu’est-ce qui fait que ces aciers reflètent la raison réelle et qu’il n’y a pas de simple mémorisation des clients ?

Le travail du département de langues et systèmes informatiques, publié en IEEE sous le titre : Sur les limites de la raison en LLM : preuves de contamination, traduction et modification des réponses dans les essais d’options multiples propose une méthodologie pour séparer la forme du système des deux Capacités qui peuvent être confondues avec l’évaluation de l’IA : enregistrer les réponses aux vues précédentes et éliminer les alternatives incorrectes.

Del buscador a la IA: une confiance qui vous permettra de réussir

L’enquête se situe dans un contexte dans lequel des millions d’utilisateurs ont remplacé le buscador traditionnel par des systèmes conversationnels basés sur IA. Pour Eva Sánchez Salido, chercheuse prédoctorale du Département de langues et systèmes informatiques de l’UNED et l’un des responsables de l’étude, ce changement a des implications pertinentes : « Lorsque vous utilisez un chatbot pour consulter avant d’être en recherche, la réponse peut générer de deux manières : le bon modèle de concours. avec les informations que vous recevez sur votre engagement, ou bien consulter Internet avant de répondre ».

Dans le premier cas, expliqué, le système n’a pas accès à des informations récentes et est plus susceptible d’erreur si l’actualité est pertinente. En second lieu, le processus résulte le plus fiable, mais pas infaillible: «Aunque sigue siendo posible que se invente la réponse, il est beaucoup plus probable qu’elle soit correcte».

La principale vente avant le bus classique est que l’IA ne se localise pas seule, si ce n’est la sélection et la synthèse. Sans embargo, c’est une autre capacité d’introduire un risque supplémentaire, car à mesure qu’il est le plus avancé, le résultat est moins fiable. « Si la vérité de la réponse est critique, il faut toujours que je comprenne », a déclaré Eva Sánchez.

Benchmarks publics : lorsque l’examen est établi

L’un des postes centraux de l’étude est la critique des systèmes actuels d’évaluation de l’IA. Les appels de référence — les ensembles de questions et de réponses utilisés pour améliorer le rendu des modèles — doivent être publics et largement financés.

Eva Sánchez a résumé son CV avec une métaphore claire : « Lorsque les données sont publiques, le modèle est comme un étudiant qui a consulté les réponses avant l’examen. L’évaluation au milieu de sa capacité de mémorisation n’a pas sa connaissance réelle de la signature ».

Ce phénomène, connu comme la contamination des données, fait que les hauts résultats obtenus lors des essais ne nécessitent pas nécessairement une garantie de compression réelle. Pour cette raison, l’étude combine des références publiques, comme MMLU, avec des ensembles privés conçus par l’UNED, pour que les modèles n’aient pas eu accès pendant leur entraînement.

Différences entre les expressions idiomatiques

Le travail analyse également la capacité de généralisation linguistique des modèles, une question clé pour les contextes éducatifs et administratifs des anglophones. Les résultats montrent une tendance claire : « En tous nos expériences, nous rencontrons une plus grande fiabilité en anglais qu’en espagnol, même si la différence varie beaucoup entre les modèles et les domaines de connaissance ».

Dans les systèmes les plus avancés, la brecha est réduite, mais elle est également significative dans les disciplines déterminées. Selon l’enquêteur, dans les domaines liés à la culture et à la société espagnole, comme droit ou géographie de l’Espagne, tous les modèles doivent rivaliser avec les pauvres. Ces résultats impliquent que la fluidité linguistique n’équivaut pas nécessairement à une compréhension contextuelle profonde.

Lorsque la réponse correcte disparaît

El eje metodológico central de la investigación est la reformulación NOTO (Aucune des autres réponses). Dans cette enquête, la réponse correcte est éliminée des options disponibles et se substitue à « Ninguna des autres réponses ».

« Répondre à une question d’option multiple peut être fait par simple reconnaissance des clients », explique Eva Sánchez. « Mais pour remplacer la réponse correcte par la ‘ninguna des autres’, il faut comprendre que toutes les autres options sont incorrectes ».

Cette raison éliminée, la plus proche de l’humanité, provoque des caídas significatifs dans le rendu des modèles : « Les caídas sont très grandes, ce qui suggère que dans de nombreux cas apparents, il faut le faire, mais il n’y a qu’à reconnaître les patrons familiers ».

Incluant les modèles qui dirigent les classements habituels doivent faire une descente acusée, ce qui amène une conclusion claire : les benchmarks traditionnels peuvent être comparés à la capacité réelle de raisonnement de l’intelligence artificielle.

Más allá del tamaño de los modelos

Face à l’idée dominante selon laquelle le progrès se déroule uniquement par modèles tous les plus grands, l’étude pointe dans une autre direction. « Nos résultats indiquent que nous ne pouvons pas faire de modèles plus grands », dit l’enquêteur. « Il faut des stratégies d’entraînement avancées, comme l’apprentissage pour obtenir des récompenses vérifiables ».

De plus, la plus grande exigence est de repenser les systèmes d’évaluation, car il est nécessaire de changer les moyens de faire en sorte que les modèles soient réellement intégrés, en incorporant des tests moins prévisibles et plus proches de l’utilisation réelle, pour que l’enquêteur.

Le message final de l’étude est techniquement pertinent pour la société : s’assurer qu’il n’a toujours pas de sens. La distinction entre les deux personnes sera essentielle dans un contexte où l’intelligence artificielle influence chaque fois plus les décisions universitaires, professionnelles et sociales.

A lire également