Selon un rapport publié lundi, de petits changements dans les grands modèles de langue (LLMS) au cœur des applications d’IA peuvent entraîner des économies d’énergie substantielles publiées par l’organisation éducative, scientifique et culturelle (UNESCO) des Nations Unies.

Le rapport de 35 pages intitulé «AI génératif plus intelligent, plus petit, plus fort: économe en ressources et l’avenir de la transformation numérique» décrit trois façons dont les développeurs et les utilisateurs de l’IA peuvent réduire la gourmandise de puissance de la technologie.

1. Utilisez des modèles plus petits.

Les petits modèles sont tout aussi intelligents et précis que les grands, selon le rapport. Les petits modèles adaptés à des tâches spécifiques peuvent réduire la consommation d’énergie jusqu’à 90%, le rapport a maintenu.

Actuellement, les utilisateurs comptent sur de grands modèles à usage général pour tous leurs besoins, a-t-il expliqué. La recherche montre que l’utilisation de modèles plus petits adaptés à des tâches spécifiques – comme la traduction ou la résumé – peut réduire considérablement la consommation d’énergie sans perdre des performances. C’est une approche plus intelligente, plus économe en coût et plus économe en ressources, elle a continué, correspondant au bon modèle au bon travail, plutôt que de compter sur un grand système polyvalent pour tout.

De plus, les petits modèles économes en énergie sont plus accessibles dans des environnements à faible ressource avec une connectivité limitée, offrent des temps de réponse plus rapides et sont plus rentables.

2. Utilisez des invites et des réponses plus courtes.

La rationalisation des requêtes d’entrée et des longueurs de réponse peut réduire la consommation d’énergie de plus de 50%, indique le rapport. Il a ajouté que le raccourcissement des entrées et des sorties réduit également le coût de l’exécution de LLMS.

3. Utilisez la compression pour réduire la taille du modèle.

Les techniques de compression du modèle, telles que la quantification, peuvent réaliser des économies d’énergie allant jusqu’à 44% en réduisant la complexité informatique, a expliqué le rapport. Il réduit également le coût de la gestion des LLM en rétrécissant leur taille et en les rendant plus rapidement.

Pourquoi les petits modèles utilisent moins d’énergie

Les modèles d’IA plus petits consomment moins d’énergie car ils ont moins de travail à faire. «Les modèles d’IA plus petits – ce que nous appelons les modèles de petits langues – nécessitent moins de paramètres, moins de mémoire et nettement moins de débit GPU», a expliqué Jim Olsen, CTO de ModeloP, une société de logiciels de gouvernance, à Chicago.

« Cela signifie une consommation d’énergie plus faible pendant la formation et l’inférence », a-t-il déclaré à Technewsworld. «Vous n’exécutez pas des milliards d’opérations par jeton. Vous optimisez la précision dans un domaine plus stricte, ce qui conduit à des coûts de calcul plus durables.»

Les modèles plus grands ont des paramètres exponentiellement plus que les modèles plus petits, donc chaque fois qu’un modèle est posé une question, il doit effectuer des calculs mathématiques à travers tous ses paramètres pour générer une réponse.

« Plus de paramètres signifient plus de calculs, qui nécessitent plus de puissance de traitement des GPU et, par conséquent, consomment plus d’énergie », a déclaré Wyatt Mayham, responsable de l’IA Consulting chez Northwest AI Consulting (NAIC), un fournisseur mondial de services de conseil en IA.

« C’est l’équivalent numérique d’un moteur V8 qui brûle plus de gaz qu’un quatre cylindres, même lorsqu’il est simplement au ralenti », a-t-il déclaré à Technewsworld. «Un modèle plus petit et plus spécialisé a simplement moins de frais de calcul pour chaque tâche.»

Sagar Indurkhya, scientifique en chef de Virtualitics, une société d’analyse alimentée par l’IA, à Pasadena, en Californie, a soutenu que si les LLM plus petits ne fonctionnent généralement pas aussi bien que des modèles plus grands ou frontaliers, il est possible de remettre en œuvre des petites LLM sur des données pertinentes spécifiques, telles que des données très spécifiques qui ne peuvent pas être partagées à l’extérieur d’une entreprise, de sorte que les performances du modèle réglé sur des tasks très spécifiques avec des modèles frontaliers.

Cependant, il a également déclaré à Technewsworld: «Si l’objectif est de réduire la consommation d’énergie pour les agents de l’IA, l’utilisation et l’adaptation de LLMS plus petits sont une voie à suivre, toute entreprise devrait être soigneusement considérée.»

Couper les invites bavardes économistes d’énergie

Bien que les modèles d’IA soient souvent appelés chatbots, il ne paie pas d’être bavard avec l’IA. « Le modèle comprend votre intention », a déclaré Mel Morris, PDG de Corpora.ai, fabricant d’un moteur de recherche d’IA, à Derby, en Angleterre.

« Il n’a pas besoin de plaisanteries », a-t-il déclaré à Technewsworld. « Il n’en veut pas vraiment. Cela ne le fait pas de bien, mais il doit transmettre ces mots supplémentaires à son modèle, et cela coûte du temps de calcul. »

Ian Holmes, directeur et responsable mondial des solutions de fraude d’entreprise chez SAS, une société de logiciels spécialisée dans les solutions d’analyse, d’intelligence artificielle et de gestion des données, à Cary, en Caroline du Nord, a convenu que la brièveté rapide peut être un économiseur d’énergie. « Il peut être potentiellement très percutant pour réduire l’empreinte énergétique globale des interactions de l’IA », a-t-il déclaré à Technewsworld. «Plus une invite est inutilement complexe, plus la puissance de calcul sera nécessaire pour que le LLM interprète et réponde.»

« Il est facile de traiter un LLM comme un ami compétent, s’engageant dans de longs échanges bavards, mais cela peut augmenter involontairement la charge de travail du modèle », a-t-il déclaré. «Garder les invites concises et ciblées aide à réduire la quantité de données que le modèle doit traiter. Cela, à son tour, peut abaisser la puissance de calcul requise pour générer une réponse.»

Cependant, des invites plus courtes ne sont pas toujours pratiques. «De nombreuses invites contiennent un contexte ou des exemples inutiles qui pourraient être coupés», a reconnu Charles Yeomans, PDG et co-fondateur d’Autobeam, une société de compactage de compactage et d’optimisation de transmission, à Moraga, en Californie.

« Cependant, certaines tâches nécessitent intrinsèquement des invites détaillées pour une précision », a-t-il déclaré à Technewsworld. «La clé est d’éliminer la redondance, et non de sacrifier les informations nécessaires.»

Il peut y avoir un compromis en ce qui concerne les invites plus courtes, a ajouté Axel Abulafia, directeur d’affaires avec Cloudx, une société de génie logiciel et de solutions AI à Manalapan, NJ, «les invites plus petites sont meilleures sur papier, mais si l’équation de ces invites est à double ou triple versus d’une invite qui n’est que 50% plus grande, alors l’équation est claire», a-t-il déclaré à Technewsworld. « Je dirais que les invites plus intelligentes peuvent économiser beaucoup plus d’énergie que les seules plus petites. »

Le défi réside dans le maintien de la qualité, a ajouté Mayham de la NAIC. « Une invite trop brève peut manquer du contexte nécessaire au modèle afin de fournir une réponse utile ou précise », a-t-il déclaré. «De même, forcer une réponse à être artificiellement court pourrait le dépouiller de nuances importantes.»

«Cela devient un acte d’équilibre pour les développeurs», a-t-il poursuivi. «Ils ont besoin de concevoir des invites concises mais assez riches pour faire le travail. Pour de nombreuses tâches de routine, cela est réalisable, mais pour une résolution de problèmes complexe, des interactions plus longues et plus détaillées sont souvent inévitables.»

Risques et récompenses de compression du modèle

L’appel de l’UNESCO pour réduire les modèles peut également avoir des inconvénients. « Le principal risque est que vous puissiez trop comprimer un modèle et nuire à ses performances », a noté Mayham. «Une élagage ou une quantification trop agressive peut entraîner une baisse de la précision, de la capacité de raisonnement logique ou des nuances, ce qui pourrait rendre le modèle inadapté à son objectif prévu. Il existe un équilibre délicat entre l’efficacité et la capacité.»

De plus, il a poursuivi, la mise en œuvre des techniques de compression nécessite efficacement une expertise technique approfondie et une expérimentation significative. « Ce n’est pas une solution unique », a-t-il déclaré. «La bonne stratégie de compression dépend de l’architecture de modèle spécifique et de l’application cible. Cela peut être une barrière élevée pour les équipes sans talent d’ingénierie AI / ML spécialisé.»

La clé pour réduire la consommation d’énergie de l’IA consiste à combiner plusieurs optimisations – modèles plus petits, compression, incitation efficace, meilleure utilisation matérielle – pour multiplier les économies, les Yeomans d’Autobeam.

« Envisagez également de mettre en cache des réponses communes et d’utiliser des modèles spécialisés pour des tâches spécifiques », a-t-il déclaré, « plutôt que des LLM à usage général pour tout. »

« Même s’il est tentant de toujours jeter les LLM à chaque problème, une bonne règle de base est que les solutions devraient passer de simple à complexe », a ajouté Abulafia de Cloudx. «Il y a de nombreux problèmes qui peuvent être résolus en utilisant des algorithmes éprouvés. Vous pouvez les utiliser comme lignes de base et se développer en complexité de là. D’abord à des modèles plus petits, et seulement alors vers de grands modèles. Travailler toujours intelligent et réaliser que plus grand n’est pas toujours mieux.»

A lire également