CloudFlare, qui dessert environ 20% des sites Web, a annoncé mardi qu’il bloque désormais les robots AI à la crampon sur le Web d’accéder à ces sites par défaut.

À moins qu’un site Web n’éteint explicitement la valeur par défaut, un robot IA devra obtenir l’autorisation du site Web pour gratter son contenu. Les propriétaires de sites Web peuvent choisir s’ils souhaitent que les robots d’IA accédent à leur contenu et décident comment les entreprises d’IA peuvent l’utiliser, expliquée CloudFlare dans un communiqué.

Les entreprises d’IA peuvent désormais indiquer clairement leur objectif – que leurs robots soient utilisés pour la formation, l’inférence ou la recherche – pour aider les propriétaires de sites Web à décider quel robiners autorisent.

CloudFlare a expliqué que pendant des décennies, Internet a fonctionné sur un échange simple: le contenu des moteurs de recherche et des utilisateurs directs vers les sites Web originaux, la génération de trafic et les revenus publicitaires pour les sites Web de toutes tailles. Ce cycle récompense les créateurs qui produisent un contenu de haute qualité avec une rémunération financière et un public croissant, tout en aidant les utilisateurs à découvrir des informations nouvelles et pertinentes.

Ce modèle est maintenant brisé, a-t-il continué. Les Crawlers AI collectent du contenu comme du texte, des articles et des images pour générer des réponses, sans diriger les visiteurs vers la source originale, privant ainsi les créateurs de contenu de revenus et la satisfaction de savoir que quelqu’un consulte leur contenu. Si l’incitation à créer un contenu original et de haute qualité disparaît, la société perd et l’avenir d’Internet est en danger.

« Si Internet veut survivre à l’âge de l’IA, nous devons donner aux éditeurs le contrôle qu’ils méritent et construire un nouveau modèle économique qui fonctionne pour tout le monde – les créateurs, les consommateurs, les fondateurs de l’IA de demain et l’avenir du Web lui-même », a déclaré le co-fondateur et PDG de Cloudflare, Matthew Prince, dans un communiqué.

« Le contenu original est ce qui fait d’Internet l’une des plus grandes inventions du siècle dernier, et il est essentiel que les créateurs continuent de le faire », a-t-il poursuivi. «L’IA Crawlers a gratté le contenu sans limites. Notre objectif est de remettre le pouvoir entre les mains des créateurs tout en aidant les entreprises d’IA à innover. Il s’agit de protéger l’avenir d’un Internet libre et dynamique avec un nouveau modèle qui fonctionne pour tout le monde.»

Modèle de patrimoine par exemple pour l’accès à l’IA

En plus de bloquer le grattage des bots AI par défaut, CloudFlare a également annoncé que Pay Per Crawl, ce qui permet aux propriétaires de sites Web de choisir, sur une base individuelle, de laisser les Crawlers d’IA gratter leur site à un taux défini – un micropaiement pour chaque «rampe».

«L’objectif principal de Cloudflare est d’aider les propriétaires et les éditeurs de sites à décider quels robots peuvent accéder à leur contenu et à créer les conditions pour un marché à développer», a déclaré à Technewsworld à TechNewsworld, responsable de Cloudflare, le responsable de l’IA, de la confidentialité et des médias, a déclaré à Technewsworld.

«Avec le développement de la rémunération par rampe», a-t-il déclaré, «Cloudflare expérimente un moyen d’aider le contenu aux créateurs d’être rémunérés pour leurs contributions à l’économie de l’IA. Le salaire par exemple permettra aux créateurs de contrôler l’accès et d’être payé, garantir que les entreprises d’IA peuvent utiliser le contenu de qualité de la bonne façon – avec autorisation et compensation.»

« Personnellement, j’aime cette idée d’un modèle de paiement par rapport », a observé Jason Dion, chef de produit et fondateur d’Akylade, un fournisseur de solutions de soins de santé en activité technologique, à Altamonte Springs, en Floride. « Il est similaire à l’utilisation d’une API et à payer pour ce que vous utilisez. »

« Tout comme Chatgpt facture aux utilisateurs des fractions d’un sou par jeton, un modèle similaire pourrait être utilisé pour compenser les sites Web qui se opposent au grattage de leur contenu », a-t-il expliqué à Technewsworld.

«Gestion de la rémunération des créateurs dans un monde AI-Augmentation est un problème collant», a ajouté Allie Mellen, analyste principal chez Forrester Research, une société d’études de marché nationale dont le siège est à Cambridge, Mass.

« Il s’agit d’une solution potentielle; cependant, on ne sait pas comment les fournisseurs d’IA géreront ce coût ou s’ils cherchent à gratter le contenu ailleurs », a-t-elle déclaré à Technewsworld. «Il peut également entraîner que quelques sites Web très fiables offrent une compensation par rampe, tandis que d’autres stagnent.»

Cependant, Andy Jung, avocat associé de TechFreedom, un groupe de défense des technologies à Washington, DC, a fait valoir que les sociétés d’IA pourraient se contenter du programme Pay Per Santer sans trop de résistance pour s’assurer qu’ils ne sont pas accusés de «pirate», car anthropic était dans le cas anthropique de Bartz v..

« Les sociétés d’IA pourraient accepter de payer pour ramper les sites Web juste pour éviter que les propriétaires de sites de l’analoguer sans rémunération de ramper au piratage, jette ainsi une ombre de doute sur les données que les entreprises de l’IA utilisent pour former leurs modèles », a-t-il déclaré à Technewsworld.

GRANDE DEAGE POTENTIF

Greg Sterling, co-fondateur de Narch Media, une société d’études de marché basée à San Francisco, a fait valoir que la décision de Cloudflare est «potentiellement un gros problème», car la société alimente environ 20% d’Internet et le tiers des sites de profil le plus haut.

« C’est un effort pour récupérer le pouvoir et donner aux éditeurs le contrôle si et comment leur contenu est utilisé par l’IA, et il cherche à compenser les éditeurs en une période de déclin du trafic et de clics, ce qui met leurs modèles commerciaux en danger », a-t-il déclaré à Technewsworld, « mais il peut en fin de compte ne pas avoir d’impact significatif sur l’IA. »

« Il reste à voir combien de sites choisissent de l’utiliser », a-t-il déclaré. « Il y a un problème potentiel de FOMO (peur de manquer) ou un dilemme du prisonnier qui avantage les entreprises de l’IA: » Si je ne suis pas là, mes concurrents le seront. «  »

« Pourtant, c’est toujours une étape importante qui déplace potentiellement les termes de débat et la dynamique du pouvoir entre les éditeurs de contenu et les plateformes d’IA », a-t-il ajouté.

Dans la déclaration de Cloudflare, il a énuméré plus de 50 entreprises soutenant un modèle basé sur la permission pour le robinet Web de l’IA, notamment Adweek, l’Associated Press, l’Atlantic, Buzzfeed, Condé Nast, Fortune, Gannett Media, O’Reilly Media, Pinterest, Reddit, Sky News Group, Snopes, Time, Universal Mudic et Ziff Davis.

Mark N. Vena, président et analyste principal chez SmartTech Research à Las Vegas, a soutenu que la rampe du Web basée sur l’autorisation pourrait être une courbe importante pour les sociétés d’IA, en particulier celles qui s’appuient sur le grattage d’énormes quantités de données Web pour former leurs modèles.

« Si de grandes étendues d’Internet deviennent sombres aux robots du jour au lendemain, cela limite la diversité et la fraîcheur des données de formation », a-t-il déclaré à Technewsworld. « Les grands joueurs pourraient pivoter à plus de transactions de licence, mais les petites startups pourraient se précipiter. »

Rob Enderle, président et analyste principal de The Enderle Group, une société de services consultatifs à Bend, Oregon, a noté que les autorisations de CloudFlare affecteront considérablement les acteurs établis et nouveaux du marché. « Pour les AIS existants qui ont déjà leurs ensembles de formation, cela réduira leur capacité à rester à jour », a-t-il déclaré à Technewsworld. «Pour les nouvelles IA, cela réduira potentiellement leurs ensembles de formation initiaux, ce qui rend le résultat moins performant.»

« Il semble également qu’ils soient créatifs avec la façon de gérer la perte de revenus de l’IA et de ce que beaucoup croient, c’est le vol de données », a-t-il ajouté. « Cet effort est encore précoce, et je m’attends à ce qu’il évoluera considérablement au fil des ans, mais c’est un début initial impressionnant. »

Équilibrer l’innovation de l’IA et le contrôle du contenu

Matt Mitelsteadt, chercheur en politique technologique au Cato Institute, un groupe de réflexion de Washington, DC, a souligné qu’il pourrait y avoir des avantages de sécurité pour les sites Web utilisant le programme basé sur la permission de CloudFlare.

« Une approche autorisée est une amélioration par rapport au modèle actuel du Far West », a-t-il déclaré à Technewsworld. «En l’état, le grattage sans permission a en effet contesté la capacité des fournisseurs de contenu à maintenir le contrôle de leur propriété numérique. Bientôt, cependant, les autorisations seront encore plus importantes.»

« Si les agents de l’IA deviennent une réalité », a-t-il dit, « il sera crucial de créer des infrastructures qui peuvent gérer, contrôler et authentifier les robots si les sites souhaitent minimiser les risques de sécurité des robots malveillants ou défectueux ou assurer des préférences de bande passante pour les utilisateurs humains. »

Daniel Castro, vice-président de la Fondation des technologies de l’information et de l’innovation, une organisation de recherche et de politique publique à Washington, DC, a fait valoir que la décision de CloudFlare de bloquer les robots d’IA des sites Web de gratte pour défaut pourrait avoir un impact significatif sur l’écosystème de l’IA.

« De nombreuses sociétés d’IA recherchent activement l’accès à des informations de confiance et de haute qualité pour former et affiner leurs modèles – parfois en payant, mais s’appuyant souvent sur des données publiques », a-t-il déclaré à Technewsworld. «En défautant pour bloquer ces robots, CloudFlare risque de limiter l’accès à ces informations publiques, en particulier pour les entreprises qui sont transparentes quant à leurs pratiques et respectueuses des préférences du site.»

«Alors que les propriétaires de sites Web ont le droit de contrôler l’accès à leur contenu, la restriction d’un large accès aux données Web pourrait finalement diminuer la précision et la qualité des systèmes d’IA», a-t-il poursuivi. «Au fil du temps, cela pourrait désavantager les utilisateurs qui dépendent des outils d’IA pour résumer, interpréter ou analyser les informations en ligne. Pendant ce temps, les acteurs moins scrupuleux peuvent simplement contourner les restrictions en mettant erroné des robots ou en s’approvisionnement des données des agrégateurs tiers.»

Castro a ajouté que le modèle Pay Per Crawl est une tentative intéressante de répondre à la tension entre la demande de l’IA et le contrôle des éditeurs. Pourtant, les micropaiements pour les rampes individuelles peuvent ne pas être viables à grande échelle. « La valeur des données de formation réside dans son étendue, pas une source spécifique, donc ce modèle peut profiter principalement aux intermédiaires de paiement plutôt qu’aux propriétaires de sites Web ou aux développeurs d’IA », a-t-il expliqué.

« En fin de compte, ces mouvements mettent en évidence un défi plus large: équilibrer l’innovation avec le contrôle », a-t-il déclaré. «Si nous nous penchons trop loin pour restreindre l’accès, nous pouvons saper la toile ouverte et le potentiel de l’IA pour servir l’intérêt public.»

A lire également