GPTBot, un robot d’indexation développé par OpenAI, a suscité des inquiétudes et des réactions de blocage de la part de nombreux sites web de renom. OpenAI avait présenté GPTBot comme un outil visant à améliorer la précision de ses modèles d’intelligence artificielle en collectant des données sur le web. Cependant, plusieurs médias et plateformes ont rapidement restreint l’accès à ce robot.
Le New York Times, par exemple, a bloqué l’accès à GPTBot peu de temps après avoir révisé ses conditions d’utilisation pour interdire l’utilisation de son contenu dans l’entraînement de modèles d’IA. D’autres médias tels que The Guardian, CNN et Reuters ont emboîté le pas. En France, Radio France, TF1, France Médias Monde et le site actu.fr ont également bloqué GPTBot par mesure préventive.
Une étude menée par Originality.ai a révélé que 9,2% des 1000 sites web les plus visités au monde ont bloqué GPTBot au cours de ses deux premières semaines d’utilisation. Ce pourcentage a augmenté à 15% parmi les 100 sites web les plus consultés.
La méfiance envers GPTBot s’explique en grande partie par des préoccupations liées à la collecte non autorisée de données protégées par le droit d’auteur en vue d’une exploitation commerciale. Plusieurs médias envisagent de porter plainte contre OpenAI pour violation du droit d’auteur, tandis que d’autres discutent de la possibilité de céder leurs données à des entreprises spécialisées en IA en échange d’une commission.
Il est à noter que cette méfiance envers GPTBot et OpenAI a peut-être été renforcée par la suspension de la fonctionnalité “Browse with Bing” en juillet, qui permettait à ChatGPT de naviguer sur le web pour fournir des réponses actualisées aux utilisateurs de l’offre premium ChatGPT Plus, mais qui pouvait contourner les paywalls et accéder au texte intégral des articles, ce qui a été perçu comme problématique par certaines parties prenantes.