On vous vend l’IA comme un assistant capable de relire, corriger, restructurer et finaliser vos documents.

La promesse est séduisante : vous donnez un rapport, un fichier, un dossier, une base de travail ; l’IA s’en occupe ; vous récupérez un document propre.

Le problème, c’est que dans certains cas, le document final peut avoir l’air propre tout en étant devenu faux.

Pas faux partout. Pas cassé de manière évidente. Pas forcément inutilisable au premier regard.

Pire que ça : dégradé en silence.

C’est le sujet d’une étude publiée le 17 avril 2026 par trois chercheurs de Microsoft Research : Philippe Laban, Tobias Schnabel et Jennifer Neville. Son titre ne prend même pas la peine d’arrondir les angles : “LLMs Corrupt Your Documents When You Delegate”.

Traduction brutale : les grands modèles de langage corrompent vos documents quand vous leur déléguez le travail.

Le chiffre qui devrait calmer l’euphorie

Les chercheurs ont créé un benchmark appelé DELEGATE-52.

Le principe : tester ce qui se passe quand on demande à des modèles d’IA de modifier des documents professionnels sur plusieurs étapes, comme on le ferait dans un vrai usage de délégation.

Pas une simple question-réponse.
Pas une génération isolée.
Pas un petit résumé de trois paragraphes.

Un vrai workflow long, avec des documents à transformer, retravailler, puis restaurer ou manipuler correctement.

Le benchmark couvre 52 domaines professionnels, dont le code, la cristallographie, la généalogie, la notation musicale, les sous-titres, les registres comptables et d’autres formats structurés.

Les chercheurs ont testé 19 modèles issus de plusieurs familles : OpenAI, Anthropic, Google, Mistral, xAI et Moonshot.

Le résultat est violent :

même les modèles les plus avancés testés — Gemini 3.1 Pro, Claude 4.6 Opus et GPT-5.4 — dégradent en moyenne 25 % du contenu après 20 interactions déléguées.

Tous modèles confondus, la dégradation moyenne atteint environ 50 %.

Ce n’est pas un petit bug.
Ce n’est pas “une coquille”.
Ce n’est pas une faute de style.

C’est une perte mesurable d’intégrité du document.

Le danger n’est pas seulement que l’IA se trompe

Quand une IA répond n’importe quoi dans une conversation, on peut encore s’en méfier.

La phrase sonne bizarre.
Le chiffre paraît suspect.
Le ton est trop sûr.
On peut vérifier.

Mais dans un document long, le problème change de nature.

Une clause déplacée.
Une ligne de tableau modifiée.
Une valeur supprimée.
Une référence mal reconstruite.
Une notation spécialisée altérée.
Une partie correcte remplacée par une version plausible mais fausse.

Le fichier peut encore s’ouvrir.
Le texte peut encore bien se lire.
La structure peut encore sembler cohérente.

Et pourtant, le fond a changé.

C’est probablement le point le plus important de l’étude : les erreurs ne se voient pas forcément comme des accidents grossiers. Elles peuvent être rares, graves, localisées, et difficiles à détecter.

Autrement dit : l’IA ne détruit pas toujours le document.
Elle peut faire pire : elle le rend crédible et faux à la fois.

Les meilleurs modèles ne suppriment pas le risque. Ils le retardent.

On pourrait croire que le problème concerne seulement les petits modèles ou les IA bas de gamme.

L’étude dit autre chose.

Les meilleurs modèles font mieux, oui. Mais ils ne rendent pas la délégation fiable pour autant. Les chercheurs observent que les modèles plus forts ne suppriment pas vraiment les erreurs critiques : ils les repoussent plus tard et en commettent moins souvent.

Le problème n’est donc pas seulement la stupidité d’un mauvais modèle.
C’est une faiblesse structurelle dans l’usage qu’on commence à leur confier : prendre un document existant, le modifier sur plusieurs étapes, et garantir qu’il reste fidèle.

C’est exactement l’usage que les entreprises, les indépendants, les salariés et les plateformes veulent généraliser.

“Relis ce contrat.”
“Nettoie ce dossier.”
“Réorganise cette procédure.”
“Mets à jour ce rapport.”
“Corrige ce fichier.”
“Refais cette présentation.”
“Modifie ce document sans toucher au reste.”

Sur le papier, c’est le rêve de la productivité.

Dans les faits, cela peut devenir une machine à produire des erreurs invisibles.

Les agents IA ne règlent pas le problème

Autre point gênant : donner des outils au modèle ne suffit pas.

Les chercheurs ont aussi testé un fonctionnement plus agentique, où le modèle peut utiliser des outils pour lire, écrire, supprimer des fichiers ou exécuter du Python.

C’est justement ce qu’on nous présente comme la prochaine étape : des agents capables de travailler dans un environnement, de manipuler des fichiers, d’aller plus loin qu’un chatbot.

Résultat : dans ces tests, l’usage d’outils n’améliore pas la performance. Sur certains modèles testés, le mode agentique aggrave même la dégradation.

C’est important parce que tout le marché pousse aujourd’hui vers cette idée : ne demandez plus seulement à l’IA de répondre, laissez-la agir.

Mais si l’IA agit dans vos fichiers sans garantir leur intégrité, elle ne devient pas seulement un assistant.
Elle devient un risque opérationnel.

Un benchmark imparfait, mais un avertissement très utile

Il faut être précis.

DELEGATE-52 n’est pas une étude sur tous les usages réels de l’IA. Les auteurs eux-mêmes posent des limites : le benchmark est en anglais, repose sur des documents structurés, utilise des tâches réversibles, et ne remplace pas des études humaines en conditions réelles.

Donc non, il ne faut pas conclure que chaque document donné à une IA sera corrompu à 25 %.

Mais ce serait tout aussi malhonnête d’utiliser ces limites pour minimiser le signal.

Parce que le signal est clair : dès qu’on passe d’un usage “l’IA me donne une réponse” à un usage “l’IA travaille directement sur mon document”, le niveau de risque change.

Et ce risque est précisément celui que les interfaces actuelles masquent.

Elles donnent une impression de maîtrise.
Elles produisent une sortie fluide.
Elles parlent avec assurance.
Elles rendent un fichier propre.

Mais elles ne garantissent pas que le document est resté vrai.

Le vrai message pour les utilisateurs

Le problème n’est pas d’utiliser l’IA.

Le problème est de croire qu’un document produit ou modifié par l’IA est validé parce qu’il est bien présenté.

C’est exactement le piège.

Un document professionnel n’est pas seulement une suite de phrases. C’est une structure de responsabilités, de chiffres, de références, de règles, de décisions et parfois d’engagements juridiques ou financiers.

Si une IA modifie un paragraphe dans un article, l’erreur peut être gênante.

Si elle modifie une clause dans un contrat, une ligne dans un tableau comptable, une référence dans une procédure interne, ou une instruction dans un fichier technique, l’erreur peut devenir coûteuse.

Et le plus dangereux, c’est que l’utilisateur croit souvent avoir gagné du temps.

En réalité, il a parfois simplement déplacé le travail : au lieu de rédiger, il doit maintenant auditer. Au lieu de corriger, il doit vérifier que la correction n’a pas contaminé le reste.

La règle simple : l’IA peut aider, pas valider

Pour les documents importants, la conclusion devrait être brutale :

ne confiez jamais à une IA la version finale d’un document que vous n’êtes pas capable de vérifier vous-même.

L’IA peut proposer.
Elle peut reformuler.
Elle peut repérer des incohérences.
Elle peut aider à structurer.
Elle peut accélérer une première passe.

Mais elle ne doit pas devenir l’autorité finale sur un document sensible.

Pas aujourd’hui.
Pas sans contrôle.
Pas sans comparaison avec la version originale.
Pas sans journal des modifications.
Pas sans relecture humaine compétente.

Parce qu’un bon assistant qui se trompe visiblement reste un assistant.

Un assistant qui modifie vos documents en silence sans que vous sachiez exactement ce qu’il a changé devient autre chose : un risque caché dans votre propre workflow.

Et c’est probablement l’enseignement le plus dérangeant de cette étude.

L’IA ne menace pas seulement la vérité en inventant des réponses.

Elle peut aussi abîmer la vérité là où vous pensiez l’avoir déjà écrite.