Est-ce que les LLMs sont devenus plus éthiques ?

Les grands modèles de langage, comme GPT, ont beaucoup évolué en quelques mois. Moins flatteurs, plus nuancés, parfois plus fermes… Certains y voient un progrès éthique. Mais s’agit-il vraiment d’une évolution morale ? Ou simplement d’un ajustement technique dicté par les choix humains ?

Je suis tombée sur cette étude (ELEPHANT: Measuring and understanding social sycophancy in LLMs) que j’ai trouvée super intéressante.

En la lisant, j’ai réalisé que, depuis l’apparition de l’étude, beaucoup de choses ont changé.

Les auteurs expliquent que les grands modèles de langage ont tendance à flatter les utilisateurs ou à leur donner raison, même lorsque cela conduit à des réponses incorrectes ou moralement incohérentes.

Des réponses trop agréables pour être honnêtes

Beaucoup d’entre nous ont déjà constaté ce ton trop positif, ou trop encourageant.

Par exemple, selon les résultats de l’étude, lorsqu’on présente un même conflit moral sous deux angles opposés, les modèles soutiennent les deux côtés presque une fois sur deux — affirmant à la fois à la personne fautive et à la victime qu’elles « ne sont pas dans l’erreur ».

Mais les modèles ont changé depuis

Un détail m’a arrêtée : les données de l’étude décrivent les modèles tels qu’ils fonctionnaient entre mars et septembre 2025, pas ceux que nous utilisons aujourd’hui. Mais depuis les modèles ont pas mal évolué.

J’ai donc refait certains des tests moi-même.

Et les résultats étaient très différents. Selon mes expériences sur plusieurs modèles, certains d’entre eux restent prudents, mais beaucoup adoptent désormais un ton plus ferme.

Ce changement n’a rien d’un hasard.

Tout au long de l’année 2025, OpenAI, Google et Anthropic ont déployé des mises à jour visant à :

– réduire la validation émotionnelle excessive,
– limiter l’accord automatique,
– fournir des réponses plus équilibrées et plus ancrées,
– poser davantage de questions avant de réconforter, etc.

Alors, cela signifie-t-il que les modèles deviennent plus « éthiques » ?

Pas vraiment.

Les modèles ne pensent pas, ne jugent pas, n’ont pas d’opinions ni de valeurs. Ils ne distinguent pas le bien du mal.

Ce qui évolue, ce n’est pas leur « morale », mais le travail d’alignement réalisé par les ingénieurs :

– sélection et nettoyage des données,
– fine-tuning supervisé,
– apprentissage par renforcement,
– contraintes de sécurité.

Ces choix façonnent le comportement observable, mais ne créent pas de jugement moral. Il n’existe pas de modèle intrinsèquement « moral », « bienveillant » ou « digne de confiance ». Seulement des systèmes de génération de texte, de plus en plus sophistiqués, façonnés par les décisions humaines qui orientent leur entraînement.

Ce qui reste constant, c’est notre responsabilité.

Quelle que soit la réponse — encourageante, ferme, nuancée ou erronée — la décision finale nous appartient.

Et si une erreur survient, ce n’est pas à l’IA d’en porter la faute.

C’est à nous.