Wenn Menschen wie KI klingen

Ich habe vor kurzem alle meine Blogartikel der letzten zehn Jahre durch eine Stilanalyse gejagt. Nicht mit einem KI-Detektor, sondern mit Claude Code, einem LLM-basierten Tool: Ich habe meine Texte systematisch analysieren lassen, und zwar gegen die Kriterien, die in der Wikipedia unter „Signs of AI writing” gelistet sind. Diese Kriterien bilden die Basis für viele KI-Detektoren und Humanizer-Tools¹.

Ich wollte wissen, ob sich mein Stil nach 2023 verändert hat, also nachdem ich angefangen habe, KI-Tools beim Schreiben einzusetzen.

Das Ergebnis hat mich überrascht. Nicht die Post-2023-Texte waren das Problem. Meine Artikel von 2015 bis 2022, geschrieben ohne jede Unterstützung durch solche LLMs, sehen nach diesen Kriterien verdächtig aus.

Der Selbstversuch

Ich habe 60 Artikel aus der Zeit vor 2023 analysiert. Parallelkonstruktionen wie „nicht nur…sondern auch”? In gut einem Viertel meiner Texte, seit 2015. Fettdruck für Schlüsselbegriffe? In knapp zwei Dritteln der Artikel. Superlative wie „großartig”? Regelmäßig, von der Apple Watch über Bier-Reviews bis zur Swift Fika 2018.

Ein paar Beispiele:

„Die Digitale Crown ist einfach großartig, ein wunderbares Bedienelement, von dem ich gar nicht genug bekommen kann.”
Apple Watch, 2015

„Diese Swift und iOS Entwickler Konferenz war einfach großartig.”
Swift Fika, 2018

„Das heißt aber nicht nur das iPhone oder iPad zu kennen, sondern auch Kommunikation mit dem Rechner oder Servern, inzwischen sogar auch Kommunikation mit anderen iOS Geräten.”
Pebble, 2015

„Langfristig schadet man nicht nur der Allgemeinheit, sondern auch sich selber.”
Besitzstandswahrung, 2022

„[…] dass E-Mails — diese elektronischen Briefe — etwas wundervolles sind.”
E-Mails, 2018

Das sind keine KI-generierten Texte. Das bin ich. Seit über zehn Jahren.

Die Logik dahinter: Konversionsfehlschluss

Was hier passiert, hat einen Namen in der formalen Logik: der Konversionsfehlschluss. Der begegnet einem in der Schule im Philosophieunterricht anhand von Beispielen oder formal im Informatikstudium.

Formal ausgedrückt

Dies ist der Fehlschluss selbst.²

P \rightarrow Q, \; Q \vdash P

Der Fehlschluss geht so:

Wenn es regnet, ist die Straße nass.

Die Straße ist nass.

Also hat es geregnet.

Klingt plausibel, ist aber falsch. Die Straße könnte auch nass sein, weil jemand den Gartenschlauch benutzt hat, weil die Kehrmaschine durchgefahren ist oder weil Schnee geschmolzen ist. Regen ist eine mögliche Erklärung, nicht die einzige.

Auf KI-Texte übertragen:

KI benutzt Parallelkonstruktionen und Superlative.

Dieser Text benutzt Parallelkonstruktionen und Superlative.

Also wurde dieser Text von KI geschrieben.

Dieselbe fehlerhafte Struktur. Ein Hinweis ist kein Beweis.

Was in der Wikipedia steht

Die englische Wikipedia pflegt eine Seite namens „Signs of AI writing”, die Muster katalogisiert, an denen sich KI-generierte Texte erkennen lassen. Dazu gehören Stilmerkmale wie übertriebene Superlative, Parallelkonstruktionen, Listenstrukturen oder generische Schlussformulierungen.

Es sind Beobachtungen, keine Regeln. Trotzdem behandeln KI-Detektoren und Humanizer-Tools sie wie binäre Indikatoren. Merkmal vorhanden? Verdächtig. Genug Merkmale? KI.

Warum KI so klingt wie Menschen

Hier liegt der Denkfehler, der mich am meisten stört: Viele tun so, als hätte KI einen eigenen Stil erfunden, den man nun erkennen muss. Aber LLMs haben ihren Stil nicht erfunden. Sie haben ihn gelernt. Aus Millionen menschlicher Texte.

Wenn ChatGPT „nicht nur…sondern auch” schreibt, dann nicht, weil das ein KI-Tick ist. Sondern weil Millionen Autoren das seit Jahrzehnten so schreiben. Ich eingeschlossen.

Was LLMs tatsächlich anders machen: Sie verwenden bestimmte Muster häufiger als die meisten Menschen. Die Dichte ist das Signal, nicht das Einzelmerkmal. Ein „großartig” in einem Bier-Review ist menschlich. Fünf „großartig”, drei „beeindruckend” und zwei „hervorragend” in einem einzigen Artikel, das riecht nach KI. Nicht weil die Wörter falsch sind, sondern weil die Konzentration unnatürlich hoch ist.

Was ich daraus lerne

KI hat von Menschen gelernt. Wenn ein Text nach KI klingt, kann das bedeuten, dass er von KI stammt. Es kann aber genauso bedeuten, dass jemand einen klaren, strukturierten Stil pflegt, den LLMs zufällig besonders gut imitieren.

Wer vorschnell urteilt, begeht denselben Fehler wie der, der bei nasser Straße automatisch auf Regen schließt. Manchmal war es der Gartenschlauch. Und manchmal schreibe einfach ich so.

Humanizer-Tools sind Software, die KI-generierte Texte so umschreibt, dass sie von KI-Detektoren nicht mehr als maschinell erkannt werden. Sie nutzen die typischen Stilmerkmale von KI-Texten als Checkliste und schreiben den Text so um, dass diese Merkmale verschwinden. ↩
Der Fehlschluss beruht auf der Verwechslung von Implikation und Äquivalenz. „Wenn P, dann Q” (Implikation) gilt nur in eine Richtung. „P genau dann, wenn Q” (Äquivalenz) gilt in beide Richtungen. Wer aus „Wenn P, dann Q” schließt, dass auch „Wenn Q, dann P” gilt, verwechselt die beiden. ↩