Harness — warum nicht das Modell über den Erfolg GenAI-getriebener Veränderung entscheidet

Fast 9 von 10 KI-Agenten-Piloten erreichen nie die Produktion — und entgegen der gängigen Erzählung nicht, weil Unternehmen ein „schwaches" Modell gewählt hätten. Es fehlt etwas, das 2026 einen eigenen Namen bekam: der Harness. Ein Harness ist die Schicht, die man um das Modell herum baut — Regeln, Werkzeuge, Berechtigungsgrenzen, Prüfmechanismen und Monitoring — und sie, nicht das Modell selbst, entscheidet zunehmend, ob KI Geld bringt. In diesem Text erkläre ich, was ein Harness ist, woher er kommt und warum es sich lohnt, den Begriff zu verstehen, unabhängig von der Unternehmensgröße.

Warum der Markt nur auf das Modell schaute

In den letzten zwei Jahren lebte der Markt von der Frage, welches Modell das beste ist. Verständlich — Modelle beeindruckten, und man glaubte leicht, es genüge, das richtige zu wählen, und der Rest füge sich von selbst. Doch die Reifung dieser Technologie ging in eine andere Richtung, als die Schlagzeilen vermuten ließen.

Ein Experiment zeigt das gut. Das LangChain-Team verbesserte die Wirksamkeit seines Coding-Agenten um fast 14 Prozentpunkte, ohne das Modell ein einziges Mal zu ändern. Es änderte nur das Umfeld: Selbstprüfungsschleifen, die Art der Informationszufuhr und Mechanismen zum Abfangen von Fehlern. Mit anderen Worten — derselbe Motor, ein anderer Harness, ein völlig anderes Ergebnis.

Woher der Harness kam und wozu ein neuer Name

Den Begriff machte Anfang 2026 Mitchell Hashimoto populär — Mitschöpfer von Terraform, ein Mensch mit Wurzeln in der Infrastruktur, nicht im KI-Marketing. Er beschrieb ein einfaches Prinzip: Wenn ein Agent einen Fehler macht, korrigiere nicht den Einzelfall, sondern baue darum herum eine Lösung, dank der er diesen Fehler nie wieder macht. Das Wort harness bedeutet wörtlich „Geschirr" oder „Gerüst" — ich belasse es im Original, weil man in der Praxis so darüber spricht. Daher die Formel, die laut wurde: Agent = Modell + Harness.

Fairerweise muss man sagen: Manche Praktiker rümpfen die Nase. Tests, Monitoring und Berechtigungskontrolle gab es im Software-Engineering lange vor diesem Begriff. Inhaltlich haben sie recht. Aber der Name hat seinen Wert — er gibt Vorständen ein gemeinsames Wort für Arbeit, die bisher irgendwo zwischen „IT" und „Innovation" verloren ging und die sich nun bewusst planen und finanzieren lässt.

In der Praxis ist ein Harness mehrere Schichten: die Regeln, die der Agent zu Beginn liest, der Zugang zu Werkzeugen, Berechtigungsgrenzen, Verifizierungsschleifen und Monitoring. Claude Code, Cursor, GitHub Copilot oder Codex sind heute genau solche fertigen Harnesses um Modelle — eine ganze Arbeitsumgebung, kein „Chat mit dem Modell".

Zwei Harnesses — und nur einer ist Ihr Vorteil

Hier kommt die Unterscheidung, die für Entscheider am wichtigsten ist. Einige Harnesses bauen die Modellanbieter — eingebaute Sicherheit, Werkzeugverwaltung, Kontextmanagement. Das ist die Schicht, die schnell zum Standard wird und die Sie im Preis des Werkzeugs bekommen. Sie nachzubauen lohnt nicht.

Die zweite Schicht bauen Sie selbst — für Ihren konkreten Prozess. Ihre Regeln, Ihre Daten, Ihre Absicherungen, Ihre Definition davon, was „gut gemacht" heißt. Und genau diese Schicht ist der echte Vorteil, denn sie hält das Wissen Ihrer Organisation fest und wird mit jeder Korrektur schwerer zu kopieren. Das Modell können Sie wie einen Motor tauschen. Diese Schicht nicht.

Daher eine einfache Schlussfolgerung: Den ersten Harness überlassen Sie dem Anbieter. Den zweiten überlassen Sie keinem einmaligen Beratungsprojekt, denn in ihm steckt das institutionelle Gedächtnis des Unternehmens.

Was wirklich funktioniert

Studien zeigen dasselbe Muster aus verschiedenen Blickwinkeln. Code, den ein Agent ohne Aufsicht erstellte, schnitt bei der Wartbarkeit schlecht ab — unabhängig vom Modell. Derselbe Code mit menschlicher Aufsicht und einer Kontrollschicht schnitt um ein Mehrfaches besser ab. Den Unterschied machte nicht das Modell, sondern das, was es umgab: Grenzen, Tests, Umfangskontrolle. Keine Technologie-Magie, nur die Wirkung eines reifen Prozesses.

Mein Fazit für Vorstände und Inhaber

Unabhängig von der Unternehmensgröße ist das Prinzip dasselbe. Hören Sie auf zu entscheiden, auf welches Modell Sie sich standardisieren — setzen Sie auf eine portable Schicht aus Regeln und behandeln Sie das Modell wie einen austauschbaren Motor. Der ganze Unterschied liegt in dem, was Sie darum herum bauen, und genau in diese Schicht lohnt es sich zuerst zu investieren, denn sie fängt Fehler ab, wenn das Modell irrt.

Die Skala ändert nur das Gewicht dieser Arbeit, nicht ihre Richtung. In einer großen Organisation ist der eigene Harness ein mehrjähriges Asset, kein einmaliges Beratungsprojekt — und er braucht eine Person, die ihn verantwortet; in Firmen, die es ernst nehmen, ist eine solche Rolle zur Norm geworden. In einem kleinen Unternehmen passt derselbe Harness in eine Regeldatei, die Ihren Prozess beschreibt, eine Liste dessen, was der Agent nicht tun darf, einen Mechanismus zur Ergebnisprüfung und eine einfache Aufzeichnung des Geschehens. Das sind Arbeitsstunden, kein großes Rollout. Daher die einfache Schlussfolgerung für ein kleineres Unternehmen: Kaufen Sie keine „agentische Transformation" von einem Anbieter, der alles verspricht — nutzen Sie den fertigen Harness, den Werkzeuge wie Claude Code, Cursor oder Copilot geben, und legen Sie Ihre eigene dünne Schicht für einen konkreten Prozess darauf. Am besten einen, bei dem sich leicht prüfen lässt, ob das Ergebnis gut ist — meist Marketing, Vertrieb oder Kundenservice.

Es gibt noch einen Grund, jetzt anzufangen, und er betrifft beide Gruppen. Ab August 2026 gelten die EU-Anforderungen für Hochrisiko-KI-Systeme — unter anderem in Rekrutierung, Scoring oder Mitarbeiterüberwachung. Die Frist wird in Regulierungsdebatten manchmal verschoben, aber die Planung für das frühere Datum ist schlicht sicherer. Eine Schicht aus Verifizierung, Logging und menschlicher Aufsicht ist nebenbei Compliance-Infrastruktur, nicht nur Innovation. Und nach einem fragt jeder Regulierer unabhängig von der Unternehmensgröße: nach einer kurzen KI-Nutzungsrichtlinie für das Team.

Fragen Sie nicht: „Welches KI-Modell sollen wir wählen?" Fragen Sie lieber: „Was bauen wir um das Modell herum, damit man sich darauf verlassen kann?" Denn bevor ein Modell Geld bringt, muss jemand darum herum eine Schicht bauen, die es im Zaum hält.

Liebe Leserin, lieber Leser. Wenn Sie meinen, das obige Thema betrifft Ihr Unternehmen, und Sie mit mir im Vorstandsrahmen darüber sprechen möchten, wie sich eine solche Schicht um KI in der Realität Ihrer Organisation bauen lässt, melden Sie sich. Leszek Giza.

Harness — warum nicht das Modell über den Erfolg GenAI-getriebener Veränderung entscheidet

Warum der Markt nur auf das Modell schaute

Woher der Harness kam und wozu ein neuer Name

Zwei Harnesses — und nur einer ist Ihr Vorteil

Was wirklich funktioniert

Mein Fazit für Vorstände und Inhaber

An KI-Beratung interessiert?

Verwandte Artikel

Warum der Markt nur auf das Modell schaute

Woher der Harness kam und wozu ein neuer Name

Zwei Harnesses — und nur einer ist Ihr Vorteil

Was wirklich funktioniert

Mein Fazit für Vorstände und Inhaber

An KI-Beratung interessiert?

Verwandte Artikel

KI-Adoption in Polen: 28,5%. Aber für KMU entscheidet nicht der Platz im Ranking über die Zukunft

Personalisierung wirkt auf Gruppen. Im B2B zählt Individualisierung

Anthropic ist kein Modellanbieter mehr. Wird zum AI-Dienstleister – auch für KMU