Wirkungsdaten mit KI auswerten: So behaltet ihr die Kontrolle

Beim Auswerten von Wirkungsdaten kann KI helfen. Wir skizzieren drei Einsatzmöglichkeiten und erklären, wie ihr typische Fehler vermeidet.

Die Wirkungsdaten sind erhoben, die Umfrage abgeschlossen, Interviews wurden geführt und Tabellen gepflegt. Ein großer Meilenstein in eurem Wirkungsmanagement ist abgeschlossen. Und gleichzeitig beginnt hier die nächste Arbeitsphase: aus euren erhobenen Daten sollen schließlich brauchbare Erkenntnisse werden.

Die Datenauswertung ist nicht nur ein Pflichtpunkt im Prozess der Wirkungsmessung, sondern sie hilft euch zu verstehen:

Was funktioniert wirklich?
Wen erreicht ihr – und wen nicht?
Wo entstehen Hürden?
Was soll im nächsten Zyklus besser werden?

Das herauszuarbeiten dauert und legt den Gedanken nahe, Künstliche Intelligenz einzusetzen. KI kann euch Arbeitsschritte erleichtern, etwa große Mengen unstrukturierter Informationen vorsortieren oder erste Zusammenfassungen erstellen. Schaut euch zum Beispiel an wie Stiftung Aktive Bürgerschaft sie im Alltag einsetzt.

Die Steuerung muss aber bei euch bleiben. Ein guter Merksatz lautet: Überlasst der KI nur Aufgaben, deren Ergebnis ihr selbst schnell prüfen und nachvollziehen könnt.

Jede Einsatzmöglichkeit muss wohl überlegt sein – und gut gepromptet

KI ist am hilfreichsten, wenn ihr sie nicht einfach bittet, eure komplette Evaluation zu übernehmen, sondern wenn ihr klar definiert, was ihr von ihr wollt. Stellt sie euch eher als Denkpartner:in vor, nicht als Autorität. Gebt ihr nicht die komplette Interpretationsmacht über eure mühsam gesammelten Daten, sondern bleibt selbst in der Entscheider:innenposition. Euer Fachwissen zählt mehr als die Maschine.

Fragt euch also vor jedem Einsatz ganz konkret:

Welche Aufgabe soll die KI übernehmen?
Welche Daten darf sie sehen?
Wie prüft ihr das Ergebnis?
Welche Entscheidung bleibt bei euch?

Wenn ihr diese Fragen klar beantworten könnt, dann werdet ihr auch gute Ergebnisse haben. Denn gute KI-Nutzung beginnt mit guten Fragen und ein präziser Prompt spart viele Korrekturschleifen. Zusätzlich solltet ihr in Zukunft darauf achten, dass der Einsatz von KI nun auch von der EU reguliert wird.

Hier drei besonders sinnvolle Anwendungsfälle für Wirkungsmanager:innen, die KI für ihre Datenauswertung nutzen wollen:

Fall 1: Lasst eure Daten zusammenfassen und strukturieren

Diese Herangehensweise ist geeignet, wenn eure Daten eher unstrukturiert sind und ihr eine erste Ordnung hineinbringen wollt: wenn ihr also beispielsweise viele offene Antworten, Gesprächsnotizen oder Interviewtranskripte habt. Ihr könntet die KI beispielsweise nutzen, um

Kernaussagen pro Interview zusammenzufassen
wiederkehrende Themen in den verschiedenen Textformaten zu erkennen
Antworten vorzusortieren
oder Cluster zu bilden.

Ein Beispiel-Prompt

Nehmen wir an, ihr arbeitet in einer NGO im Bereich der Jugendbildung und habt 20 lange narrative Interviews mit Teilnehmer:innen aus eurer letzten Workshop-Kohorte, sowie 5 Interviews mit ehrenamtlichen Helfer:innen geführt. Dann habt ihr womöglich eine Vorstrukturierung durch den Interviewleitfaden, aber dennoch sehr unterschiedlich gelagerte Antworten. Ein Prompt, der für diese Datenmenge und Ausgangslage passen könnte, wäre dieser:

### Prompt Anfang ###

“Ich arbeite für eine NGO im Bereich Jugendbildung. Hier sind 25 anonymisierte Interviewtranskripte von Jugendlichen und Ehrenamtlichen mit denen wir zusammengearbeitet haben. Bitte:

Fasse jedes Interview in 3 Stichpunkten zusammen.
Nenne wiederkehrende Themen, die du in mindestens 30% der Interviews findest Nenne abweichende Einzelmeinungen, die im Gegensatz zu den wiederkehrenden Themen stehen.
Ordne sie in Clustern.
Ordne den Themen / Clustern jeweils zu, auf welche Interviews sie sich beziehen.
Markiere Unsicherheiten, wenn du dir nicht sicher bist, ob deine Sortierung bestimmter Antworten richtig ist, weil dir Kontext zu unserem Programm fehlt.

Nutze nur Informationen aus dem Text und erfinde nichts.”

### Prompt Ende ###

Damit dieser Prompt am besten funktioniert, müssten eure Interviews nummeriert sein, damit die KI den Bezug herstellen kann.

Der Qualitätscheck danach

Lest die Interviews selbst durch und notiert euch knapp euren ersten Eindruck zu häufigen Aussagen oder überraschenden Widersprüchen. Schaut euch erst danach das KI-Ergebnis an: Hat die KI die gleichen Punkte als besonders relevant empfunden wie ihr? Kommen die Aussagen wirklich so im Material vor, oder wurden sie durch die KI verfälscht? Wenn ihr hier einen guten Eindruck gewinnt, lohnt es sich sicherlich noch Stichproben bei 10-20 Prozent der Interviews zu machen, aber viel Vorarbeit wurde schon geleistet.

Diese Aufgabe an eine KI auszulagern ist besonders für Anfänger:innen geeignet, weil die Ergebnisse für euch leicht überprüfbar sind.

Wenn ihr auf Unstimmigkeiten stoßt, fangt mit eurem verbesserten Prompt in einem neuen Chat noch einmal von vorne an. Nutzt dafür nicht den gleichen Chat und zusätzliche Anweisungen. Schreibt den Prompt stattdessen neu, dann entstehen keine Halluzinationen, weil die KI mit unterschiedlichen Anweisungen konfrontiert ist oder vergessen hat, was ihr weiter oben geschrieben habt.

Exkurs: Achtung, Datenschutz!

In vielen Wirkungsprojekten geht es um sensible Informationen: persönliche Lebenslagen, Bildungsbiografien, finanzielle Notlagen oder Gesundheitsdaten. Solche Inhalte dürfen auf keinen Fall unbedacht in öffentliche KI-Tools eingegeben werden. Das könnte für eure Zielgruppe großen Schaden verursachen.

Das Wichtigste zuerst: Prüft, ob eure Eingaben für Modeltrainings genutzt werden, und schaltet das möglichst aus.

Hilfreich sind zusätzlich zwei Listen:

Die Rote Liste: Niemals in KI-Tools eingeben

Namen, Telefonnummern, E-Mail-Adressen
Gesundheitsdaten
politische oder religiöse Angaben
politische oder religiöse Angaben
persönliche, nachvollziehbare Fallgeschichten
Interviewzitate mit erkennbaren Personenbezügen

Die Gelbe Liste: Nur mit Vorsicht in KI-Tools nutzen

Pseudonymisierte Datensätze oder aggregierte Daten mit möglichem Rückschluss auf Einzelpersonen – Achtet darauf, dass eure Datensätze so pseudonymisiert sind, dass ein Rückschluss wirklich nicht denkbar ist, z.B. “Teilnehmer:in, 20-30”, statt “männlicher Teilnehmer, 22 Jahre alt”.
Kleine Stichproben – Gerade bei sehr kleinen Stichproben können Pseudonymisierungen oft zu kurz greifen, z.B. wenn ihr in einer Kleinstadt arbeitet und nur wenige Bürger:innen dort überhaupt möglicher Teil eurer Zielgruppe sein können.
Interne Projektinformationen – Projektinformationen, die nur intern bekannt sind, sollten auch intern bleiben.
Prüft vor jeder Dateneingabe in KI kurz, ob ihr die Daten wirklich braucht, damit die Aufgabe ausgeführt werden kann. Prüft, ob Personen erkennbar werden (könnten). Eine gute Prüffrage ist: Würdet ihr diese Daten auch an externe Dienstleister:innen geben?

Option 2: Lasst euch erste Visualisierungen und verständliche Darstellungen erstellen

Mit hoher Wahrscheinlichkeit arbeitet ihr im Laufe des Auswertungsprozesses irgendwann mit Zahlen, zum Beispiel mit Prozentsätzen. Oft könnt ihr als Expert:innen für euer Fachgebiet damit etwas anfangen, Leser:innen von einem Bericht aber können sich nur wenig darunter vorstellen: Gute Darstellungen fehlen. Dabei kann die KI unterstützen.

Zum Beispiel kann sie euch helfen zu entscheiden,

ob Balkendiagramme oder Zeitreihen aussagekräftiger sind
welche Kennzahlen auf eine Übersichtsseite gehören
welche Aussagen genau in einer Grafik transportiert werden sollen

Ein Beispiel-Prompt
Stellt euch wieder vor, ihr arbeitet in der gleichen NGO wie oben, in der Jugendbildung. Aus euren Daten könnt ihr herauslesen, dass die durchschnittliche Zufriedenheit der Teilnehmer:innen hoch ist. Das wollt ihr sicherlich für einen Bericht herausstellen. Hier ist ein Beispielprompt, den ihr nutzen könntet:

### Prompt Anfang ###

“Hier sind anonymisierte Projektdaten zu Teilnahme, Abschlussquote und Zufriedenheit. Welche Visualisierungen wären sinnvoll? Bitte begründe deine Vorschläge und nenne mögliche Missverständnisse.”

### Prompt Ende ###

Der Qualitätscheck danach
Eine hübsche Grafik ersetzt keine Erkenntnis. Sie macht sie idealerweise sichtbar und dafür muss sie vor allem inhaltlich richtig sein. Achtet also bei eurem Qualitätscheck darauf, die Zahlen in der Darstellung noch einmal zu überprüfen. Vollzieht Rechenwege nach und fragt euch: Was sagt diese Grafik aus, in einfach Worten?

Option 3: Lasst euch bei der Interpretation eurer Daten helfen

Dieser Einsatzbereich ist sicherlich der spannendste. Die KI kann euch helfen, über die Erkenntnisse aus euren Daten nachzudenken. Gleichzeitig ist das der Bereich, bei dem ihr am meisten darauf achten müsst, die Rollenteilung zwischen euch als Fachexperte:innen mit Datenhoheit und der KI als Assistenz aufrechtzuerhalten. Haltet euch auch hier streng an den Merksatz von oben: Überlasst der KI nur Aufgaben, deren Ergebnis ihr selbst schnell prüfen und nachvollziehen könnt!

Am besten setzt ihr die KI an dieser Stelle erst ein, wenn ihr schon Hypothesen zu den Erkenntnissen habt, die in euren Daten stecken. Dann kann sie euch helfen,

alternative Erklärungen zu sammeln
Hypothesen zu verfeinern
noch unbewusste Aspekte zu entdecken
Fragen für die nächste Datenerhebung zu entwickeln

Ein Beispiel-Prompt
Wir gehen wieder vom Beispiel der NGO in der Jugendbildung aus und geben unsere eigene Hypothese gezielt in den Chat hinein.

### Prompt Anfang ###

“Nutze dein bisheriges Wissen über unsere Daten für deine Antwort, erfinde nichts, sondern geh nur von den Interviewantworten aus den Transkripten aus.

Unsere Daten zeigen: 40 % der Teilnehmenden brechen in den ersten drei Monaten ab.

Unsere These dieser hohen Abbrecherquote ist, dass sich viele der Teilnehmer:innen in der Lerngruppe nicht sichter genug fühlen. Wir vermuten also, dass wir zukünftig mehr Zeit darauf verwenden sollten, am Anfang ein gutes Gruppengefühl herzustellen, bevor wir in die Seminararbeit starten.

Bitte:

Nenne fünf mögliche andere Erklärungen für die Abbrecherquote.
Formuliere dazu prüfbare Hypothesen.
Fass uns in einer Liste für jede Hypothese die Stellen aus den Interviews zusammen, die diese Hypothese belegen.
Nenn uns außerdem die genauen Zeilen im Transkript, die die Hypothesen belegen.
Welche Perspektiven könnten wir übersehen?”

### Prompt Ende ###

Der Qualitätscheck danach
Die KI liefert euch keine Wahrheiten, sondern Denkanstöße, die ihr unbedingt auf ihre Plausibilität überprüfen solltet. Die Interpretation muss letztendlich weiterhin bei euch liegen und die KI eher dazu dienen, weitere Interpretationsmöglichkeiten zu erkennen, die auch in eurem Material vorhanden sein könnten.

Behalte immer die Grenzen und Risiken von der Arbeit mit KI im Blick

So hilfreich die gemeinsame Arbeit mit einer KI sein kann, es gibt auch Grenzen, die ihr euch unbedingt bewusst machen solltet: KIs können wichtige Nuancen übersehen, Zitate so verkürzen, dass der Sinn ganz anders ist und Zahlen missverstehen. Gerade weil KIs dabei allerdings oft professionelle formulieren, werden diese Fehler leicht übersehen.

Hinzu kommen mögliche Verzerrungen und gesellschaftliche Biases, die von KIs ungefragt übernommen werden. KI-Systeme lernen schließlich aus großen Datenmengen, in denen gesellschaftliche Ungleichheiten oft bereits enthalten sind: Das ist besonders relevant in Bereichen wie Bildung, Arbeitsmarkt oder sozialer Teilhabe, also in Bereichen, in denen ihr vielleicht arbeitet und genau solche Ungleichheiten abschaffen wollt.

Auch in Bezug auf eure Reputation ist Vorsicht geboten: Wenn eure Fördermittelgeber:innen ganz offensichtlich künstlich generierte Berichte bekommen, stellen sie sich sicherlich die Frage, wie ernst ihr den Lernprozess nehmt, der mit einer Wirkungsanalyse eigentlich einhergeht. Haltet euch deswegen unbedingt an die Qualitätschecks, die wir euch oben vorschlagen und übernehmt KI-Aufgaben niemals eins zu eins.

Transparenz nach außen ist professionell

Vielleicht stellt ihr euch die Frage, ob ihr die KI-Nutzung im Projekt dann lieber unter den Tisch kehrt, oder ob ihr sie offenlegt. Unser Tipp wäre: Legt die Nutzung offen, nüchtern und sachlich. Das wirkt nicht problematisch, sondern reflektiert.

Ihr könntet das zum Beispiel so formulieren: “Für die erste Strukturierung offener Antworten haben wir KI eingesetzt. Sensible Daten wurden zuvor anonymisiert. Die finale Auswertung erfolgte durch das Projektteam.”

Fangt klein an und lernt

Auch intern lohnen sich Transparenz und Dokumentation. Teilt mit dem Team, wo ihr KI genutzt habt, für welche Zwecke sie sich gut geeignet hat und für welche eher nicht. Sprecht darüber, wie ihr die Ergebnisse der KI prüft und welche Entscheidungen von euch getroffen wurden. Wenn ihr das auch noch schriftlich für alle festhaltet, entsteht mit der Zeit ein ganz eigener KI-Guide für euere Organisation, der verlässliche Routinen mit minimalem Risiko ermöglicht.

Allgemein empfehlen wir euch, klein anzufangen. KI muss kein Großprojekt sein, über das ihr erst sechs Monate diskutiert, wenn ihr einen kleinen, risikoarmen Einstieg macht. Wer klein startet, kann schnell lernen, wo wirklich Zeit gespart wird und wo eher ein Risiko von Fehlinterpretationen und daraus resultierender Mehrarbeit entsteht.

Vielleicht spart die allererste Anwendung tatsächlich noch nicht viel Zeit, sondern kostet sogar etwas mehr, weil Einsatzmöglichkeiten bewusst gebaut werden. Doch oft entsteht daraus etwas Wertvolleres als ein kurzfristiger Effizienzgewinn: eine Organisation, die klüger mit ihren Wirkungsdaten arbeitet.