Sind die Daten "schlecht", kann auch die beste KI keine guten Ergebnisse liefern, wenn sie mit diesen Daten gefüttert wurde. Dieses Prinzip nennt man "Shit in - Shit out". Ich stelle mir vor, dass ein Einsatzgebiet von KI sein wird, bereits während der Eingabe von Daten dafür zu sorgen, dass diese gut von KI Systemen verarbeitbar sind. Bis es soweit ist, habe ich ein paar Tipps aufgeschrieben, an die ich mich selber versuche zu halten, bspw. wenn ich Doku schreibe:
- Benenne Dinge eindeutig. Wenn ein Produkt mal "das Produkt", mal "die Software" und dann wieder "die App" heißt, wird die KI nie wissen, was in einer Abfrage gemeint ist und wird denken, es handelt sich um drei unterschiedliche Dinge.
- Kein Denglisch. I know, es ist total epic wenn man den Purpose in der Message transportiert, aber die KI kommt damit nur durcheinander. Lass es.
- Abkürzungen erklären. Es gibt ja Branchen, in denen man unheimlich gerne mit Abkürzungen hantiert. Das Problem ist, oft wird ein Basismodell verwendet, was per-se schon viele Abkürzungen kennt. Und dann kommen die eigenen Daten oben drauf, teilweise mit Abkürzungen, die es in anderen Kontexten auch gibt, aber natürlich mit völlig unterschiedlicher Bedeutung. Also immer für den Kontext ein Abkürzungsverzeichnis erstellen.
- Einleitende Sätze. Spendiere jeder Seite oder Abschnitt ein paar Sätze zur Einleitung. Das macht es für die KI viel einfacher, die Inhalte die folgen richtig einzuordnen.
- Versteckte Daten. Webseiten und Dokumente beinhalten oft versteckte Daten. Das sind z.B. Metadaten, Tags, Keywords, Kommentare oder, wenn man Vorlagen nutzt oder Copy&Paste macht, auch gerne mal Daten aus dem Originaldokument. Diese Daten sind für Nutzer nicht sichtbar, für die KI aber schon. Stelle sicher, dass keine versteckten Daten vorhanden sind und wenn doch, dass diese mit den sichtbaren Daten übereinstimmen.
- Medienbrüche. Wir haben ständig Medienbrüche in der Kommunikation. Was als E-Mail-Verkehr begann, wurde irgendwann im Chat weitergeführt, dann beim gemeinsamen Mittagessen mit den Kollegen vor Ort, dann wieder in einer Confluence Seite geschrieben. Ein Satz im Chat wie "Wollte hier an meine E-Mail vom 1.11.2023 mit dem Betreff <so und so> anknüpfen" kann (irgendwann, noch sind wir nicht soweit) der KI reichen, um den "Faden" wieder zu finden.