Know the limits - Bullshit made by KI
Dieser Artikel ist durch ein erwähntes Paper aus einem Kommentar von Dr. Fabian Nick (Link) inspiriert worden. Er setzt auf meinen letzten Artikel zum Thema "Be Smart - oder warum KI nur ein Werkzeug in den Händen kluger Leute ist" auf.
Der Artikel wurde komplett von Hand geschrieben.
Das Grundproblem
Als ich angefangen habe, das Papier "Chat-GPT is bullshit" von Michael Townsen Hicks, James Humphries und Joe Slater zu lesen, dachte ich erst, dass der Begriff "Bullshit" etwas harsch gewählt wäre. Doch im weiteren Verlauf der Publikation wird es spannend.
Doch zuerst befassen sich die Autoren mit dem Unterschied zwischen Mensch und Maschine und fassen das Thema, wie ich finde, sehr gut zusammen.
However, large language models, and other AI models like ChatGPT, are doing considerably less than what human brains do, and it is not clear whether they do what they do in the same way we do. The most obvious difference between an LLM and a human mind involves the goals of the system. Humans have a variety of goals and behaviours, most of which are extra-linguistic: we have basic physical desires, for things like food and sustenance; we have social goals and relationships; we have projects; and we create physical objects. Large language models simply aim to replicate human speech or writing. This means that their primary goal, insofar as they have one, is to produce human-like text. They do so by estimating the likelihood that a particular word will appear next, given the text that has come before.
The machine does this by constructing a massive statistical model, one which is based on large amounts of text, mostly taken from the internet. This is done with relatively little input from human researchers or the designers of the system; rather, the model is designed by constructing a large number of nodes, which act as probability functions for a word to appear in a text given its context and the text that has come before it. Rather than putting in these probability functions by hand, researchers feed the system large amounts of text and train it by having it make next-word predictions about this training data. They then give it positive or negative feedback depending on whether it predicts correctly. Given enough text, the machine can construct a statistical model giving the likelihood of the next word in a block of text all by itself.
Richtig. Ein LLM basierter Chatbot nutzt statistische Modelle, die auf die Trainingsdaten angewendet werden. Menschlicher Input dient der Gewichtung von bestimmten Aussagen. Mehr nicht. Aber die Masse der Journalisten, Techblogger, Dienstleister, Hersteller etc. hält es nicht davon ab, der Maschine menschliche Fähigkeiten anzudichten.
The variety, length, and similarity to human-generated text that GPT-4 is capable of has convinced many commentators to think that this chatbot has finally cracked it: that this is real (as opposed to merely nominal) artificial intelligence, one step closer to a human-like mind housed in a silicon brain.
Nicht falsch verstehen. Die Fortschritte in diesem Anwendungsfeld sind riesig und besonders vektorbasierte Datenbanken sind ein wichtiger Schritt, um Informationen noch besser semantisch auswerten zu können. Aber mit echtem Denken hat das nichts zu tun. Diese Modelle sind natürlich bearbeitet worden, Dinge auf eine bestimmte Art auszugeben. Diese Gewichtung stammt vom Menschen und ist auch nicht flexibel, sondern vorgegeben. Das kann am Ende sogar problematisch sein, wie ich in diesem Post schon näher ausgeführt habe (AI als voreingenommener Gatekeeper), denn wer sagt uns, wo die Gewichtung lag und welchen Interessen sie dient?
Bullshit or not?
We draw a distinction between two sorts of bullshit, which we call ‘hard’ and ‘soft’ bullshit, where the former requires an active attempt to deceive the reader or listener as to the nature of the enterprise, and the latter only requires a lack of concern for truth. We argue that at minimum, the outputs of LLMs like ChatGPT are soft bullshit: bullshit–that is, speech or text produced without concern for its truth–that is produced without any intent to mislead the audience about the utterer’s attitude towards truth.
Given this process, it’s not surprising that LLMs have a problem with the truth. Their goal is to provide a normal-seeming response to a prompt, not to convey information that is helpful to their interlocutor.
Und hier liegt auch schon das Problem. Als Wiederkäuer von Informationen will das LLM eine Antwort präsentieren, die richtig erscheint. Das führt am Ende aber wahrscheinlich zu ausgedachten Rechtstexten, erfundenen Details und anderen Merkwürdigkeiten. Das liegt einfach in der Natur der Sache und dem dahinter liegenden Sprachmodell.
Dabei erscheinen viele Texte sehr plausibel und gehen noch inhaltlich durch. Doch wenn es z.B. um Begründungen geht, geht es erst richtig los.
Similarly, when computer science researchers tested ChatGPT’s ability to assist in academic writing, they found that it was able to produce surprisingly comprehensive and sometimes even accurate text on biological subjects given the right prompts. But when asked to produce evidence for its claims, “it provided five references dating to the early 2000s. None of the provided paper titles existed, and all provided PubMed IDs (PMIDs) were of different unrelated papers” (Alkaissi and McFarland, 2023).
Und es kann noch schlimmer kommen, wenn man tiefer in den Kaninchenbau des eben fabrizierten Konstruktes abtaucht.
These errors can “snowball”: when the language model is asked to provide evidence for or a deeper explanation of a false claim, it rarely checks itself; instead it confidently producesmore false but normal-sounding claims (Zhang et al. 2023).
Warum eine Suchmaschine seine Daseinsberechtigung hat
These errors are pretty minor if the only point of a chatbot is to mimic human speech or communication. But the companies designing and using these bots have grander plans: chatbots could replace Google or Bing searches with a more user-friendly conversational interface (Shah & Bender, 2022; Zhu et al., 2023), or assist doctors or therapists in medical contexts (Lysandrou, 2023). In these cases, accuracy is important and the errors represent a serious problem.
Die Arbeit unterstreicht noch einmal die Wichtigkeit meines oben erwähnten Posts (AI als voreingenommener Gatekeeper). Wir brauchen weiterhin Zugriff auf echte Informationen und müssen diese auch vergleichen können. Eine KI kann wegen der o.g. Effekte eben auch Bullshit produzieren und positioniert sich als eine Art "vorgewichteter" Gatekeeper bei der Suche. Natürlich kann man den aktuellen Suchmaschinen auch vorwerfen, Inhalte zu filtern oder zu kategorisieren, aber mit einem LLM wird die Sache noch undurchsichtiger, als sie es ohnehin schon ist. Auch sehe ich das Verschwinden von Content, weil AI, Social Media etc. die Blogs und Webseiten immer unwichtiger und unrentabler machen. Dabei waren das immer die Quellen von Artikeln, Papieren und Essays, die die Wissensgrundlage im WWW gebildet haben. Sollten diese Inhalte bald nur noch in Form eines LLM existieren, wäre das eine Reise in die Vergangenheit der Informationsverfügbarkeit, da die Originale nicht mehr mehr einsehbar sind - nur noch ihre Abbildung im Sprachmodell. Dann bleibt dem Nutzer nur noch, an die Ausgabe zu "glauben".
Also ist es nur ein Werkzeug zur Erzeugung und Verarbeitung von Texten?
The problem here isn’t that large language models hallucinate, lie, or misrepresent the world in some way. It’s that they are not designed to represent the world at all; instead, they are designed to convey convincing lines of text.
Richtig. Dafür ein sehr gutes, welches über die Jahre immer besser wird und in den Händen von Menschen, die sich damit auskennen, immer einen echten Mehrwert darstellen wird. Es ist, wie mit jedem Werkzeug. Du must dich damit auskennen und seine Limitierungen kennen. Keiner würde einen Nagel mit einem Schraubenzieher in die Wand schlagen. Und ein Hammer ist nicht gleich ein Hammer. Auch hier gibt es unterschiede und verschiede Arten der richtigen Anwendung.
LLM können sehr gut dabei helfen, Textvorschläge zu erzeugen, Themen zu strukturieren, Zielgruppen zu adressieren uvm. Darüber hinaus gibt es speziell trainierte Modelle aus dem Machine-Learning Umfeld, mit denen bestimmte Aufgaben sehr gut ausgeführt werden können. Hier sollte man aber die Grenze zwischen einer allgemeinen und einer spezialisierten KI kennen und wo welche Technik einsetzt werden sollte.
Frankfurtian bullshit and lying
Empfohlen von LinkedIn
For our purposes this definition will suffice. Lies are generally frowned upon. But there are acts of misleading testimony which are criticisable, which do not fall under the umbrella of lying. These include spreading untrue gossip, which one mistakenly, but culpably, believes to be true. Another class of misleading testimony that has received particular attention from philosophers is that of bullshit. This everyday notion was analysed and introduced into the philosophical lexicon by Harry Frankfurt.
Später im Papier geht es darum, dass ein LLM nicht bewusst lügt. Eine Lüge hat eine Intension. Und hier ziehen die Autoren auch die feine Linie zwischen Bullshit und einer Lüge.
Frankfurt understands bullshit to be characterized not by an intent to deceive but instead by a reckless disregard for the truth. A student trying to sound knowledgeable without having done the reading, a political candidate saying things because they sound good to potential voters, and a dilettante trying to spin an interesting story: none of these people are trying to deceive, but they are also not trying to convey facts. To Frankfurt, they are bullshitting.
Dabei werde folgende Arten von Bullshit unterschieden:
Bullshit (general)
Any utterance produced where a speaker has indifference towards the truth of the utterance.
Hard bullshit
Bullshit produced with the intention to mislead the audience about the utterer’s agenda.
Soft bullshit
Bullshit produced without the intention to mislead the hearer regarding the utterer’s agenda.
ChatGPT is a soft bullshitter
So könnte man die Aussage des Papiers zusammenfassen. Dabei spielt es eben eine Rolle, ob die KI eine Intension aufweist. Natürlich sind die Gewichtung des Sprachmodells und bestimmte Filtersysteme ein Einflussfaktor (Hard Bullshit), aber das Modell an sich hat keine Intension. Daher sind die Ergebnisse überwiegend als "Soft Bullshit" zu bewerten. Das LLM hat nicht die Intension, den Empfänger der Antwort zu täuschen. Sie bereitet einfach nur statistische Wortgebilde auf. Nicht mehr und nicht weniger.
You are the bullshiter!
Das folgende Zitat aus dem Papier unterstreicht meine Aussagen in Bezug auf die Nutzung von KI-Chats noch einmal.
We will argue that even if ChatGPT is not, itself, a hard bullshitter, it is nonetheless a bullshit machine. The bullshitter is the person using it, since they (i) don’t care about the truth of what it says, (ii) want the reader to believe what the application outputs. On Frankfurt’s view, bullshit is bullshit even if uttered with no intent to bullshit: if something is bullshit to start with, then its repetition “is bullshit as he [or it] repeats it, insofar as it was originated by someone who was unconcerned with whether what he was saying is true or false” (2022, p340).
Was wir aus dem Artikel lernen können
Da ChatGPT und andere Chatbots nur ein Werkzeug sind, ist es natürlich der Anwender, der zum Bullshiter wird, wenn er diese Tools verwendet und die generierten Texte mit einer bestimmten Intension verwendet.
Der Artikel zeigt, vor welchen Herausforderungen wir gesellschaftlich stehen, wenn es ein Werkzeug gibt, dessen Output zuerst einmal sehr menschlich und plausibel in seiner Form erscheint.
Wir müssen aufpassen, dass wir uns nicht von den vielen leeren Versprechen einer KI-Industrie dazu verleiten lassen, unser Denken teilweise an eine Maschine abzutreten. Die getätigten Aussagen und Beobachtungen aus dem Papier zeigen noch einmal auf, wie groß der Einfluss des menschlichen Sachverstandes und die Intention bei der Erstellung von Inhalten sind. Das gilt natürlich auch für alle anderen Medien, die heute über generative Algorithmen erzeugt werden können. Auch den Herstellern dieser Technologien fällt eine große Verantwortung zu, da sie für die Gewichtung der Aussagen des Sprachmodells verantwortlich sind.
Das Papier ist eine absolute Leseempfehlung und hilft, die Grenzen aktueller LLM besser zu verstehen. Besonders für all die Menschen, die über den Einsatz von LLM im Unternehmenskontext nachdenken ist dieser Text wärmsten zu empfehlen.
Anhang: Die Autoren des Papiers
Achtung: Diese Angaben wurden mit KI aufbereitet.
Michael Townsen Hicks
Michael Townsen Hicks ist ein Philosoph und Forscher, der für seine Arbeiten im Bereich der Wissenschaftsphilosophie und der Metaphysik bekannt ist. Seine Forschung umfasst Themen wie Kausalität, Wahrscheinlichkeit und wissenschaftliche Erklärung. Hicks hat eine Vielzahl von Artikeln veröffentlicht und ist an mehreren akademischen Projekten beteiligt, die sich mit den grundlegenden Fragen der Philosophie der Wissenschaft befassen.
James Humphries
James Humphries ist ein renommierter Wissenschaftler und Forscher, der in den Bereichen Physik und Astronomie tätig ist. Seine Arbeiten konzentrieren sich auf die Untersuchung von kosmologischen Phänomenen, die Struktur des Universums und die Grundlagen der Quantenmechanik. Humphries hat zahlreiche wissenschaftliche Publikationen verfasst und ist oft als Redner auf internationalen Konferenzen zu sehen.
Joe Slater
Joe Slater ist ein angesehener Ingenieur und Technologieexperte, der für seine Innovationen in der Informationstechnologie und der Computerwissenschaft bekannt ist. Slater hat an der Entwicklung mehrerer bahnbrechender Technologien mitgewirkt, die die Art und Weise, wie wir mit Computern interagieren, revolutioniert haben. Er ist auch ein aktiver Förderer der Ausbildung im Bereich der Informatik und engagiert sich für die Förderung der nächsten Generation von Technikern und Ingenieuren.
Künstliche Intelligenz, Prozessmanagement, KI-Projekte, Sparring-Partnerin, Prüferin, Seminare , Keynotes, Dozentin | MSCopilot & KI Use Cases | SAP | BMD | Austrian Standards | FH Joanneum | WOMEN in ICT
7 MonateDie Herausforderung der KI: Zwischen Innovation und kritischem Denken In einer Zeit, in der künstliche Intelligenz rapide Fortschritte macht, stehen wir vor einer wichtigen Aufgabe: Wir müssen die Balance zwischen technologischer Begeisterung und kritischer Reflexion finden. 🤖💡 Die KI-Industrie verspricht viel – aber wie viel davon ist Realität, und wie viel bleibt (noch) Zukunftsmusik? Unsere Aufgabe ist es, diese Entwicklungen zu hinterfragen: - Welche Versprechen sind realistisch? - Wo liegen die Grenzen der aktuellen KI-Technologien? - Wie bewahren wir unsere Fähigkeit zum eigenständigen, kreativen Denken? Lasst uns gemeinsam einen Weg finden, die Chancen der KI zu nutzen, ohne dabei unsere kritische Urteilskraft aus der Hand zu geben. Was denkt ihr? Wie können wir KI sinnvoll in unseren Alltag integrieren, ohne unser Denken zu sehr auszulagern? #KünstlicheIntelligenz #KritischesDenken #Digitalisierung #Zukunftstechnologie