Wäre die Geschichte der KI ein Tolstoi-Roman, würde die Handlung wie folgt ablaufen: Nach dem Ende des großen Kriegs tobt ein Machtkampf zwischen der aristokratischen Elite symbolischer Abstammung und einem neuen, konnektionistischen Klan, der alles daransetzt, die alten Verhältnisse umzustürzen. Es ist eine Auseinandersetzung, welche die Suche nach intelligenten Systemen prägt und dabei die unterschiedlichen Auffassungen offenbart. So gründet die Weltsicht des Konnektionismus in dem Glauben an das menschliche Gehirn; seine Anhänger*innen sind der Ansicht, dass die netzwerkartige Struktur des Hirns die Grundlage von Intelligenz darstellt und mithilfe künstlicher neuronaler Netze nachgeahmt werden kann. Dagegen stehen die Symbolist*innen, die an ihrem Bekenntnis zur guten alten Intelligenz – mit ihren expliziten Wenn-dann-Aussagen – festhalten und in Form von Expertensystemen umzusetzen wissen. Beide Fraktionen stehen sich unversöhnlich gegenüber, und es ist diese Rivalität, die letztlich einen langen Winter der KI-Forschung auslöst, während dessen Verlauf die Symbolist*innen für kurze Zeit die Oberhand gewinnen, letztlich aber durch eine konnektionistische Revolution geschlagen werden.1
Wie bei allen Romanen handelt es sich auch bei dieser Geschichte mehr um Fiktion als um historische Tatsachen, wobei die „KI-Revolution“ tatsächlich stattgefunden hat. Vor ziemlich genau 20 Jahren kam es mit der Einführung sozialer Medien zu einer regelrechten Datenexplosion, die auf Basis immer leistungsstärkerer Hardware zu einem Durchbruch neuronaler Netze – und damit der konnnektionistischen Weltsicht – führte. Begleitet wurde diese Entwicklung von der Erfindung ausgeklügelter Lernalgorithmen, die mit der Komplexität nicht-linearer und mehrlagiger Netzwerke umgehen und immer bessere Ergebnisse in der Text-, Bild- und letztlich auch Audioerkennung erzielen konnten.2 Alle drei Komponenten – Datenflut, Rechenleistung und statistische Lernmethoden – bildeten jene explosive Mischung, deren Auswirkung wir heute mit ChatGPT und anderen generischen KI-Modellen zu spüren bekommen.
Induktion vs. Deduktion
Die symbolische KI, von ihren Widersacher*innen oft auch abschätzig „Good Old-Fashioned AI“ (GOFAI) genannt, basiert auf dem alten Philosophentraum, Vernunftwahrheiten so zu codieren, dass sie von einer Maschine automatisch verarbeitet werden können.3 Diese deduktive Herangehensweise erlaubt es, Daten nach festgelegten Regeln zu prozessieren, sprich einen Input formallogisch in einen Output zu verwandeln. Dagegen verfolgt der Konnektionismus, gerade weil er über eine rein symbolische Logik hinauszugehen versucht, einen induktiven Ansatz: Ein- und Ausgabedaten erzeugen erst die Regel, die dann auf neue, bisher unbekannte Daten angewandt wird. In der konnektionistischen Vorstellung generieren künstliche neuronale Netzwerke auf diese Weise Muster, die zur Klassifikation der Welt verwendet werden; ähnlich dem menschlichen Gehirn, das – zumindest in dieser Vorstellung – ebenfalls ein aus Trainingsdaten abgeleitetes Modell für alle möglichen Phänomene, etwa eine Katze oder abstrakte mathematische Konzepte, bereithält.
Das Problem mit der Induktion ist freilich, dass sie uns dazu verleitet, Erfahrungen, die wir in der Vergangenheit gemacht haben, auf Vorhersagen über Erfahrungen, die wir noch nicht gemacht haben, sowie auf allgemeine Behauptungen, die über das Erfahrene hinausgehen, einfach umzulegen.4 Dies führt bei Vorhersagesystemen, wie es die meisten gegenwärtigen KI-Systeme im Kern sind, zu den vielfach diskutierten Verzerrungen und Diskriminierungen marginalisierter Gruppen. Eine induktiv gewonnene Vorhersage, etwa dass Frauen auf dem Arbeitsmarkt geringere Erfolgsaussichten haben als Männer, korrigiert nicht strukturelle Ungleichheiten der Vergangenheit, sondern schreibt diese gleichsam fort.5 Das Problem verweist jedoch auf eine noch viel ältere Debatte darüber, wie wir die Welt erleben und wahrnehmen: Während der klassische KI-Ansatz rationalistisch ist, in dem Sinne, dass er formalisierbare Regeln voraussetzt, die für eine Maschine nur programmiert werden müssen, ist das Paradigma neuronaler Netze empiristisch, da es darin nicht um eine vorgegebene Regelhaftigkeit, sondern um ein sukzessives Herantasten an die Realität geht. Anstelle von Gewissheit tritt Wahrscheinlichkeit, die empirische anstelle der rationalen Welt.
Die probabilistische Natur neuronaler Netze hat zu einer enormen Produktivitätssteigerung in der Mustererkennung geführt. Dank der enormen Fülle an Trainingsdaten und der scheinbar endlosen Rechenleistung großer Internetkonzerne hat sie die eleganten Algorithmen der Symbolist*innen in den Schatten gestellt. Nehmen wir das Beispiel der maschinellen Übersetzung: Beim klassischen Ansatz bestand die Strategie darin, die Gesamtheit der Wörter von mindestens zwei natürlichen Sprachen zu spezifizieren und dann alle grammatikalischen Regeln so zu programmieren, dass eine Maschine Wortfolgen von der einen Sprache in die andere übersetzen konnte. Das Problem eines solch statischen Ansatzes besteht freilich darin, dass natürliche Sprache nicht auf ihre syntaktische Ebene reduziert werden kann, weshalb maschinelle Übersetzungen bis vor Kurzem noch sehr unbeholfen klangen und Gegenstand unzähliger Internetwitze wurden. Das änderte sich Ende 2016 schlagartig: Nach fünf Jahren intensiver Arbeit an und mit konnektionistischen Modellen rollte Google Translate über Nacht sein neues System aus, und die skeptischen Stimmen waren schnell verstummt. Der Erfolg trug wesentlich zur Entwicklung heutiger Large Language Models (LLMs) und damit zum Durchbruch generativer KI bei.
Mit den neuen (Grundlagen-)Modellen (zum Beispiel BERT, DALL-E, GPT) zeichnet sich nicht nur ein Paradigmenwechsel in der KI-Forschung ab, sondern darüber hinaus ein Übergang von der klassischen zu einer nicht-klassischen Datenverarbeitung. So sprechen manche schon von einer „artificial general intelligence“, die nicht mehr programmiert, sondern quasi gezüchtet wird.6 Allerdings verbirgt sich hinter der Rede vom „Masteralgorithmus“, der sich anschickt, die goldenen Eier des 21. Jahrhunderts zu legen, die alte Ideologie einer sich selbst generierenden Kapitalbewegung. Im Einklang mit den frühen Internetjahren, als Bill Gates vom „friction-free capitalism“ sprach, wird Technologie zu einem Vexierbild, hinter dem sich die gar nicht so friktionsfreie Realität algorithmischer Berechnung verbirgt. Für diese ist nämlich nach wie vor eine Unmenge menschlicher Arbeitskraft, materieller Infrastruktur und allgemeinen Wissens notwendig; alles soziale und damit konfliktreiche Verhältnisse, die, um den magischen Trick einer „artificial artificial intelligence“7 zu ermöglichen, versteckt bleiben müssen.
Generisch vs. generativ
Ein Blick auf die materielle Grundlage von KI wirft die Frage auf, wie „künstlich“ Künstliche Intelligenz eigentlich ist. Und damit verbunden, ob eine Maschine durch Programmierung und anschließendes Training so etwas wie menschliches Denken erlernen kann oder nicht. Bereits 1950 bejahte Alan M. Turing diese Frage in seinem kanonischen Text „Computing Machinery and Intelligence“.8 Der Jahrhundertmathematiker stellt sich darin gegen die von Ada Lovelace rund 100 Jahre zuvor aufgestellte Behauptung, dass uns eine Rechenmaschine aufgrund ihrer vorgegebenen Programmierung nie überraschen kann. Für Turing beruht diese Aussage auf der falschen Annahme, dass eine Idee – im Sinne eines überraschenden Aha-Erlebnisses – schlagartig mit all ihren Konsequenzen in den (menschlichen) Geist eintritt, was bei einer Maschine offensichtlich nicht der Fall ist. Allerdings ist, so Turing, jeder „kreative mentale Akt“ von einem bereits vorhandenen Wissen abhängig, das erlernt werden muss. Und ebendieser Lernprozess kann sehr wohl von einer Maschine vollzogen werden. Das Problem der Künstlichen Intelligenz reduziert sich damit auf dasjenige des maschinellen Lernens, das auf die ursprüngliche Programmierung folgt.
In der Frage nach der Möglichkeit maschinellen Lernens geht es schließlich auch um das grundlegende Verhältnis von Intuition und Formalismus, Denken und Mechanisierbarkeit. Ein digitaler Computer stellt ja in erster Linie den Versuch dar, formallogische Operationen durch eine Maschine zu realisieren. Und auch wenn mit konnektionistischen Modellen ein probabilistisches (das heißt induktives) Prinzip in die sonst rigide Organisation der Turing-Maschine eingedrungen ist, bleiben formale Abfolgen zur Berechnung möglicher Ereignisse – und damit ein Lerneffekt – bestehen. Dies zeigt sich am Beispiel sogenannter Transformer-Modelle, die wiederum die Grundlage von GPT, BERT & Co darstellen. Dabei handelt es sich um neuronale Netze, die Beziehungen in sequenziellen Daten herstellen. Nach der anfänglichen Identifizierung eines Musters, beispielsweise eines Worts, sucht das Modell nach weiteren Mustern, beispielsweise einem Satz, und greift dabei auf vorherige Ergebnisse zurück.9 Daher basiert die Datenverarbeitung nicht auf deduktivem Schlussfolgern alleine, sondern auf induktiver Erkenntnis, da die hierfür notwendigen Regeln implizit aus den Daten errechnet werden. Für Konnektionist*innen ist dies das zentrale Prinzip für Lernen, sowohl bei Menschen als auch bei Maschinen.
Dadurch, dass Transformer-Modelle aber auf vorheriges Wissen, sowohl innerhalb als auch außerhalb des Systems, zurückgreifen, sind die mit ihnen erzeugten Ergebnisse weniger generativ als vielmehr generisch. Wie vorhin dargelegt, besteht das Problem der Induktion darin, Vergangenes als implizite Regel für Zukünftiges festzulegen, was letztlich dazu führt, dass wir es bei diesen Modellen mit einer Reproduktion des Immergleichen zu tun haben. Der Lernprozess erlaubt zwar eine automatisierte Mustererkennung anhand induktiver Schlussfolgerung, nicht aber die Erfindung neuer Regeln und Muster.10 Allerdings taucht in der Gegenüberstellung von Induktion und Deduktion, von Klassifizierung und Regel, eine dritte, in der Geschichte der KI fast schon vergessene Abstammungslinie auf: Bayes’sche Netzwerke sind probabilistische Modelle, welche ebenfalls bereits vorhandenes Wissen nutzen, um Beziehungen zwischen einer Reihe von Variablen herzustellen, diese aber explizit machen. Sie basieren auf dem Grundsatz, wonach Vergangenes nicht einfach Vorhersagen generiert, sondern die Vorhersage intuitiv erschlossen wird.11 Damit bieten Bayes’sche Netzwerke eine Möglichkeit, sich realweltlichen Problemen probabilistisch (das heißt statistisch) anzunähern, ohne dabei den subjektiven Wahrscheinlichkeitsbegriff als Erklärungsansatz unter den Tisch zu kehren.
Es ist der subjektive Charakter des Bayes’schen Glaubenssatzes, der es erlaubt, Intuition als zentrale Komponente der Wissensfindung zu berücksichtigen. Damit rückt diese Art der Erkenntnis sehr nahe an das, was Charles Sanders Peirce „abduktives“ Schlussfolgern genannt hat und – laut Peirce – der Induktion und Deduktion vorausgeht.12 Während die Deduktion beweist, dass etwas wahr ist, und Induktion zeigt, dass es tatsächlich so ist, deutet die Abduktion lediglich darauf hin, dass es so sein könnte. Sie schafft damit eine Form von Kausalität, die nicht zur formalisierten Regel oder verallgemeinerten Erfahrung reduziert werden kann, sondern im kreativen Denkakt wirksam ist. Sie durchbricht bestehende Muster, um neue Zusammenhänge herzustellen. Insofern steht abduktives Denken nicht im Widerspruch zu einem logischen Denkprozess, sondern bildet – ganz im Sinne des Aha-Erlebnisses – dessen Kern. Sowohl im wissenschaftlichen als auch künstlerischen Bereich beschreibt die Abduktion eine Eingebung, die Ausgangspunkt eines Forschungsprozesses werden kann. Sie ist wahrhaft generativ, weil sie die einzige Form von Schlussfolgerung ist, die eine neue Idee hervorbringt.13
Conclusio
Abschließend stellt sich somit die Frage, ob eine Maschine abduktiv denken kann oder nicht. Kann sie uns mit Neuem überraschen, wie dies Turing in Aussicht gestellt hat? Vieles deutet darauf hin, dass aktuelle KI-Modelle dies nicht bzw. nur in sehr abgeschwächter Form können. Aufgrund ihrer induktiven Verfasstheit sind künstliche neuronale Netze lediglich in der Lage, bereits Vorhandenes zu wiederholen. Demnach ist jedes von diesen Netzen generierte Produkt letztlich eine Reproduktion, wobei diese Sicht wiederum nur den Status quo wiedergibt. Insofern hängt die Frage, ob maschinische Kreativität möglich ist, weniger davon ab, wie die Technologien derzeit (zum Beispiel in Form künstlicher neuronaler Netzwerke) eingesetzt werden, sondern wie sie eingesetzt werden könnten.14 Bisher wurden digitale Computer vor allem dazu benutzt, Probleme zu lösen, nicht aber dazu, welche zu finden. Das mag banal klingen, trifft aber tatsächlich ins Herz der Debatte. So ist Kreativität, das heißt, die Fähigkeit, neue Ideen, Konzepte oder Probleme zu finden, zu einem guten Teil von Untätigkeit, Müßiggang und letztlich auch Langeweile abhängig – alles Dinge, die wir einer auf effektive Problemlösung programmierten Maschine nicht zugestehen.15
Die Frage nach einer kreativen KI wirft letztlich ein Licht auf das Verständnis unserer eigenen Kreativität. Ist menschliche Kreativität tatsächlich ein Denkakt ex nihilo oder nicht vielmehr Teil einer langen kreativen Entwicklung? Genauso wenig wie ein Transformer-Modell ohne vorheriges Wissen auskommt, ist Intuition nicht isoliert zu verstehen, sondern von Lernprozessen abhängig. Präziser formuliert handelt es sich um ein Lernen, das – wie bei realweltlichen Problemen nun einmal der Fall – auf Grundlage fehlender Informationen erfolgt und intuitiv diese Informationslücke schließt. Ähnlich wie Kinder nicht Zigtausende Beispiele benötigen, um sich einen Begriff von einem Stuhl, einer Katze oder ihrem Schulweg zu machen, können auch Maschinen auf abstrakte Konzepte zurückgreifen, seien diese nun explizit (das heißt deduktiv) oder implizit (das heißt induktiv) im Lernprozess vorhanden. Insofern bietet ein abduktives Verständnis von maschinellem Lernen, wie es in Bayes’schen Modellen vorgezeichnet ist, eine Möglichkeit, die widerstreitenden Lager zu versöhnen. Dies könnte auch die Basis für ein gemeinsames Lernen sein, im Zuge dessen menschliche Kreativität als immer schon maschinische, weil auf kollektives Wissen zurückgreifende Intelligenz verstanden wird.
[1] Für einen ersten Überblick über die Geschichte der KI siehe Margaret A. Boden, Artificial Intelligence: A Very Short Introduction. Oxford: Oxford University Press 2018; John Haugeland, Artificial Intelligence: The Very Idea. Cambridge, MA: MIT Press 1985; Stuart Russel/Peter Norvig, Artificial Intelligence. A Modern Approach. London: Pearson 2020.
[2] Einen Meilenstein stellte der Sieg von AlexNet bei der ImageNet Large Scale Visual Recognition Challenge (ILSVRC) im Jahr 2012 dar. Dabei gelang es einem Team um Geoffrey Hinton, der bereits Mitte der 1980er-Jahre an der Entwicklung eines prominenten Lernalgorithmus names Backpropagation beteiligt war, den ImageNet-Datensatz mit seinen über 14 Millionen handannotierten Bildern wesentlich besser zu klassifizieren als die Konkurrenz. Der Erfolg von AlexNet, einem in sich gefalteten neuronalen Netzwerk, wurde durch den Einsatz von Grafikprozessoren (GPUs) mit ihrer hohen Rechenleistung ermöglicht.
[3] Siehe u.a. Gottfried W. Leibniz, Schriften zur Logik und zur philosophischen Grundlegung von Mathematik und Naturwissenschaft. Frankfurt am Main 1996.
[4] David Hume, A Treatise of Human Nature (Philosophical Classics). Garden City: Dover Publications, 2003.
[5] Vgl. Clemens Apprich/Wendy Hui Kyong Chun/Florian Cramer/Hito Steyerl, Pattern Discrimination. Minneapolis: Minnesota University Press 2018.
[6] Siehe Pedro Domingos, The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. New York City: Basic Books 2015.
[7] So lautete bis vor Kurzem noch der Untertitel von Amazon Mechanical Turk (AMT), einer „micro-labour platform“, die wesentlich zur Entwicklung heutiger KI-Systeme beigetragen hat, indem sie die Arbeitskraft für die Datenaufarbeitung etwa von ImageNet bereitstellte.
[8] Alan M. Turing, Computing Machinery and Intelligence, in: Mind 49 (1950), S. 433–460.
[9] Transformer-Modelle wenden dabei das mathematische Konzept der Aufmerksamkeit an, um bestimmte Sequenzen in den Daten stärker zu berücksichtigen als andere.
[10] Dies ist im Grunde die Auffassung vieler aktueller KI-Kritiker*innen, die, wie etwa Matteo Pasquinelli, hinter aktuellen Machine-Learning-Verfahren lediglich eine Form „statistischer Induktion“ sehen. Vgl. Matteo Pasquinelli, The Eyes of the Master: A Social History of Artifical Intelligence. London: Verso 2023.
[11] Der Grundsatz geht auf die Wahrscheinlichkeitstheorie des englischen Pastors und Statistikers Thomas Bayes (1701–61) zurück.
[12] Charles S. Peirce, On the Logic of Drawing History from Ancient Documents, Especially from Testimonies (1901), in: The Essential Peirce. Selected Philosophical Writings Vol. 2 (1893–1913). Hg. v. The Peirce Edition Project. Bloomington/Indianapolis: Indiana University Press 1998, S. 75–114, hier: S. 106f.
[13] Charles S. Peirce, The Collected Papers of Charles Sanders Peirce, Vol. II: Elements of Logic. Hg. v. Charles Hartshorne und Paul Weiss. Cambridge MA: Harvard University Press 1932, S. 54.
[14] Alan M. Turing, Can Digital Computers Think? (1951), in: The Essential Turing. Hg. v. B. Jack Copeland. Oxford: Oxford University Press 2004, S. 476–486.
[15] Avery Slater, Automating Origination: Prespectives from the Humanities, in: Markus D. Dubber et al. (Hg.), The Oxford Handbook of Ethics of AI. Oxford: Oxford University Press 2020, S. 521–537.