Der Anfang: Fribourg 1983
Als ich 1983 in Fribourg Informatik und Psychologie studierte, war die Welt der künstlichen Intelligenz noch eine ganz andere. Die Computer der damaligen Zeit – wenn man sie überhaupt so nennen konnte – waren schwerfällige Maschinen mit begrenztem Speicher und minimaler Rechenleistung. Ein typischer PC hatte vielleicht 64 KB RAM, und das Internet, wie wir es heute kennen, existierte noch nicht einmal.
Dennoch vertiefte ich mich damals intensiv in das Thema Lernen – sowohl menschliches als auch maschinelles Lernen. Die zentrale Frage, die mich beschäftigte und die in unzähligen Diskussionen mit Kommilitonen und Professoren immer wieder aufkam, war: Werden Computer eines Tages so gut denken und Probleme lösen können wie Menschen?
Diese Frage war damals nicht nur akademisch interessant, sondern hatte etwas Revolutionäres. Wir standen am Beginn des Computerzeitalters, und die Möglichkeiten schienen grenzenlos – auch wenn die Realität noch weit hinter den Träumen zurückblieb.
Die Pioniere, die mich prägten
Zwei Namen prägten meine damalige Sichtweise besonders und beeinflussten mein Verständnis dessen, was KI sein könnte.
Terry Winograd und die Macht der Sprache
Terry Winograd mit seinem revolutionären SHRDLU-System aus den frühen 1970er Jahren war für mich ein Leuchtturm der Möglichkeiten. SHRDLU operierte zwar nur in einer simplen Klötzchenwelt – einer virtuellen Umgebung mit geometrischen Formen, die bewegt werden konnten – aber es ermöglichte dabei erstaunlich natürliche Sprachinteraktionen.
Man konnte mit SHRDLU sprechen: „Nimm den roten Block und stelle ihn auf den grünen Würfel.“ Das System verstand nicht nur die Anweisung, sondern konnte auch Rückfragen stellen: „Welchen roten Block meinst du?“ Diese Art der Interaktion war damals revolutionär und zeigte mir, dass Computer durchaus in der Lage sein könnten, menschliche Sprache zu verstehen und darauf zu reagieren.
Gleichzeitig offenbarte Winograds Arbeit aber auch die enormen Grenzen der damaligen KI. SHRDLU funktionierte nur in seiner winzigen, perfekt definierten Welt. Sobald man versuchte, es auf reale Probleme anzuwenden, brach das System zusammen.
Joseph Weizenbaum und die ethischen Fragen
Joseph Weizenbaum mit seinem berühmten ELIZA-Programm – einem frühen Chatbot, der Psychotherapie-Gespräche simulierte – öffnete mir die Augen für eine ganz andere Dimension der KI-Forschung. ELIZA war eigentlich sehr simpel: Es analysierte die Eingaben des Benutzers nach Schlüsselwörtern und antwortete mit vorprogrammierten Phrasen.
Dennoch waren Menschen oft verblüfft davon, wie „verständnisvoll“ ELIZA zu sein schien. Sätze wie „Erzählen Sie mir mehr über Ihre Mutter“ oder „Wie fühlen Sie sich dabei?“ erweckten den Eindruck eines empathischen Gesprächspartners.
Weizenbaum war jedoch alarmiert von den Reaktionen der Menschen auf sein Programm. Er warnte bereits damals vor den ethischen Implikationen der KI und der Gefahr, dass Menschen Maschinen zu viel Vertrauen schenken könnten. Seine Kritik war prophetisch – heute, 40 Jahre später, diskutieren wir intensiv über die gleichen Fragen.
Meine damalige Schlussfolgerung: Computer müssen „aufwachsen“
Nach intensiver Beschäftigung mit dem Thema, unzähligen Stunden in der Universitätsbibliothek und Experimenten mit den wenigen verfügbaren KI-Programmen, kam ich 1983 zu einem klaren Schluss: Die Leistungsfähigkeit der damaligen Computer reicht nicht aus.
Meine Theorie war, dass Computer ähnlich wie Menschen aufwachsen müssten – in einer Umwelt Erfahrungen sammeln und dabei schrittweise lernen. Ich stellte mir vor, dass ein KI-System wie ein Kind beginnen müsste: zunächst einfache Konzepte lernen, dann komplexere Zusammenhänge verstehen, Erfahrungen sammeln, Fehler machen und daraus lernen.
Die Analogie zum menschlichen Lernen
Diese Überzeugung basierte auf meinem Studium der Psychologie. Menschen lernen nicht durch das Auswendiglernen von Enzyklopädien, sondern durch Interaktion mit der Welt. Ein Kind lernt das Konzept „heiß“ nicht durch eine Definition, sondern durch die schmerzhafte Erfahrung, eine heiße Herdplatte zu berühren.
Ich dachte, KI-Systeme müssten einen ähnlichen Weg gehen: Jahre oder Jahrzehnte der Interaktion mit der physischen und sozialen Welt, um die Nuancen menschlichen Denkens und Verhaltens zu verstehen. Ein langsamer, organischer Prozess der Wissensakquise, der Generationen von „KI-Kindern“ erfordern würde.
Die Grenzen der damaligen Technologie
Diese Einschätzung war durchaus realistisch, wenn man die damalige Technologie betrachtet. Die Computer der 1980er Jahre hatten weder die Rechenleistung noch den Speicher, um komplexe Lernalgorithmen auszuführen. Neuronale Netze existierten zwar theoretisch, aber die praktische Umsetzung war extrem begrenzt.
Machine Learning beschränkte sich auf einfache Algorithmen, die mit winzigen Datensätzen arbeiteten. Die Idee, einem Computer Millionen von Texten zum Lernen zu geben, war schlichtweg undenkbar – nicht nur wegen der technischen Limitationen, sondern auch weil diese Texte digital gar nicht verfügbar waren.
Was ich mir nicht vorstellen konnte
Es war mir damals schlichtweg nicht denkbar, dass Computer eines Tages in kürzester Zeit aus einem gigantischen Korpus menschlicher Texte lernen könnten. Diese Vorstellung überstieg meine Fantasie aus mehreren Gründen:
Datenverfügbarkeit: 1983 existierte das World Wide Web noch nicht; die meisten Informationen lagen in physischen Medien.
Rechenleistung: Selbst bei vorhandenen Daten fehlten die Kapazitäten, um sie zu verarbeiten.
Parallelität: Dass eine Maschine gleichzeitig aus Tausenden von Quellen lernen könnte, widersprach meinem damaligen Verständnis von Lernen.
Der Turing-Test: Von Vision zu ernsthafter Prüfung
Alan Turing formulierte 1950 seinen berühmten Test: Eine Maschine gilt als intelligent, wenn ein menschlicher Fragesteller in einem textbasierten Gespräch nicht unterscheiden kann, ob er mit einem Menschen oder einer Maschine kommuniziert.
Meine Skepsis von 1983
1983 schien mir der Turing-Test noch wie Science Fiction. Die KI-Systeme der damaligen Zeit waren so offensichtlich maschinell, dass die Vorstellung, sie könnten für Menschen gehalten werden, absurd erschien. ELIZA konnte zwar oberflächlich überzeugende Gespräche führen, aber nur in sehr begrenzten Kontexten. Sobald das Gespräch von den vorprogrammierten Mustern abwich, wurde die Künstlichkeit des Systems offensichtlich.
Ich schätzte damals, dass es mindestens 50–100 Jahre dauern würde, bis ein Computer den Turing-Test bestehen könnte – wenn überhaupt. Die Komplexität menschlicher Sprache, die Nuancen der Kommunikation, das Verständnis von Kontext und Ironie schienen unüberwindbare Hürden zu sein.
Die Realität von heute
Heute, 40 Jahre später, sind wir deutlich näher an Turings Vision herangerückt – aber ein allgemein akzeptierter „Sieg“ gibt es nicht. Moderne Large Language Models können in bestimmten Settings für begrenzte Zeiträume menschlich wirken; in anderen Szenarien werden sie zuverlässig erkannt. Wie „bestanden“ zu definieren ist, variiert je nach Testprotokoll, Dauer, Themenwahl und Expertise der Beurteilenden. Seriöse Fachliteratur spricht daher eher von partieller oder kontextabhängiger Täuschbarkeit als von einem endgültigen Bestehen.
Wichtige Einordnung zum Stand der Forschung:
Es existiert keine konsensuale, peer-reviewte „Endbestätigung“, dass GPT‑4 oder Nachfolger den Turing-Test im Sinne eines allgemein akzeptierten Standards „bestanden“ hätten.
Studien zeigen, dass Menschen in Online-Setups teils Schwierigkeiten haben, Mensch/Maschine zu unterscheiden; die Resultate hängen jedoch stark von Setup und Instruktionen ab.
In längeren, wissensintensiven Gesprächen mit Rückbezügen und Faktenprüfungen treten Schwächen weiterhin zutage.
Der Weg dorthin: Was sich fundamental geändert hat
Der Fortschritt kam nicht durch eine einzige Erfindung, sondern durch das Zusammentreffen mehrerer Entwicklungen:
Die Datenrevolution
Das Web und Digitalisierungsprojekte (z. B. gescannte Bücher, offene Wissensbasen) erzeugten Trainingskorpora in zuvor unvorstellbarer Größenordnung.
Rechenleistung und Infrastruktur
GPUs/TPUs, verteiltes Training und Cloud-Infrastruktur ermöglichten massiv-paralleles Lernen.
Architekturen und Trainingsparadigmen
Transformer und skalierte Vortrainingsregime (plus RLHF) machten generalisierende Sprachmodelle praktisch einsetzbar.
Ein Blick nach vorn
Als jemand, der 1983 davon träumte, dass Computer eines Tages wie Menschen denken könnten, fasziniert mich, wie anders dieser Traum Wirklichkeit geworden ist – nicht als Nachbau des Denkens, sondern als neues Bündel aus Statistik, Skalierung und Interaktion. Die Frage ist für mich nicht mehr „Können Computer wie Menschen denken?“, sondern: „Was bedeutet es für uns, wenn Systeme in immer mehr Situationen kompetent handeln und kommunizieren?“ Die Antwort klärt sich nicht in einem großen Moment, sondern in vielen konkreten Entscheidungen, in denen wir Nutzen, Risiko und Verantwortung austarieren.
Quellenverzeichnis (verifiziert)
Primärquellen und Klassiker
Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236), 433–460. doi:10.1093/mind/LIX.236.433
Winograd, T. (1972). Understanding Natural Language. Cognitive Psychology, 3(1), 1–191.
Weizenbaum, J. (1966). ELIZA—A Computer Program for the Study of Natural Language Communication Between Man and Machine. Communications of the ACM, 9(1), 36–45.
Weizenbaum, J. (1976). Computer Power and Human Reason. W. H. Freeman.
Moderne KI-Architekturen und Skalierung
Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS.
Devlin, J. et al. (2019). BERT: Pre-training of Bidirectional Transformers. NAACL.
Brown, T. B. et al. (2020). Language Models are Few-Shot Learners (GPT‑3). NeurIPS.
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556.
OpenAI (2023). GPT‑4 Technical Report. arXiv:2303.08774.
Evaluations- und Gesellschaftsbezug
Floridi, L., & Chiriatti, M. (2020). GPT‑3: Its Nature, Scope, Limits, and Consequences. Minds and Machines.
Bommasani, R. et al. (2021). On the Opportunities and Risks of Foundation Models. Stanford CRFM.
Gilardi, F., Alizadeh, M., & Kubli, M. (2023). ChatGPT Outperforms Crowd Workers for Text Annotation Tasks. PNAS Nexus.
Jakesch, M., Hancock, J., & Naaman, M. (2023). Human Responses to Machine‑Generated Content. CHI.
Zur Einordnung des „Turing-Tests“ heute
Hernández‑Orallo, J. (2017). The Measure of All Minds: Evaluating Natural and Artificial Intelligence. Cambridge University Press.
Harnad, S. (1990). The Symbol Grounding Problem. Physica D.
Mitchell, M. (2023). Artificial Intelligence: A Guide for Thinking Humans. Penguin.
Hier schreiben …