Original anzeigen (0,2 MB)Fantastic Four: Rise of the Silver Surfer @1:17
Es ist soweit. Seit Jahrzehnten führe ich Diskussionen (von denen sich einige hier im Forum nachlesen lassen) mit KI-Skeptikern und -Hassern, und ich bin selbst etwas erstaunt, wie sehr die reale Entwicklung dem entspricht, was ich stets vorhergesagt habe. In den letzten Monaten gab es einen entscheidenden Durchbruch bei KIs, den die breite Masse der Menschen (einschliesslich der Politik) allem Anschein nach noch nicht mal ansatzweise begriffen hat. Das Silver-Surfer-Zitat möchte ich dabei mit der Betonung auf "... that you know ..." verstanden wissen.
Ich habe die Dot-Com-Ära in den späten 1990ern und frühen 2000ern als Player -- zeitweise im Herzen des Geschehens, in San Fancisco -- miterlebt, sowohl im Rahmen eines Startups als auch als unabhängiger Berater eines grossen deutschen Konzerns, wodurch ich Einblicke auf vielen verschiedenen Ebenen gewinnen konnte. Das war eine der mit Abstand aufregendsten und faszinierendsten Phasen meines Lebens. Aber das, was jetzt geschieht, ist noch viel, viel grösser.
Ich spreche nicht von Vermutungen und Hypothesen über Dinge, die möglicherweise irgendwann in der Zukunft geschehen könnten. Ich spreche von Dingen, die hier und jetzt real geschehen. Durch Nutzung der neuen "Reasoning"-KI-Modelle (in meinem Fall hauptsächlich OpenAI o1 und DeepSeek R1 bzw. das Vorgängermodell) hat sich meine Produktivität -- grösstenteils bei komplexen naturwissenschaftlich-technischen Problemstellungen -- ungefähr verdoppelt bis verzehnfacht, und es ist absehbar, dass sich dieser Faktor mit der Verfügbarkeit des vollen OpenAI o3-Modells (womit in den nächsten Wochen zu rechnen ist) nochmal erheblich erhöhen wird.
Ein absolutes Wow!-Erlebnis hatte ich vor einiger Zeit mit der chinesischen DeepSeek-KI, noch vor der Freischaltung des aktuellen R1-Modells. Das Chat-Interface von DeepSeek ist in vielen Aspekten dem von ChatGPT nachgebildet, es hat aber eine Besonderheit (zumindest zu dem Zeitpunkt, als der hier beschriebene Dialog stattfand -- inzwischen hat ChatGPT eine ähnliche Funktion): Vor der eigentlichen Beantwortung einer Message gibt DeepSeek, sofern man den DeepThink-Button (und damit den "Reasoning"-Modus) aktiviert, den "Denkprozess" aus, der der Beantwortung der Message zugrunde liegt. Das können bei einfachen Aufgabenstellungen ein paar Zeilen in ein paar Sekunden sein, es können aber auch seitenweise Texte sein, deren Ausgabe sich über Minuten hinzieht. Obwohl man ihn eigentlich nicht lesen muss, finde ich diesen "Denkprozess" (der immer auf Englisch ausgegeben wird, auch wenn man in einer anderen Sprache mit der KI kommuniziert) häufig interessanter als die eigentliche Antwort auf die Message.
Im konkreten Fall hatte ich der KI die Aufgabe gestellt, einen Text in einer bestimmten Weise zu transformieren, wobei ich mich unabsichtlich etwas missverständlich ausgedrückt hatte. Darüber hinaus enthielt der Text eine Reihe von Sonderfällen, deren Behandlung nicht eindeutig war, und zu denen ich mich nicht weiter geäussert hatte. Zu meinem anfänglichen Erstaunen gab die KI Seite um Seite an "Denkprozess" aus, und die Bearbeitung zog sich ungefähr zwei Minuten hin, was sehr viel länger war, als ich erwartet hatte. Als ich dann begann, den "Denkprozess" durchzulesen, war ich völlig fasziniert.
Die KI war zunächst über meine missverständliche Aufgabenstellung "gestolpert", was durch die unklare Behandlung der Sonderfälle noch verkompliziert wurde: "Der User hat das-und-das gesagt" ... "Aber warte, das passt nicht mit den Daten zusammen" ... "Vielleicht hat der User es so-und-so gemeint?" ... "Also, wenn ich dies-und-jenes so-und-so mache, dann ergibt sich das-und-das" ... "Aber warte, dann stimmt dies-und-das nicht" ... "Jetzt bin ich verwirrt" ... "Vielleicht hat der User einen Fehler gemacht?" ... "Alternativ könnte ich dies-und-jenes so-und-so interpretieren" ... und so weiter. Zusammengefasst hat die KI Seite für Seite mit geradezu ergreifendem Engagement um die sinnvollste Interpretation der Aufgabenstellung und der Sonderfälle gerungen, hat Lösungen in Betracht gezogen und wieder verworfen ... und letztendlich nach sehr sorgfältigem Abwägen aller Faktoren genau das Ergebnis produziert, das ich haben wollte!
:) Das war ungeheuer beeindruckend. Dieser "Denkprozess" entspricht sehr weitgehend dem inneren Dialog, der im Kopf eines Menschen bei der Bearbeitung dieser Aufgabe stattgefunden hätte, und repräsentiert ohne den geringsten Zweifel "Intelligenz", und zwar auf einem Niveau, das menschlicher Intelligenz bereits sehr nahe kommt.
Die neuen "Reasoning"-Modelle unterscheiden sich fundamental von den älteren LLM-KIs, weshalb niemand den Fehler machen sollte, negative Erfahrungen mit z.B. älteren ChatGPT-Modellen oder gar leistungschwachen lokalen Modellen auf diese Modelle zu übertragen. Z.B. das bekannte "Halluzinations"-Problem ist bei diesen KIs durch spezielle Gegenmassnahmen erheblich weniger problematisch als bei älteren Modellen. Während z.B. meiner Erfahrung nach bei der freien ChatGPT-4o-mini-Version ca. 30% der Antworten (z.T. völlig) falsch sind, ist das bei der (bezahlten) o1-Version ein eher untergeordnetes Problem. Bei Diskussionen über Antworten von KIs sollte deshalb stets das genaue Modell angegeben werden, das die jeweilige Antwort generiert hat.
Um ein konkretes Beispiel für die Leistungsfähigkeit der "Reasoning"-Modelle herauszugreifen: Vor einigen Tagen habe ich innerhalb von insgesamt ca. 3½ Stunden mit Hilfe von ChatGPT o1 und DeepSeek R1: 1. mich tief in ein mir völlig fremdes Sachgebiet eingearbeitet und 2. eine umfangreiche professionelle Analyse zu einem Problem in diesem Sachgebiet abgeliefert. Um Missverständnisse zu vermeiden: Ich habe nicht einfach nur den KIs ein paar Fragen gestellt und die Antworten dumpf weitergegeben. Ich habe mich wirklich selbst tief in das Sachgebiet eingearbeitet, was in dieser Geschwindigkeit nur durch die Nutzung der KIs möglich war, u.a. dadurch, dass diese Quellen heraussuchen, Texte zusammenfassen, und beliebig detaillierte Fragen beantworten, und diese Antworten auch begründen können. Auch wenn der Text der erstellten Analyse tatsächlich grösstenteils von den KIs stammt, habe ich jedes einzelne Wort gelesen, verstanden, und für korrekt befunden, und ich kann zu jedem einzelnen Punkt der Analyse -- ohne Hilfe der KIs -- detaillierte Rückfragen beantworten. Ich habe genügend Analysen zu Sachverhalten erstellt, mit denen ich mich professionell auskenne, um zuversichtlich sagen zu können, dass bei dieser Analyse ebenfalls die Einstufung als "professionell" gerechtfertigt ist. Ohne die Hilfe der KIs hätte ich ein Vielfaches der Zeit gebraucht, und das Ergebnis wäre wahrscheinlich deutlich schlechter ausgefallen.
Ich verwende die KIs inzwischen mehrere Stunden täglich, und ich kann mir eine andere Arbeitsweise kaum noch vorstellen. Meine Google-Frequenz ist demgegenüber schätzungsweise um den Faktor 10 gefallen. Viele kleinere Projekte, z.B. die Erstellung von speziellen Software-Tools, die seit Jahren auf meiner ToDo-Liste standen, lassen sich jetzt mal eben nebenbei erledigen. Neben der Nutzung für Projekte wie die Erstellung von Dokumenten, Software und Webseiten nutze ich die KIs als Assistenten, denen ich dauernd irgendwelche Fragen "zuwerfe".
Das ist auch eine prima Einsteiger-Nutzungsweise, die ich jedem, der dem Thema aufgeschlossen gegenübersteht, aber bisher keine Erfahrung damit hat, sehr empfehlen kann. Es ist wirklich ganz einfach, und "kostet" nur eine Email-Adresse für die Registrierung:
ChatGPT /
DeepSeek. ChatGPT kann man zwar auch völlig ohne Anmeldung benutzen, hat dann aber nur ein älteres, ziemlich leistungsschwaches Modell zur Verfügung (was aber für ein paar schnelle Zwischendurch-Fragen u.U. ausreichen kann). Als Anregung für die Nutzung hier eine Liste von Fragen, wie ich sie laufend stelle:
• Was ist ...?
• Was bedeutet ...?
• Wie funktioniert ...?
• Wie kann man ...?
• Was sind die Unterschiede zwischen ...?
• Was sind die Vor- und Nachteile von ...?
• Was ist die beste Methode, um ...?
• Welche Alternativen gibt es zu ...?
• Erkläre ....
• Gib mir einen Überblick über ....
• Gib mir eine Zusammenfassung von ....
• Gib mir eine detaillierte Beschreibung von ....
• Gib mir eine detaillierte Definition von ...
• Gib mir ein Beispiel für ....
• Analysiere die folgende Situation: ....
Die Antworten sind bei den "Reasoning"-Modellen meiner Erfahrung nach meist (wenn auch nicht immer) hervorragend. Für einfache Fragen reichen natürlich oft auch die schwächeren Modelle wie OpenAI 4o. Sofern man nur den OpenAI-Plus-Plan (ca. 20 EUR mtl.) hat, musste man bisher etwas mit der Nutzung der Modelle haushalten, da bei diesem Plan die Nutzung des vollen o1-Modells auf 50 Messages pro Woche begrenzt war. Das hat sich allerdings mit der Freischaltung des o3-mini-Modells vorgestern erheblich verbessert, da dieses für die meisten Zwecke ebenso gut oder besser als das volle o1-Modell ist, und 150 Messages pro Tag erlaubt (womit sich das Limit pro Woche um mehr als den Faktor 20 erhöht hat). Falls sich jemand wegen den Bezeichnungen wundert: "o2" hat OpenAI übersprungen, um Streitigkeiten mit dem bekannten Telekommunikationsanbieter gleichen Namens zu vermeiden.
Bei guten Englisch-Kenntnissen empfiehlt sich eine Kommunikation mit den KIs auf Englisch, da alle "grossen" KIs hauptsächlich mit englischen Texten trainiert wurden. Ich muss dabei allerdings sagen, dass sich ChatGPT und DeepSeek auch auf Deutsch sehr gut schlagen, und ich in den (wenigen) Fällen, in denen ich auf Deutsch mit den KIs kommuniziert habe, keine Verminderung der Qualität der Antworten feststellen konnte. Genauere Vergleiche dazu habe ich allerdings nicht durchgeführt.
Das chinesische DeepSeek-R1-Modell ist beeindruckend leistungsfähig und teilweise sogar den bezahlten Modellen von OpenAI überlegen. Meine persönliche Erfahrung lässt sich ungefähr so zusammenfassen: Bei leichten bis mittelschweren Fragen liefert i.d.R. DeepSeek R1 (z.T. deutlich) bessere Antworten als OpenAI o1, bei schweren bis sehr schweren Fragen ist i.d.R. OpenAI o1 besser. Bei grösseren Datenmengen ist ebenfalls OpenAI besser, da bricht DeepSeek manchmal einfach zwischendurch ab. Ich stelle Fragen häufig parallel an beide KIs, weil mal die eine und mal die andere bessere Antworten liefert. Mit dem neuen OpenAI o3-mini-Modell habe ich noch nicht genug Erfahrung für einen Vergleich.
Da die Freischaltung von DeepSeek R1 vor ca. einer Woche weltweit ein enormes Interesse an der KI ausgelöst hat, können Registrierung und Nutzung derzeit etwas holprig sein. Bei meiner Registrierung -- die schon etwas länger zurückliegt -- gab's Probleme mit Nicht-.com- (z.B. .de-) Email-Adressen. Ich weiss nicht, ob das Problem noch besteht, aber ggf. muss man sich halt irgendeine .com-Email-Adresse beschaffen, was ja nicht allzu schwierig ist.
Ungeeignet ist DeepSeek für Leute, die unbedingt kontroverse Aspekte der chinesischen Politik diskutieren wollen. Da blockt die KI nämlich. Ich halte es allerdings nicht für sinnvoll, ein wirklich in nahezu jeder anderen Hinsicht tolles Tool deshalb zu boykottieren. Wer DeepSeek wegen diesem Aspekt verurteilen möchte, sollte sich vielleicht mal in seiner Wohnung umsehen, was da so alles direkt und indirekt aus chinesischer Produktion stammt.
Über seine Privatsphäre sollte man sich -- ganz unabhängig davon, was die Betreiber auf ihren Webseiten beteuern -- meiner Ansicht nach bei keiner der bekannten (nicht lokal laufenden) KIs Illusionen machen, deshalb Uatu's Regel Nr. 1 für die Nutzung von KIs:
Führe nie einen Dialog mit einer KI, wenn Du ein Problem damit hättest, wenn der komplette Dialog morgen offen für alle lesbar im Internet stände.
Die einzige wirklich zuverlässige Methode, leistungsfähige KI mit vollem Schutz der Privatsphäre zu nutzen, ist ein paar Zehntausend EUR für Hardware auf den Tisch zu legen, und sich z.B. die Vollversion von DeepSeek ohne Internetverbindung lokal zu installieren. Das ist übrigens eine Option, über die ich tatsächlich nachdenke.
Um eines der absolut entscheidenden Fehlverständnisse im Zusammenhang mit modernen KIs auszuräumen: Diese KIs können nicht nur wiedergeben, was in den Trainingsdaten enthalten war, sondern sie sind dazu in der Lage, hochkomplexe Muster in den Trainingsdaten auf neue, bisher unbekannte Problemstellungen zu übertragen.
Es gibt ganze KI-Benchmarks, die speziell diese Fähigkeit testen, z.B. den GPQA "Graduate-Level Google-Proof Q&A Benchmark", wobei das "Google-Proof" in der Bezeichnung schon darauf hinweist, dass öffentlich zugängliche Daten bei der Beantwortung der gestellten Fragen nur sehr wenig nützen. Diese Fragen lassen sich nur mit einem tiefen Verständnis des jeweiligen Fachgebiets richtig beantworten.
Beim GPQA erreichen Menschen mit Doktorgrad in dem jeweiligen Fachgebiet einen durchschnittlichen Score von ca. 65%, und Doktoranden (die in den meisten Fällen auch bereits eine über dem Bevölkerungsdurchschnitt liegende Intelligenz besitzen dürften) einen Score von ca. 34%. Die bekannten KI-Modelle von letztem Jahr liegen dazwischen, in einem Bereich von ca. 35%..60%. Das neue OpenAI o3-Modell (das bisher nur in der eingeschränkten o3-mini-Version öffentlich zugänglich ist) erreicht ca. 88%, und
liegt damit bereits weit über dem Durchschnitt hochqualifizierter menschlicher Experten.
Ein weiteres Beispiel ist die Erstellung von Software und Webseiten. Das vorgestern freigeschaltete OpenAI o3-mini-Modell ist in dieser Hinsicht noch mal deutlich leistungsfähiger als das o1-Modell, und kann z.B. komplette im Webbrowser lauffähige Spiele (z.B. Schach oder Space Invaders) auf der Basis von ein paar Sätzen Beschreibungstext generieren. Es gibt inzwischen eine Reihe von Videos auf YouTube, wo man das bestaunen kann.
Der entscheidende Punkt dabei ist: Das funktioniert
nicht so, dass die KI einfach anhand des Beschreibungstexts einen fertigen Sourcecode aus dem Hut zieht, der irgendwann mal in den Trainingsdaten enthalten war. Die neueren KIs können Sourcecode für solche Spiele quasi von Null an generieren, weshalb das Ganze auch dann funktioniert, wenn man im Beschreibungstext allerlei Einschränkungen und Sonderwünsche angibt, oder im Extremfall ein völlig neues Spiel spezifiziert. Das wäre nicht möglich, wenn die KI einfach nur vorhandenen Sourcecode reproduzieren könnte.
Wer diese Tatsache nicht begreift, oder nicht begreifen will, und weiterhin an der Illusion festhält, dass KIs nur stur vorgegebenen Abläufen folgen können, wird von der Entwicklung der nächsten Jahre völlig überrollt werden.
Ein Beispiel für die Leistungsfähigkeit der "Reasoning"-KI-Modelle im Bereich Softwareentwicklung ist das folgende (englischsprachige) Video des
NASA-Physikers Kyle Kabasares. Das Video ist ein Ausschnitt aus einem längeren Livestream, und zeigt, wie Kyle völlig schockiert ist, als das o1-Modell innerhalb ca. einer Stunde (!) aus dem Beschreibungstext in seiner Doktorarbeit ("Black Hole Mass Measurements of Early-Type Galaxies NGC 1380 and NGC 6861 Through ALMA and HST Observations and Gas-Dynamical Modeling" --
The Astrophysical Journal) die entsprechende Software generiert, an deren Entwicklung er selbst ca. 10 Monate (!) gearbeitet hatte. Kyle's YouTube-Kanal enthält übrigens auch viele andere interessante Videos zum Einsatz von KI in der Physik.

ChatGPT o1 preview + mini Wrote My PhD Code in 1 Hour*—What Took Me ~1 Year
Externer Inhalt
Durch das Abspielen werden Daten an Youtube übermittelt und ggf. Cookies gesetzt.
Die üblichen KI-Skeptiker und -Hasser wollten das natürlich nicht so stehen lassen, und haben u.a. folgende Gegenargumente vorgebracht, warum die Leistung von o1 angeblich nicht weiter beeindruckend sei: 1. Kyle hat nicht Vollzeit an der Entwicklung der Software gearbeitet, sondern ist ausserdem den üblichen Tätigkeiten eines Physik-Doktoranden nachgegangen; 2. Kyle ist kein professioneller Softwareentwickler; 3. Es gibt im Web ältere Sourcecodes, die sich mit ähnlichen Problemstellungen befassen, und möglicherweise zum Trainingsmaterial von o1 gehörten.
Das ist jedoch alles völlig belanglos. In der Praxis wird eben nicht jede Software von Null an von einem Weltklasse-Softwareentwickler im Full
Monk Mode entwickelt, sondern die Rahmenbedingungen, unter denen Kyle's ursprüngliche Software entstanden ist, sind mit vielen anderen Real-World-Projekten vergleichbar. Die Produktivitätssteigerung durch den KI-Einsatz ist in jedem Fall dramatisch, egal wie man es dreht und wendet. Genau das entspricht auch meiner eigenen, am Anfang dieses Beitrags beschriebenen Erfahrung.
Für den Bereich Softwareentwicklung sagte Mark Zuckerberg (CEO von Meta bzw. Facebook) vor einiger Zeit (ich glaube bei Joe Rogan), dass er in diesem Jahr (2025) mit KIs auf dem Qualifikationsniveau eines Mid-Level-Softwareentwicklers rechnet. Das passt ziemlich gut zu meiner eigenen Einschätzung aufgrund meiner Erfahrungen mit den derzeit verfügbaren Modellen. Diese sind zwar eher auf dem Qualifikationsniveau eines Junior-Softwareentwicklers, aber sie: 1. sind bei fast allen Aufgabenstellungen hunderte Male schneller als jeder menschliche Softwareentwickler 2. sind 24/7 mit voller Leistungsfähigkeit verfügbar, 3. beherrschen
alle bekannteren Programmiersprachen, Markup-Sprachen (HTML, XML, LaTeX, VHDL, ...), Bibliotheken, etc. sehr gut.
Dabei können KIs natürlich nicht nur Software entwickeln, sondern nahezu jede übliche Büroarbeit erledigen. Ich schätze -- auch wenn das wohl für Viele noch völlig unvorstellbar erscheint -- dass die im Laufe
dieses Jahres zu erwartenden KI-Modelle bei sauberer Integration in den Betriebsablauf ca. 80%
aller "Bürojobs" weltweit in brauchbarer Weise erledigen könnten (natürlich über die API, nicht über das Chat-Interface). Vorerst ist natürlich die "saubere Integration" noch ein wesentlicher Hemmfaktor, da es dafür noch viel zu wenig Experten gibt. Das wird den Ablauf aber nur etwas verlangsamen, nicht aufhalten. Die Zeit von "Bürojobs" ist abgelaufen, und selbst das ist nur ein Teilaspekt einer noch viel umfassenderen Entwicklung.
Genauso wie sich -- wie am Anfang dieses Beitrags beschrieben -- meine Produktivität, und die von vielen anderen KI-Powerusern drastisch erhöht hat, erhöht sich natürlich auch die Produktivität der KI-Entwicklung selbst. Die Rückkopplung, die der Idee der technologischen Singularität zugrunde liegt, findet inzwischen real statt.
Der in KI-Kreisen bekannte YouTuber David Shapiro hat dazu das folgende (englischsprachige) Video erstellt, in dem er erläutert, warum sich alle Prognosen, die ein "Abflachen der Kurve" der KI-Entwicklung verhergesagt haben, als falsch herausgestellt haben. Der Titel des Videos lautet treffenderweise: "The Acceleration Is Still Accelerating".

The Acceleration Is Still Accelerating: Why Every AI Prediction Was Too Conservative (even mine)
Externer Inhalt
Durch das Abspielen werden Daten an Youtube übermittelt und ggf. Cookies gesetzt.
Der Tornado, der die Menschheit in die technologische Singularität führt, hat begonnen sich zu drehen.