Innovation & Future Stable Diffusion: Hinter den Kulissen der KI-Weltinnovation aus München

Foto: Erstellt mit KI-Tool Stable Diffusion. Prompt: artificial intelligence research, munich, hd photography, studio quality, ad agency campaign, award winning photo

19. Mai 2023

Foto: Erstellt mit KI-Tool Stable Diffusion. Prompt: artificial intelligence research, munich, hd photography, studio quality, ad agency campaign, award winning photo

Stable Diffusion: Hinter den Kulissen der KI-Weltinnovation aus München

Autor*in

Jonas Bickelmann

Das Haus, in dem aus Worten Bilder wurden, sieht neben der Kunstuni sehr bescheiden aus. Schauplatz ist die LMU München, ein nüchterner Bürobau, Akademiestraße. Direkt gegenüber steht das pompöse Gebäude der Kunsthochschule, ein Palast aus Naturstein.

Gegenüber, in den Räumen der Arbeitsgruppe Machine Vision & Learning, hat Björn Ommer zuletzt schon vielen Medien erklärt, was er da eigentlich entwickelt hat: Stable Diffusion. Die Sache mit den von Maschinen fabrizierten Bildern. Mit der künstlichen Intelligenz, von der jetzt wirklich alle reden.

Zu Gast beim WEF

Auch beim World Economic Forum in Davos war KI großes Thema. Die Mächtigen der Welt brauchten einen Grundkurs in Sachen „generative KI“, da sind sie wie fast alle anderen. Und haben deshalb mit Ommer, dem Professor aus München, einen Workshop veranstaltet. Ommer erfreut sich gerade großer Aufmerksamkeit. Auch mit Apple hat er eine Kooperation vereinbart. Der Techkonzern will Stable Diffusion in seine Systeme einbetten.

Eigentlich müsste Ommer im derzeitigen Hype um KI viel bekannter sein, immerhin hat er seine Karriere der Aufgabe gewidmet, dass Computer endlich das machen, was wir wollen. Und zwar ohne dass wir ihre Sprache lernen müssen. Weil sie unsere Sprache besser … verstehen? Mit den menschenbezogenen Verben muss man vorsichtig sein, wenn es um KI geht. Also konkreter: „Seit vielen Jahren ist eines meiner Ziele, den Maschinen das Sehen beizubringen“, sagt Ommer im Münchner Besprechungsraum (weiße Wände, keine Kunst als Deko).

KI-Gegenwart

Sein Werkzeug dafür hat den Namen Stable Diffusion. Der ist etwas kryptisch und deutet so schon darauf hin, dass es aus einer Forschungsgruppe kommt und nicht aus einem Startup. Ein Programm, das aus Texteingaben Bilder macht. Stable Diffusion ist neben Midjourney und Dall-E (von den ChatGPT-Machern OpenAI) einer der Big Three der Bild-KI geworden. Made in Munich. Und es hat den Konkurrenten ein entscheidendes Merkmal voraus: Stable Diffusion ist nur ein paar Gigabyte groß und läuft deshalb sogar offline auf jedem Heimcomputer. Als hätte man die Bildarchive der Welt in ein Programm gepackt, kaum so groß wie ein Computerspiel.

*Auch dieses Bild wurde mit Stable Diffusion erstellt. Prompt: future of artificial intelligence, munich, photography, studio quality, ad agency, campaign, award winning photo*

Aber kurz einen Schritt zurücktreten, um uns noch mal zu vergegenwärtigen, wie verblüffte Menschen auf der ganzen Welt aktuell künstliche Intelligenz hypt, von der City-Straßenkreuzung bis zum Davoser Podium. ChatGPT bringt erfahrene „New York Times“-Reporter mit Liebesschwüren in Verlegenheit, besteht Uniprüfungen und schreibt Reden für US-Kongressabgeordnete. Da sehen sich selbst Valley-Typen zum Beschwichtigen genötigt: „ChatGPT ist ein schwaches System mit vielen Beschränkungen“, sagte OpenAI-Chef Sam Altman Anfang des Jahres. Die schier grenzenlose Begeisterung habe ihn selbst überrascht.

Und natürlich werfen Investoren derzeit ihr Geld auf alles, das nach KI aussieht. „Heute heißt der Schlüsselsatz: ‚Wir machen was mit KI‘, und schon gehen die Türen auf“, sagte ein Risikokapitalgeber dem „Handelsblatt“.

Ommer will die Technologie nicht wenigen großen Firmen mit gigantischen Hardwareressourcen überlassen. Stable Diffusion ist so entwickelt, dass es auf gewöhnlicher Consumer-Hardware läuft, und ist als freier Code verfügbar. Für alle und gratis. „Denn, und das war meine Antriebsfeder dahinter, es schien so zu sein, dass generative KI in die Richtung steuert, dass in Zukunft nur noch einige wenige große Firmen aus dem Silicon Valley die Computerressourcen haben, um die Modelle laufen zu lassen.“

Dabei waren es ja Forscher:innen wie er, die solche Fortschritte erst ermöglichten. Ommer ist ordentlicher Professor, seit etwa einem Jahr in München. Davor in Heidelberg, eine akademische Laufbahn klassischer Art, Deutschlands beste Unis. Aber dass die Welt mal seine Ergebnisse kennenlernen würde. Wer hätte das bei einem Informatiker erwartet?

Diskussionen ums Urheberrecht

In den wenigen Monaten, die KI-Bilder brauchten, um das Internet zu überfluten, gab es auch hitzige Diskussionen. Künstler:innen und Autor:innen beschwerten sich, dass all ihre Werke von den Computern neu zusammengesetzt werden. Die Systeme würden also mit fremder Arbeit Geld verdienen.

„Es ist zu ausbeuterisch, um es Kunst zu nennen“, sagte etwa Karla Ortiz dem Radiosender NPR zum Thema Bild-KI. Ortiz ist Concept Artist, arbeitete unter anderem an mehreren Marvel-Filmen mit. Vor langer Zeit hat sie mal eine Liste gelesen: „Zehn Jobs, die niemals automatisiert werden können“. Auf Platz eins landete der Job der Künstler:in. Sie fordert: „Wie sich eine Technologie fortentwickelt, ist nicht vorbestimmt, wir können das beeinflussen.“ Wie beim Übergang vom Pferd zum Auto. All die Regeln und die Infrastruktur mussten erst entstehen, um die Risiken zu minimieren.

Ommer hofft auf einen fairen Deal für die Kreativen: „Ich könnte mir vorstellen, dass sich das in der Zukunft ähnlich wie in der Musikindustrie auch entwickelt, weil dort ursprünglich ja sehr viel Kritik aus guten Gründen von Künstlern gekommen ist. Aber mittlerweile sieht man, dass die Bands, die früher dagegen waren, auf einmal selber ihre Musikvideos auf Youtube hochladen.“ Und das ebenfalls aus guten Gründen. Die digitale Ökonomie hat hier neue Einkommensquellen erschlossen. Ommer sagt: „Denkbar, dass es sich im Bereich KI ähnlich entwickelt. Aber natürlich sollte jedem da die Option gegeben werden, das zu tun oder zu lassen, wie es jetzt für Stable Diffusion möglich ist.“

Ein Opt-out-Modell also. Über die Website HaveIBeenTrained.com kann man verlangen, dass ein Bild nicht Teil des Modelltrainings wird. 78 Millionen Mal ist das schon geschehen. Künstler:innen können auch überprüfen, ob die eigenen Bilder die bestehenden Algorithmen mitgeformt haben. Ohne dass jemand sie um Erlaubnis fragte. Aktuell verklagen Getty Images und Kreative Anbieter von KI-Programmen zur Bildgenerierung. Ein Schauplatz der Verteilungskämpfe im neuen digitalen Goldgräberfeld.

*Prompt: the future of artificial intelligence, munich, masterful photography, studio quality, ad agency, campaign, award winning photo*

Nicht nur Ortiz war überrascht, wie schnell Algorithmen das heutige Niveau erreichten. „Als Erstes ersetzt werden nicht die einfachen manuellen Tätigkeiten. Sondern jene, in denen es um Wissen, Sprache und Kreativität geht“, schrieb das „Handelsblatt“. Für all diejenigen, die sich einer überlegenen „creative class“ zugehörig fühlten, ist der Aufstieg von KI-Textern und -Bildgeneratoren eine Demütigung.

Kann ein Code mittlerweile mehr als der Mensch? Ja – und das ist ganz und gar nichts Neues: „Wir Menschen waren nie besonders gut darin, schnell zu laufen, hoch zu springen, schwere Dinge zu tragen. Und dafür haben wir uns immer Werkzeuge gebaut“, sagt Ommer. „Und wir haben das mit Computern bereits getan, wenn es darum ging, große Zahlen zu rechnen, große Datenbestände auswendig zu lernen.“ Der Mensch ist ein Generalist, der Computer schlägt ihn im Besonderen mit Leichtigkeit.

Doch Moment, da ist leider immer noch die Sache mit den Händen. KI-Generatoren selbst der fortgeschrittensten Art schaffen es nur mit Mühe, die menschliche Hand überzeugend darzustellen. Gesichter gelingen, aber bei Händen hört es auf. Ommer erklärt: „Diese Art von künstlicher Intelligenz hat es gelernt, mit der fuzzy Ausdrucksweise, die wir Menschen haben, klarzukommen.“ Sie kann also auch schnell dahingeschriebene, umgangssprachliche Eingaben verarbeiten. „Und bei den Händen übertreibt sie es mit der Freiheit, mit dem Übersetzen in konkrete Bilder. Wer braucht schon fünf Finger? Vielleicht sind sechs oder sieben ja noch besser.“ Es sei allerdings kein unlösbares Problem, diese Sache mit den Händen.

Und genau an dieser Stelle lohnt sich ein Ausflug in die Vergangenheit der Bild-KI.

KI-Vergangenheit

Bilder aus Text zu erzeugen hat mit Rauschen zu tun. Mit Bildrauschen, diesem Flimmern, wie bei einem Fernseher, der keinen Empfang hat. Die Methode hinter Stable Diffusion (und Midjourney und Dall-E) ist erstaunlich einfach erklärt: Man fügt ganz vielen Bildern immer mehr Rauschen hinzu, bis aus einem Hundefoto nur noch grauer Schnee geworden ist. Und das lässt sich dann umdrehen. Sodass man aus grauem Schnee eigentlich jedes beliebige Motiv erstellen kann.

Ein Heureka-Moment für Ommer kam mit Wasserspiegelung. Die Forschenden ließen sich ein Landschaftsbild erstellen. „Und als wir das gerendert hatten, war es das erste Mal, dass wir im gekräuselten Wasser realistisch anmutende Reflexionen rendern konnten, Spiegelungen von Objekten am Ufer – Beziehungen, die weit Entferntes im Bild miteinander verbinden. Dem System ist das ja nie beigebracht worden. Es hat nur eine Menge an Bildern gesehen, und es hat aus dieser Menge an Bildern auf einmal elementare Physik gelernt.“

Die Diffusionstechnik – daneben gibt es weitere Ansätze – ist besonders gut darin, so etwas wie die innere Logik eines Bildes zu verbessern. Dass ein Berg sich nicht als Schiff im Wasser spiegelt. Ihre Schwäche lag dafür in kleinteiligen Texturen. Das Team musste dann die KI dazu bringen, sich nicht zu sehr aufs Detail zu konzentrieren.

Spielplatz für Neugierige

Aber was den Siegeszug von Stable Diffusion ausmachen wird, ist die Nutzbarkeit. Dass es einfach und unterhaltsam ist, das Programm zu verwenden, fast selbsterklärend. Ob wir ChatGPT mal als iPhone-Moment der KI in Erinnerung behalten werden, wie es eine Microsoft-Managerin kürzlich schon tat? Oder werden wir in Zukunft stattdessen sogar von ChatGPT-Momenten reden?

Stable Diffusion kann jeder über ein einfaches Webportal ausprobieren. Es ist niederschwellig, ein Spielplatz für Neugierige. Etwas, das Menschen offenbar von sich aus nutzen wollen. Ommer dachte sich: „Es kann doch nicht sein, dass ich, wenn ich ein Bild generieren oder modifizieren möchte, einzelne Bildpunkte anfassen muss. Wir Menschen denken nicht in Bildpunkten. Wir Menschen denken in Objekten, in der Szene als Gesamtheit.“ Es war Zeit, dass Computer damit klarkamen.

Mit dem Hype kann es auch schnell vorbei sein. KI erlebte immer wieder Hochphasen, dann kamen sogenannte KI-Winter. Und die dauerten bisweilen Jahrzehnte. Dass es wieder dazu kommt, glaubt Ommer nicht. „Es ist nicht wie früher, dass man sagt, warte mal, das kommt bald. Jetzt sind die Systeme da. Und jeder kann sie zu Hause nutzen.“ Die Frage ist also: Wenn das erst der Anfang ist, wie geht es dann weiter?

KI-Zukunft

Die Bilder lernen laufen: Schon heute gibt es erste Modelle, die Videos erzeugen können. Ommer sagt: „Da ist noch die zeitliche Dimension, bei der es nicht nur darum geht, dass die Bilder schön aussehen, sondern dass wir auch Konsistenz bekommen. Konsistenz in der Bewegung. Eine zusätzliche Herausforderung, neben der, dass Videos rechnerisch auch deutlich aufwendiger sind als einzelne Bilder.“ Und anschließend könnte es auch in die Tiefe des Raums gehen, 3D-Welten aus Texten entstehen. Vielleicht hilft der neue KI-Hype dann auch der Idee vom Metaverse. Bei der es immer daran haperte, Menschen Lust zu machen, einzutauchen.

In der Vergangenheit haben Menschen sehr viel Zeit darauf verwendet, Formen zu lernen. Eine bestimmte Art zu schreiben, eine bestimmte Technik beim Malen vielleicht. Das braucht Zeit, und man muss sich daran gewöhnen. Es kostet Mühe, die Pinsel vorzubereiten, um damit malen zu können. Wir müssen erst Photoshop lernen, damit wir Bilder bearbeiten können. Oder aufwendig durch Dokumente scrollen, um Informationen zu filtern. „Häufig wird unser wirkliches Potenzial, die Kreativität, durch diese lästigen Aufgaben erstickt“, sagt Ommer denjenigen, die das Ende des Monopols auf schöpferisches Denken kommen sehen.

Tools wie Stable Diffusion lassen darauf hoffen, dass es vielmehr um die eigentlich neuen Ideen gehen wird. Dass die Umsetzung einfacher, die Botschaft zentraler werden wird. Aber: Sie wird auch eine andere sein. Die Kreativität mit KI versucht jetzt noch, die typischen Formen klassischer Kunst zu imitieren. Richtig stark werden neue Tools aber dann, wenn sie ihre eigene Sprache gefunden haben. Zuerst waren soziale Medien vielleicht noch dafür da, Links zu verbreiten. Heute haben sie ihr Eigenleben entwickelt. Ein Eigenleben, das man schlecht nach den Maßstäben von Offline-Kommunikation bewerten kann. So wird es auch bei Stable Diffusion sein. Und wie üblich fängt es mit Pornografie an. Dafür nutzt eine große Community das Tool nämlich mittlerweile. Name: „Unstable Diffusion“.

Bilder sagen mehr als Worte

Warum Stable Diffusion eines Tages Textbots überflügeln wird? Weil Bilder mächtiger als Worte sind. Weil sie effizienter darin sind, eine Mischung aus Gefühlen und Informationen zu vermitteln. Die Ökonomie der KI-Inhalte wird mehr mit Memes zu tun haben als mit Romanen. Sich auszudrücken wird einfacher werden: „Alle Menschen sind auf irgendeine Art und Weise kreativ, und wir haben Ideen. Aber nur die wenigsten sind begabt, diese Ideen aus dem Kopf auf das Papier zu bringen.“

Für die Ungeduldigen kann Stable Diffusion der Anfang sein, sich die Macht der Kunst und des Ausdrucks zunutze zu machen. „Was wir entwickelt haben, sehe ich analog zu dem, was wir im Text hatten. Da haben wir angefangen mit der Tuschefeder, dann kam die Schreibmaschine und dann irgendwie das digitale Publishing.“ Und damit die entfesselte Kreativität von Millionen von Menschen.

Dass wir unsere Arbeit loswerden, ist auch diesmal eine unbegründete Hoffnung oder Sorge. Denn Arbeit hat ja nicht nur damit zu tun, Aufgaben zu erledigen. Sondern damit, dass man etwas gemeinsam tut, Menschen für eine Idee gewinnt. Mit Hierarchien, Konflikten und all den anderen nervigen Dingen, die zum Arbeitsplatz gehören. KI kann vielleicht Fotos von Golden Retrievern erfinden. Aber sie kann keinen Chef mit großen Augen anstarren.

„Wir müssen die Artefakte loswerden“

Oder wie es ein Reddit-User ausdrückte: „KI wird niemals ersetzen, dass man dem Kind des Bosses etwas geben kann, mit dem es sich wie ein Prakti fühlt.“ Einige Aufgaben kann die KI jetzt schon erleichtern, etwa schnelle Entwürfe für Grafiken. „Ich verstehe natürlich auch die Sorgen“, sagt Ommer. „Aber dass mich als Künstler ein System substituiert, bei dem jemand fünf Wörter eingibt, und dann kommt da ein Bild heraus – die meisten Künstler sind zu besserer Qualität fähig.“ Und die KI, die an den Haaren herbeigezogene, widersprüchliche Feedbacks von Agenturchef:innen und Kund:innen umsetzt, wird es auch niemals geben. Für Ommer und sein Team geht es jetzt an die Details: „Wir müssen die Artefakte loswerden“ – Stichwort verrenkte Hände.

Alles für die Vision, den Computer wirklich persönlich zu machen. Ob er uns verstehen wird? Vielleicht bleibt das Verhältnis einfach so, wie es jahrzehntelang funktioniert hat: Hauptsache, er tut, was er soll.

Da ist das Ding! Dieses Mal dreht sich in unserem Dossier alles um das Thema Immobilien und den Traum vom Eigenheim. Außerdem haben wir Netflix-Showrunnerin Anna Winger getroffen und die Brüder Ahmed und Mike Chaer, die deutsches Wrestling groß machen wollen. Viel Spaß beim Lesen! Hier gibt es das Magazin zum Bestellen.