Kreativer Algorithmus DALL.E

Diese KI macht aus jedem Text ein Bild

Uhr
von Rodolphe Koller. Übersetzung: cka

Das OpenAI-Labor hat eine künstliche Intelligenz entwickelt, die aus einem einfachen beschreibenden Satz hochwertige Bilder generiert. Die Fähigkeiten der KI verblüffen und werfen Fragen auf.

(Source: OpenAI)
(Source: OpenAI)

Nachdem sie das schreiben von Texten gelernt hat, kann künstliche Intelligenz (KI) nun auch Texte illustrieren. Dahinter steckt die Firma OpenAI und ihr GPT-3-System. Vergangenes Jahr hatte das Unternehmen eine KI-Lösung vorgestellt, die anhand weniger Sätze eine glaubwürdige Fortsetzung des Textes erstellen kann. Und die britische Tageszeitung The Guardian machte sich einen Spass daraus, ihre Leser mit einem Artikel in die Irre zu führen, der auf der Prosa des Algorithmus basierte.

Nun stellte das OpenAI-Labor seine jüngste Entwicklung vor: DALL.E. Der Name ist ein Portemanteauwort aus Dali, dem spanischen Künstler, und WALL.E, dem Roboter aus dem gleichnamigen Pixar-Film. Diese neue KI basiert auf einer Version von GPT-3 mit 12 Milliarden Parametern. Mit Bild-Text-Paaren trainiert, kann die Lösung aus einer Kurzbeschreibung neue Bilder generieren. Die Bilder werden manchmal von Grund auf neu generiert, manchmal sind es auch Transformationen bestehender Bilder.

Und die Ergebnisse sind oft überzeugend. "Es ist erstaunlich, aber nicht völlig unerwartet; DALL.E und GPT-3 sind zwei Beispiele für ein breiteres Thema im Deep Learning: Aussergewöhnlich grosse neuronale Netzwerke, die mit Internetdaten trainiert wurden, können sehr vielseitig sein und viele Aufgaben ausführen, für die sie ursprünglich nicht vorgesehen waren", sagt Dale Markowitz, ein KI-Ingenieur bei Google.

Erstaunliche Fähigkeiten

In einem Blogeintrag beschreibt das Unternehmen die vielen Möglichkeiten des Systems. So ist DALL.E etwa in der Lage, Bilder zu erzeugen, indem die Eigenschaften eines Objekts verändert. So generiert die KI basierend auf dem Input "Ein Würfel mit der Textur eines Stachelschweins" beispielsweise die folgenden Bilder:

Die KI kann auch mehrere Objekte zeichnen und dabei unterscheiden, welche Attribute zu welchen Elementen gehören. Mit dem Input "Ein Emoji eines Baby-Pinguins, der eine blaue Mütze, rote Handschuhe, einen grünen Pullover und eine gelbe Hose trägt" zeichnet DALL.E die folgenden Bilder:

Auch mit indirekten Anweisungen kann die KI Bilder erzeugen. So zeichnet es etwa andere Lichtverhältnisse, wenn steht, dass eine Szene bei Nacht stattfindet. Sie ändert aber auch die Schrift je nach Kontext, wie etwa hier bei der Anweisung "Ein Schaufenster mit 'OpenAI' als Schriftzug":

Indem sie mit der Lösung spielten, konnten die Entwickler sie auch dazu bringen, mehr als nur die ursprünglich gedachten Aufgaben zu erfüllen. DALL.E kann etwa Zeichnungen von einem Foto erstellen mit der Anweisung "Genau dieselbe Katze oben wie in der Zeichnung unten":

Die Entwickler weisen bei jeder Demonstration von DALL.Es Fähigkeiten allerdings darauf hin, dass die Ergebnisse nicht immer auf der Höhe der Zeit sind. Sie identifizierten auch einige Einschränkungen des Systems (z. B. zu viele Objekte) und Tipps zur Verbesserung der Leistung (z. B. mehrere Varianten der Textbeschreibung).

Konkurrenz mit kreativen Berufen

DALL.E könnte auch ausserhalb des Labors ganz konkrete Anwendungen finden. Von der Erstellung von Illustrationen bis zum Scannen von Bilddatenbanken könnte die KI eine grosse Anzahl von Bildern für verschiedene Anforderungen produzieren - genug, um mit vielen bestehenden Berufen zu konkurrieren. Hier ist beispielsweise, was das System anhand der Beschreibung ""Ein Wohnzimmer mit zwei weissen Sesseln und einem Gemälde des Kolosseums. Das Gemälde befindet sich über dem Kamin" generiert:

Was man nicht vergessen sollte: Die von DALL.E erzeugten Bilder werden nicht wirklich von Grund auf neu generiert. Stattdessen werden sie mithilfe der Tausenden von Bildern erzeugt, die für das Training verwendet wurden. "Das primäre ethische Problem bei DALL-E ist die Verwischung von Urheberrechtsverletzung", sagt Alex Champandard, Mitbegründer von Creative AI, gegenüber The Register.

"Die KI wird mit einem grossen Satz an Daten trainiert, die ohne eine Zuordnung aus dem Internet extrahiert wurden. Die GPT-Sprachmodelle reproduzierten die antrainierten Texte teilweise wortwörtlich. Daher wird die rechtliche Situation, etwa im Bezug auf Fair Use, erst durch eine gerichtliche Prüfung klar."

In dem Blogeintrag verspricht OpenAI, die Folgen der Kommerzialisierung der KI-Lösung zu untersuchen. "Künftig wollen wir analysieren, in was für einem Verhältnis KI-Modelle wie etwa DALL-E zu gesellschaftlichen Fragen stehen, wie etwa die wirtschaftlichen Auswirkungen auf bestimmte Arbeitsprozesse und Berufe, das Potenzial für Verzerrungen in den Modellergebnissen und die längerfristigen ethischen Herausforderungen, die diese Technologien mit sich bringen."

Webcode
DPF8_202722