Beitragsbild: DALL-E und andere KI-Bildgeneratoren

DALL-E & Co – Was sind KI-Bildgeneratoren und wie nutze ich sie?

Lesedauer: 11 Minuten

Inhaltsverzeichnis

DALL-E ist ein auf künstlicher Intelligenz (KI) beruhendes Computerprogramm, das digitale Bilder erzeugt, wenn es mit entsprechenden Textvorgaben „angeregt“ wird. Solche Programme nennt man KI-Bildgeneratoren (engl. ai image generators).

In diesem Artikel erfahren Sie, wie DALL-E funktioniert, wie Sie KI-Bildgeneratoren für Ihre Arbeit nutzen können, welche Alternativen es zu DALL-E gibt und inwiefern urheberrechtliche Fragen bei KI-Bildern eine Rolle spielen.

Was ist DALL-E?

Der Name DALL-E (stilisierte Schreibung DALL·E) spielt auf die Disney-Figur WALL-E (ein kleiner Roboter) und den spanischen Maler Salvador Dalí an. Wenn eine 2 hinter DALL-E steht, dann ist damit die zweite Version gemeint. Wir beziehen uns in diesem Artikel stets auf DALL-E 2.

Wir haben bereits festgestellt, dass DALL-E auf künstlicher Intelligenz (engl. artificial intelligence) beruht. Das ist prinzipiell richtig, aber für ein erweitertes Verständnis bedarf es einer genaueren Betrachtung. Versuchen wir einmal, die Begriffe zu schärfen:

Die Form von künstlicher Intelligenz, die DALL-E funktionieren lässt, beruht auf maschinellem Lernen. Beim maschinellen Lernen gibt es verschiedene Ansätze. Heutzutage wird meistens auf künstliche neuronale Netze (KNN) gesetzt. Auch die Arbeit mit KNNs kann verschiedener Art sein. In diesem Artikel soll der Hinweis genügen, dass bei DALL-E auf Deep-Learning-Methoden gesetzt wird. Beim Deep Learning gibt es zwischen Eingabe- und Ausgabeschicht zahlreiche Zwischenschichten (engl. hidden layers). Man übersetzt „deep learning“ daher am besten mit tiefschichtiges Lernen.

Wer hat’s erfunden?

Entwickelt wurde DALL-E vom US-Unternehmen OpenAI, zu dessen Geldgebern u.a. Microsoft und Elon Musk gehören. OpenAI ist auch für den Textgenerator ChatGPT bekannt. Beide Dienste, DALL-E und ChatGPT, beruhen auf GPT-3.

Kleiner Exkurs: Was ist GPT?

GPT steht für Generative Pre-trained Transformer (die 3 steht für die Version). Die deutsche Übersetzung wäre in etwa generierender vortrainierter Transformer. Das klingt natürlich nicht weniger abstrakt. Aber so kompliziert ist es dann doch nicht. Der Begriff Transformer bezeichnet im Kontext maschinellen Lernens eigentlich bloß eine Methode, mit der ein Computer eine Folge von Zeichen in eine andere Folge von Zeichen übersetzen kann.

Wir haben es also grob gesagt mit einem Sprachreproduktionssystem zu tun, das auf ein vortrainiertes Sprachmodell zurückgreift. Das Vortraining muss man sich dabei als großangelegtes Projekt vorstellen. Das neuronale Netz wurde hierfür mit einem riesigen Textfundus aus dem Internet gefüttert. Insgesamt umfasste der verwendete Textbestand ca. 500 Milliarden Wörter.

Wie funktioniert DALL-E?

Deep Learning wird bei DALL-E dazu genutzt, um eine reine Texteingabe in eine Ausgabe umzuwandeln, die aus einer Anordnung von Pixeln besteht und mithin ein digitales Bild darstellt. DALL-E kann dabei völlig neue Bildkompositionen in allen erdenklichen Stilrichtungen erzeugen.

Vielleicht fragen Sie sich jetzt, woher DALL-E seine „Inspiration“ nimmt. Nun – DALL-E „kennt“ nicht nur die meisten Texte und Bildmotive, die im Internet zu finden sind, sondern wurde auch mit 650 Millionen Text-Bild-Paaren trainiert. Damit sind Bilder gemeint, die eine inhaltliche Beschreibung (engl. caption) oder zumindest zutreffende Schlagwörter (engl. tags) aufweisen.

Was im Detail vor sich geht, wenn eine Texteingabe von DALL-E verarbeitet wird, würde den Rahmen dieses Artikels sprengen. Wer sich dafür interessiert, kann dies z.B. hier nachlesen.

Für uns ist zunächst einmal Folgendes entscheidend: Aufgrund von Texteingaben, die semantisch präzise (unzweideutig) sind, kann DALL-E Ergebnisse erzielen, die akkurat und gleichzeitig unikal (einzigartig) sind.

Wie kann ich DALL-E nutzen?

Um DALL-E zu nutzen, müssen Sie über die Website openai.com einen Account anlegen. Sie erhalten ein kostenloses Startkontingent von 50 Credits. Mit jedem Credit kann ein Set von 4 Bildern erzeugt werden. Monatlich erhält man 15 weitere Credits. Reichen diese nicht aus, kann nachgebucht werden (mindestens 115 Credits, Kosten: 15 USD).

Im nächsten Abschnitt gehen wir zur Praxis über und generieren erste eigene DALL-Es … ja, so schreibt sich der Plural, auch wenn es komisch aussieht. :)

Unser erstes Mal mit DALL-E

Bei unserem ersten Beispiel (ehrlicherweise nicht der erste Versuch) lautete die Eingabe: „sliced air-dried sausage with bread and butter, photo“ (luftgetrocknete Wurst in Scheiben mit Brot und Butter, Foto)
Und genau ein solches Bild wurde auch erzeugt: Ein Bild, das aussieht wie ein Foto einer aufgeschnittenen luftgetrockneten Wurst mit Brot und Butter, wobei man in Nordhessen natürlich von einer ahlen Worscht spricht. :) Aber so weit ist DALL-E noch nicht. Bislang ist Englisch die Sprache, die zu den besten Ergebnissen führt, wenngleich auch deutsche Eingaben durchaus verstanden werden.

Täuschend echt, nur das Messer ist etwas daneben geraten.

DALL-E erzeugt wie erwähnt stets vier Bilder zu jeder Texteingabe. Als Nutzer kann man dann das beste Ergebnis auswählen und ggf. weitere Varianten auf dieser Grundlage erstellen lassen.

Wie man DALL-Es Superkraft weckt

Das Nachbilden eines Bildmotivs, das in ähnlicher Form bereits existiert, ist für sich genommen schon beeindruckend. Die eigentliche Superkraft von DALL-E liegt aber darin, Motive und Kompositionen zu schaffen, für die es keine exakte Vorlage gibt. Um diese Superkraft optimal zu nutzen, müssen drei Bedingungen erfüllt sein:

    1. Die Texteingabe sollte möglichst präzise sein (Vermeidung von Vagheit und Doppeldeutigkeit).
    2. Die Texteingabe sollte kreativ oder fantasievoll sein (z.B. Dinge verbinden, die üblicherweise nicht zusammen vorkommen).
    3. Es sollte stets angegeben werden, in welchem Medium oder in welcher Technik das Bild angelegt werden soll. Beispielsweise: Foto, impressionistisches Gemälde, 3D-Rendering etc. Diese Angabe erfolgt idealerweise am Ende der Texteingabe und wird per Komma abgetrennt.

Sind diese Bedingungen erfüllt, entwickelt DALL-E Bilder, die positiv überraschen und nicht selten so aussehen, als wäre ein professioneller Illustrator involviert gewesen.

Beispiel 2

Beim nächsten Beispiel lautete die Eingabe: „copper statue of herkules drinking beer, digital art“ (Kupferstatue eines Bier trinkenden Herkules, digitale Kunst)

Die bunten Quadrate unten rechts im Bild fungieren als DALL-E-Branding.

Das generierte Bild beweist eindrücklich, welche „kreativen“ Fertigkeiten DALL-E hat. Es zeigt zwar keinen nackten Herkules (Wahrzeichen der Stadt Kassel), aber das war auch nicht vorgegeben. Wenn man das Ergebnis sieht, könnte man fast meinen, DALL-E entwickle eine Idee oder Konzept, bevor das Ausgabebild erzeugt wird. Tatsächlich sind es natürlich reine Berechnungen ohne Funken Esprit.

Jedes Bild ein Unikat

Erwähnt werden sollte die Tatsache, dass DALL-E bei unveränderter Texteingabe stets neue Bilder erzeugt. Diese ähneln den vorangegangenen Bildern, sind aber nicht identisch zu diesen. Das liegt daran, dass bei jedem Durchlauf ein neuer Startwert (engl. seed key) verwendet wird, der als Basis für die Erzeugung weiterer (pseudozufälliger) Zahlen dient. Nur dann, wenn der Startwert nicht ausgetauscht würde (und das KI-Modell unverändert bliebe), könnte DALL-E identische Bilder erzeugen. Diese Option ist aber derzeit weder in der Endanwender- noch in der Entwicklerumgebung verfügbar, könnte aber hilfreich werden, wenn es darum geht, dasselbe Motiv in höherer Auflösung zu generieren. Stand heute ist die Auflösung von DALL-E-Bildern nämlich auf 1024 Pixel beschränkt.

DALL-E und das Urheberrecht

Sie wissen jetzt, welche Möglichkeiten KI-Bildgeneratoren wie DALL-E bieten. Aber wie wirkt sich diese Technologie auf das Urheberrecht aus? Sind Bilder, die mit DALL-E erzeugt wurden, ohne Einschränkung nutzbar?

DALL-E selbst kann keine Urheberrechte erwerben, denn solche sind nur für Menschen vorgesehen. Außerdem haben wir bereits festgestellt, dass DALL-E stets einzigartige Bilder generiert. Auch das spricht zunächst einmal für die Möglichkeit einer uneingeschränkten Nutzung, denn ein völlig neues Bild kann ja schlecht Urheber- oder Markenrechte verletzen, oder etwa doch?

Sie werden es schon geahnt haben: Leider können trotzdem Rechte verletzt werden. Wenn in der Textvorgabe z.B. eine Comic-Figur von Disney vorkommt oder eine Pepsi-Dose oder der Stil eines lebenden Künstlers, dann kann DALL-E ein entsprechendes Bild generieren, schließlich „kennt“ das zugrundeliegende KI-Modell nahezu alle Bildmotive und mithin auch geschützte Inhalte. Die KI „weiß“ aber bislang nicht, welche Inhalte geschützt sind und welche nicht, erzeugt also unter Umständen Bilder, die rechtlich problematisch sind. Man sollte also stets prüfen, ob Rechte Dritter verletzt sein könnten. Natürlich ist auch ein KI-basiertes Prüfverfahren denkbar. Stand heute ist das aber noch Zukunftsmusik.

Problematische Trainingsdaten

Eine weitere rechtliche Dimension ergibt sich, wenn man sich fragt, ob es überhaupt zulässig war, die KI-Modelle, die DALL-E und anderen KI-Bildgeneratoren zugrunde liegen, mit urheberrechtlich geschütztem Material zu trainieren. Aufgrund der Aktualität der Thematik gibt es hierzu noch keine Gerichtsurteile. Aber eine Bewegung, die sich gegen das ungefragte Verwenden von im Internet vorhandenen Bildern richtet, wurde bereits ins Leben gerufen. Über die Seite Have I Been Trained? kann ein Datensatz von 5,8 Milliarden Bildlinks durchsucht werden. Findet man dort eigene Werke, kann man die Bildlinks nach Registrierung aus dem Datensatz entfernen lassen. Allerdings ist fraglich, ob die Akteure, die KI-Training betreiben, überhaupt Rücksicht darauf nehmen. Der genannten Website lässt sich jedenfalls entnehmen, dass sich von den größeren Marktteilnehmern bislang nur Stable Diffusion dazu verpflichtet hat.

Fazit: Nicht jedes von DALL-E geschaffene Werk ist unproblematisch, nur weil es einzigartig ist, und einige grundsätzliche Rechtsunsicherheiten im Zusammenhang mit KI-Trainingsdaten müssen die hiesigen Gerichte noch klären.

Alternative KI-Bildgeneratoren zu DALL-E

Wie bereits erwähnt, gibt es neben DALL-E noch weitere KI-Bildgeneratoren auf dem Markt. Wir führen hier die drei wichtigsten auf.

Stable Diffusion

Mit Stable Diffusion wurde das bekannteste Alternativprodukt schon genannt. Im Gegensatz zu DALL-E ist Stable Diffusion ein Open-Source-Projekt. Es wird u.a. von Wissenschaftlern und Experten der Universität München (LMU), des Londoner Start-ups Stability.ai und der deutschen Non-Profit-Organisation LAION vorangetrieben. Im Zuge der Entwicklung von Stable Diffusion wird offen damit umgegangen, mit welchen Trainingsdaten die Modelle trainiert werden.

Craiyon

Ein weiterer beliebter Generator ist Craiyon. Er hieß vormals DALL-E mini, musste aber auf Druck von OpenAI umbenannt werden. Craiyon basiert ursprünglich auf dem Modell von DALL-E 1, wurde seither aber mit ungefilterten Daten aus dem Internet weitertrainiert. Craiyon kann nur sehr eingeschränkt kostenlos genutzt werden, wer z.B. keine Wasserzeichen im Bild haben möchte, muss ein kostenpflichtiges Abo abschließen.

Midjourney

Als dritte und letzte Alternative zu DALL-E sei Midjourney genannt. Midjourney ist ein KI-Bildgenerator, das von einem gleichnamigen Forschungslabor entwickelt wird. Auch wenn das nach Wissenschaft klingt, so ist es doch ein kommerzielles Projekt. Es wird vermutet, dass die zugrunde liegende Technologie mehr oder weniger auf Stable Diffusion basiert. Neue Trainingsdaten bezieht Midjourney über die Chat-Plattform Discord, die insbesondere bei Gamern und Entwicklern beliebt ist. Außerhalb von Discord kann Midjourney bislang nicht genutzt werden. Dieser Bildgenerator richtet sich also gezielt an eine besonders IT-affine Community.

Ein Blick in die Zukunft: Welche Konsequenzen hat der Einsatz von KI-Bildgeneratoren?

KI-Bildgeneratoren werden die mediale Welt stark verändern. Schon heute setzen viele Blogger und Betreiber kleinerer News-Portale auf Bildmaterial, das von DALL-E und Co erzeugt wurde. Warum? Weil man sich so Lizenzgebühren für Stockfotos spart, aber trotzdem maßgeschneiderten Content erhält.

Die missbräuchliche Nutzung von Bildgeneratoren ist ebenso naheliegend wie folgenreich. Mit der Verbesserung der Ausgabequalität wird die Produktion von Fake News noch einfacher. In Zukunft wird man sich also immer fragen müssen „ist das ein echtes Foto? Oder ist hier eine KI beteiligt gewesen?“

Natürlich werden sich auch einige Berufe aufgrund der neuen Technologie verändern oder weniger gefragt sein. Wer bucht schon einen Illustrator, wenn DALL-E es fast genauso gut erledigt, und zwar blitzschnell und hundertmal günstiger? Die Arbeit des Illustrators könnte also zukünftig darin liegen, KI-Entwürfe zu verbessern oder zu finalisieren.

Übrigens gibt es schon jetzt Ausschreibungen für einen ganz neuen Berufszweig: den des „KI-Flüsterers“. Denn auch das will gelernt sein: das KI-Modell so anzuregen, dass es gute Ergebnisse liefert.

Fazit

DALL-E und seine Geschwister sind noch Kinder, aber sie lassen uns schon heute ahnen, dass sie große Veränderungen bringen werden. In der Zukunft werden vermutlich mehr Bilder durch KI-Bildgeneratoren erzeugt als durch Kameras. Das Internet wird voll von Computerkreationen sein und die Unterscheidung zwischen echt und unecht fast unmöglich. Es ist daher wichtig, sich frühzeitig mit dieser Technologie auseinanderzusetzen.

Weitere DALL-E-Kreationen

In dieser Galerie zeigen wir weitere Bilder, die wir im Zuge der Artikelrecherche mit DALL-E erstellt haben.

Verwalten Sie Ihre DALL-Es in einer Bilddatenbank

Der teamnext | Media Hub ist eine cloudbasierte Software für die Verwaltung von Mediendateien, die über den Browser genutzt wird. Alle gängigen Bildformate werden unterstützt, natürlich auch das PNG-Format, in dem DALL-E-Bilder ausgegeben werden. Wenn Sie Ihre DALL-Es sicher teilen oder in ein anderes Bildformat konvertieren möchten, dann ist der teamnext | Media Hub die ideale Lösung.

Außerdem wird bei teamnext ein besonders hoher Wert auf die datenschutzkonforme Speicherung aller Mediendateien gelegt. Wir verwenden keine Fremdtools und verarbeiten Ihre Daten ausschließlich auf Servern europäischer Rechenzentren: hochgesichert und DSGVO-konform.

Falls wir Sie neugierig gemacht haben und Sie die verschiedenen Funktionen unserer Bildverwaltung einfach mal ausprobieren möchten, dann können Sie sofort loslegen, indem Sie eine kostenlose 14-tägige Testphase für den teamnext | Media Hub starten. Zusätzlich können Sie gerne einen Termin für eine kostenlose Online-Produktdemo mit einem unserer Experten buchen. Benutzen Sie hierfür einfach unser Kontaktformular.

Das könnte Sie auch interessieren

Fotografieren eines Vulkans mit dem iPhone - Symbolbild HEIF / HEIC Formatunsplash
Symbolbild Bilderkennung: Gesichtserkennung und Identifikation
Junger Fotograf verschlagwortet Fotos - Symbolbild Verschlagwortung und Bildverwaltung