Bilderzeugende KI - Erfahrungen und Erzeugnisse

Bilderzeugende KI - Erfahrungen und Erzeugnisse - Druckversion

+- Crystals-DSA-Foren (https://www.crystals-dsa-foren.de)
+-- Forum: Internes und Off-Topic (https://www.crystals-dsa-foren.de/forumdisplay.php?fid=13)
+--- Forum: Off-Topic (https://www.crystals-dsa-foren.de/forumdisplay.php?fid=15)
+--- Thema: Bilderzeugende KI - Erfahrungen und Erzeugnisse (/showthread.php?tid=6074)

Bilderzeugende KI - Erfahrungen und Erzeugnisse - Alpha Zen - 22.08.2023

Damit das nicht alles im Blabla vergraben wird:

Ein Thread, um sich über Bild-KI auszutauschen, Erzeugnisse zu posten (wenn Crystal nix dagegen hat

) oder Fragen zu stellen.

Zum Start ein paar Seiten:

Dall-E: https://labs.openai.com
Der "erste" Text-zu-Bild-Generator, der (in meiner Wahrnehmung) eine größere Bekanntheit erlangt hat. Die Firma dahinter, OpenAI, ist u.A. auch für ChatGPT bekannt. Für mich der Generator, der am wenigsten ansprechende und brauchbare Bilder erzeugt.

https://de.wikipedia.org/wiki/OpenAI schrieb:OpenAI LP ist ein US-amerikanisches Unternehmen, das sich mit der Erforschung von künstlicher Intelligenz (KI, englisch Artificial Intelligence, AI) beschäftigt. Die gewinnorientierte Tochtergesellschaft OpenAI LP wird dabei durch das Non-Profit-Mutterunternehmen OpenAI Inc. kontrolliert.

Dall-E kann nach einer Registrierung auf der Webseite grundsätzlich kostenlos verwendet werden. Man hat zu Beginn eine gewisse Anzahl an Credits zur Verfügung, je nach Einstellungen für die Bildkreation kostet die Erstellung eines oder mehrerer Bilder eine gewisse Menge an Credits. Diese kann man gegen Echtgeld wieder auffüllen, man bekommt aber auch pro Monat 15 Credits frei Haus.

-----------------------------------------------------

Midjourney: https://www.midjourney.com
Ein Text-zu-Bild-Generator, der mMn nach die optisch ansprechendsten und fantasievollsten Bilder generiert.

https://de.wikipedia.org/wiki/Midjourney schrieb:Das proprietäre Programm wurde von dem gleichnamigen Forschungsinstitut aus San Francisco, Kalifornien, USA, geschaffen, welches von David Holz gegründet wurde und aktuell geleitet wird.

Midjourney kann nur per Discord genutzt werden. Einen kostenlosen Probezeitraum oder kostenlose Credits für neue Benutzer gibt es aktuell nicht mehr. Es soll wohl ab und an kurze Zeiträume geben, in denen man Midjourney kostenfrei nutzen kann, aber ich weiß nicht, ob das noch gemacht wird. Somit bleibt derzeit als einzige Möglichkeit, den Generator zu nutzen, nur der Abschluss eines Abos gegen Geld.

-----------------------------------------------------

Stable Diffusion: https://stability.ai/stablediffusion
Dieser liegt für mich optisch zwischen Midjourney und Dall-E.

https://de.wikipedia.org/wiki/Stable_Diffusion schrieb:Stable Diffusion ist ein Deep-Learning-Text-zu-Bild-Generator. Die Open-Source-Software wird hauptsächlich zur Generierung detaillierter Bilder auf der Grundlage von Textbeschreibungen verwendet, kann aber auch für andere Aufgaben wie Inpainting, Outpainting und die Erzeugung von Bild-zu-Bild-Übersetzungen auf der Grundlage einer Textaufforderung (Prompt) eingesetzt werden.

Stable Diffusion verwendet ein latentes Diffusionsmodell als Variante eines tiefen generativen neuronalen Netzes, das von der CompVis-Gruppe an der LMU München in Zusammenarbeit von Stability AI, CompVis LMU und Runway mit Unterstützung von EleutherAI und LAION entwickelt wurde.

Das besondere an SD ist, dass es als Open Source Programm zur Verfügung steht und somit auch lokal installiert und genutzt werden kann. Es gibt diverse Webseiten, die SD als Generator nutzen und bei manchen davon ist nicht einmal eine Registrierung notwendig.

-----------------------------------------------------

Das sind die großen drei, die ich kenne und ab und an nutze bzw. genutzt habe (Midjourney-Trail hatte ich noch, aber das wars auch). Wer weitere Generatoren etc. kennt, kann gerne ergänzen.

Vor kurzem bin ich auf https://dezgo.com/ gestoßen. Nutzt ebenfalls Stable Diffusion und man kann sogar aus verschiedenen AI-Modellen wählen, die den Stil des zu erzeugenden Bildes festlegen. Zwar dauert die Bilderzeugung immer länger, je öfter man einen Run startet, aber mit etwas Pause zwischen den Runs gehts auch wieder schneller. Zudem kann man verschiedene Bildformate angeben, man kann einen Negativ-Prompt (was soll das Bild alles NICHT enthalten) nutzen oder festlegen, wie streng sich der Generator an die eigenen Vorgaben halten soll.
Über die Menüs auf der linken Seite hat man verschiedene Möglichkeiten, Bilder kreieren zu lassen, z.B. in dem man ein Bild hochlädt, das zusammen mit dem Text-Prompt als Grundlage für das neue Bild dienen soll.

Ich erwarte nicht, dass hier nun eine Bildgalerie mit diversen generierten Bildern entsteht.

Wenn Bilder gepostet werden, würde ich aber darum bitten, dass der zugehörige Generator, der genutzte Prompt und - falls verfügbar - der Seed des Bildes mitgeteilt werden.

Um mal die Unterschiede direkt zu zeigen:
Folgendes Bild habe ich vor ca. einem Jahr von Midjourney erzeugen lassen:

Den genauen Prompt weiß ich nicht mehr, aber es war etwas in der Richtung "young blond hedonistic knight in shiny armor, no helmet, portrait, high detail, digital painting".

Zum Vergleich Erzeugnisse von Stable Diffusion:

Model: Deliberate 2

Model: Absolute Reality 1.6

Model: Vintedois Diffusion

Model: Stable Diffusion XL (Prompt: a male young blond hedonistic knight in shiny armor, oil painting, very detailed, photorealistic, frontal portrait, person looking straight into camera)

Und das macht Dall-E daraus (mehrere Durchgänge mit leicht angepassten Prompts zum Testen):

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - Crystal - 22.08.2023

(22.08.2023, 15:16)Alpha Zen schrieb: Ein Thread, um sich über Bild-KI auszutauschen, Erzeugnisse zu posten (wenn Crystal nix dagegen hat ) oder Fragen zu stellen.

Sofern die Vorlage oder das Endprodukt keiner realen Person gleicht, gerne. :up:

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - turrican - 22.08.2023

(22.08.2023, 15:16)Alpha Zen schrieb: Vor kurzem bin ich auf https://dezgo.com/ gestoßen. Nutzt ebenfalls Stable Diffusion und man kann sogar aus verschiedenen AI-Modellen wählen, die den Stil des zu erzeugenden Bildes festlegen. Zwar dauert die Bilderzeugung immer länger, je öfter man einen Run startet, aber mit etwas Pause zwischen den Runs gehts auch wieder schneller. Zudem kann man verschiedene Bildformate angeben, man kann einen Negativ-Prompt (was soll das Bild alles NICHT enthalten) nutzen oder festlegen, wie streng sich der Generator an die eigenen Vorgaben halten soll.
Über die Menüs auf der linken Seite hat man verschiedene Möglichkeiten, Bilder kreieren zu lassen, z.B. in dem man ein Bild hochlädt, das zusammen mit dem Text-Prompt als Grundlage für das neue Bild dienen soll.

Hallo Alpha Zen,

das ist ja genial. Da kann man ja den lustgsten Schabernack treiben. Hier zum Beispiel:

Ritter, der aussieht wie turrican:

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - turrican - 22.08.2023

Ich frage mich gerade, ob die KI in der Lage ist, ein Portrait im Stile von Uğurcan Yüce zu entwerfen :-D

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - zakkarus - 22.08.2023

Ja - wenn genügend Bilder mit seinem Namen im Umlauf sind.
Die ersten -lebenden!- Künstler beginnen sich bereits zu wehren; immerhin verdienen sie mit ihrem Stil und Werken ihr Geld.
Und ich finde, das sollte man respektieren.
Ich finde es interessant dei Stile von Hierony Bosch mit anderen Künstlern (u.a. Dali) zu mischen.
Was mich an dezgo ärgert, das man trotz Anmeldung kein Bildarchiv "geschenkt" bekommt wie z.B. bei Mage.
Womit anscheinend alle kostenlosen KI-Preogramme haben ist ein vorgefertiges Bild richtig zu erkennen und umzugestalten, u.a. versuchte ich Figuren aus MakeHuman aufzufrischen.

Dies war eines meiner Tests mit drei verschiedenen Künstlern & Kunstrichtungen - ich mußte Vincent rausnehmen, sein Stil setzte sich dauernd durch.

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - Alpha Zen - 23.08.2023

Da kommen schon lustige Bilder mit unbeabsichtigt philosophischem Touch bei raus.

Spoiler

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - zakkarus - 23.08.2023

Jaja, bereits bei vorgefertigten Bildern (wie von MakeHuman) erzeugt jedes Programm manchmal unerwartete Ergebnisse. Ein tolles ID-Photo enstand aus einem MH-VollBild, ich war so überrascht das ich zwar das Bild download, aber nicht die Daten behielt. Versuch jezt mal gezielt so etwas hinzubekommen. :rolleyes:

Das ist ähnlich mit diesem Bild:

Das zeigt ja eindeutig einen normalen Teenager einsam am Strqand, oder? Bei zwei Durchläufen entschied sich das Porgramm zu dieser knuffigen Fgur, bzw. Figuren.
Seit gestern versuche ich gezielt diesen Look zu erhalten - und kam auf die geniale Idee die Detailed auf Hyper-Detailed zu steigern -> Realismus pur :lol:

Was hab ich bloß übersehen ... den Realismus hab ich ja bereits rausgeworfen, wieso sieht der Kanbe nun noch "echter" aus? Eine Detailfrage fürchte ich, wohl wahr

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - Wintermute101 - 23.08.2023

(23.08.2023, 18:57)zakkarus schrieb: Was hab ich bloß übersehen ... den Realismus hab ich ja bereits rausgeworfen, wieso sieht der Kanbe nun noch "echter" aus? Eine Detailfrage fürchte ich, wohl wahr

Weiss, nicht, mir fallen bei den ganzen Bildern immer die "unechten" Hände auf, bzw. die zuvielen Finger ^^
Selbst wenn die nur im Hintergrund sind wie hier, ich seh die, und das machts dann für mich doch wieder unecht.

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - zakkarus - 23.08.2023

Läßt sich alles rausfiltern. Bei manchen "Malern" ist die NO-Liste oft doppelt so lang wie die Eingabe. Gestern mal geprüft, ob auch KI-Styles sich immulieren lassen - klar. Nicht perfekt, aber was mit Zeichenstil funktioniert, "muß" ja auch die KI-Programme gelten.

So, und wo ich nun alle "detail" und "realistic" entfernte, bekomme ich meine Figur (zu 99%), und kann sie in andere Bilder versetzen - vieilleicht als Ninja

(Der Kopf ist noch zu "normal" :lol:

)

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - Alpha Zen - 24.08.2023

In der P&P-Runde, in der ich bin, wird aktuell "Masks" gespielt. Man selbst ist ein Superheld im Teenager-Alter, es gibt eine "Haupt"-Stadt ähnlich zu Metropolis oder Gotham, in der so ziemlich alles passiert, was mit Superhelden, Superschurken, transdimensionalen Portalen, Aliens und so weiter zu tun hat.

Mein Held ist ein Außerirdischer hat unter anderem einen Trait, der es ermöglicht, ein persönliches Fortbewegungsmittel zu besitzen.

Ich habe mir ein Ei-förmiges Fluggerät vorgestellt und das mal irgendwann grob skizziert:

Da das ziemlich schäbig aussieht, wollte ich mich eigentlich dransetzen und es entweder digital in hübsch nachzeichnen oder gleich in 3D mit Blender basteln. Ich hab auch mit beidem angefangen, aber bei Ersterem fehlen mir generell Fähigkeit und Erfahrung, bei Letzterem ist meine aktive Zeit mit Blender auch schon viele Jahre her, so dass alles super lange dauert und auch nicht immer so aussieht, wie ich es mir wünsche.

Darum hab ich die Skizze mal gescannt und heute dezgo in der "Image to Image"-Variante damit gefüttert.

Prompt: a pod-like flying vehicle, two small wings in the tail area, two small wings in the front area. the cockpit is covered by a transparent dome. on each side there is a jet intake at the front and an jet exhaust at the back. the color of the vehicle is white. it looks very stylish and futuristic. the viewing angle is 45°. the vehicle is floating above the ground. style of the image is a construction sketch

Bei den Models, Strength und Guidance hab ich immer wieder gewechselt und rumprobiert, deswegen kann ich nicht mehr genau sagen, welches davon dieses produziert hat. Es war das erste, das mir echt zugesagt hat:

Irgendwann kam dann das heraus:

Das habe ich dann wiederum als Grundlage genommen und "Controlled text to image" damit gefüttert, Control model war "Scribble", Model "DreamShaper 7", Control scale = 90%, Control process war aus, Guidance 5. Seed ist 2274778444.

Es ist zwar nicht perfekt symmetrisch und weicht vom ursprünglichen Design etwas ab, dennoch war ich echt erstaunt, was da rauskam. Gefällt mir schon sehr.

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - aeyol - 24.08.2023

Sowas finde ich viel spannender und cooler als Bilder, die allein auf Werken anderer basieren und wo man gar nicht weiß, woher das Ergebnis nun wirklich kommt.

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - zakkarus - 25.08.2023

Ich arbeite abwechselnd mit Mage und dezgo. Was dabei auffällt wie unterschiedlich die Ergebnisse mit den gleichen Prompts sind (und wieso manche Images bei Mage als NSFW erkannt werden ist auch so ein grosses Rätsel). Irritierend finde ich jetzt öfters die Verdopplung oder Gruppenbildung für eine Figur - und das ist schwer abzuschalten.

Von Bild-Überarbeitung bin ich erst einmal weg, die Experimente mit MakeHuman-Grundbildern waren eher ernüchtenr als ohne Vorlage.
Die Versuche die MakeHuman_texture-Vorlagen aufzpeppen führten bisher zu Verzerrungen, speziell das Gesichtsmuster. Die KIs können das wohl nciht erknenn, da zu wenige Vorlagen im Net rumfliegen.

Aber ich werde mal mein Inselfoto:

damit auffrischen. Dieses Foto ist mein Seitenprofil für die Insel Ithasos, aber vielleicht sollte ich besser die bearbeitete Version:

benutzen.
(Argh, dazu gibt es keine Abeitsversion mehr :wall:

)

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - zakkarus - 25.08.2023

Was man alles als Style eingeben kann, nicht nur Künstler, sondern Filme, Filmmacher, oder solches wie folgende:

Alle mit der gleichen Promptsdatei in dezgo XL erschaffen. :lol:

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - zakkarus - 03.09.2023

Ich hab wohl die richtige "Einstellung" in MAGE gefunden - nur ... warum müssen die Gesichter alle so hübsch aussehen? :lol:

Ich hoffe ihr erkennt diese NSCs wieder

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - cmfrydos - 28.10.2023

DALL•E 3 gibt es übrigends mittlerweile kostenlos auf bing: https://www.bing.com/create
Glaube man hat 15 Prompts pro Woche frei, und generiert immer 4 Bilder gleichzeitig.

Ob es mit Midjourney mithalten kann, will ich gerade noch nicht sagen, aber besser als DALL•E 2 ist es allemal:

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - Fenris - 29.10.2023

Hatte ne Weile großen Spaß mit dem ImageCreator von Bing.

https://www.bing.com/images/create/a-dragon-selling-cigarettes-at-a-post-apocalyptic-/652af631112544c18750b4d96fd66a3d?id=u%2ftlUolvN26e9GcQiHpbSw%3d%3d&view=detailv2&idpp=genimg

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - cmfrydos - 29.10.2023

xD so gut

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - Alpha Zen - 30.10.2023

Das ist fantastisch.

RE: Bilderzeugende KI - Erfahrungen und Erzeugnisse - cmfrydos - 30.11.2023

Also, ich wollte hier noch kurz meine Erfahrungen mit Video-Upscaling und Frameinterpolation teilen.
Etwas anders als bei den bisherigen Generierungen in diesem Thread habe ich Bilder aus Bildern und nicht aus Text generiert.
Konkret habe ich das originale Intro-Video von "Schatten über Riva" hochskaliert.

Ich habe RIFE benutzt, um die Bildrate von ursprünglich 10 FPS auf zuerst 160 und dann auf 60 zu erhöhen.
Einfach gesagt, analysiert RIFE die Bewegungen im Bild und fügt die fehlenden Zwischenschritte ein.
Davon bin ich echt begeistert. Im Gegensatz zum Upscaling macht es nur wenige Fehler und schafft es meistens auf Knopfdruck, aus einem ruckeligen Video etwas sehr ansehnlich Flüssiges zu erzeugen.
Probleme gab es eigentlich nur, wenn die Bewegung im Bild komplexer oder zu schnell war:
Einmal beim Hindurchwandern durch das aufschwingende Tor kam es mit RIFE zu stärkeren Artefakten, sodass ich auf DAIN ausgewichen bin, das hier zwar auch scheitert, aber weniger grandios.
Außerdem stolperte es beim schnellen Umschwenken innerhalb des Turmes, beispielsweise vor und nach den Kakerlaken. Dort verändert sich zwischen den Einzelbildern einfach zu viel.

Demjenigen, der es mal mit eigenen Videos ausprobieren möchte, empfehle ich das Programm "Flowframes", da es sehr leicht installierbar und benutzbar ist. Es hat Zugriff auf verschiedenste aktuelle A.I.-Modelle (wie RIFE oder DAIN) und bildet eine grafische Schnittstelle, um diese anzusteuern.
Viele der Modelle, wie das benutzte RIFE, sind mit einer einigermaßen aktuellen GPU auch ziemlich flott.

Als zweiten Schritt habe ich alle originalen und dazwischen generierten Bilder dann mittels ESRGAN um den Faktor 4 in Höhe und Breite hochskaliert.
Mir gefällt das Ergebnis deutlich besser als mit Lanczos oder dem Stable Diffusion Upscale, aber es wird in Zukunft bestimmt noch deutlich bessere Modelle geben.
Cool finde ich, wie im hochskalierten (englischen) Video plötzlich "Programmierung" im Hintergrund lesbar wurde. Damit wurde wohl nicht gerechnet. ;D
ESRGAN kann man mit "Cupscale" relativ leicht selbst bedienen.

Hier das Ergebnis: https://www.youtube.com/watch?v=rLooyyN2iic

So, genug zum Technischen. Etwas Offtopic, aber weiß jemand, was dort im Introvideo, neben den Credits, eigentlich gezeigt wird?
Die Wüste um die Festung schließt ja eigentlich alle Schauplätze im Spiel aus. Es ist nicht der Magierturm im Sumpf und erst recht nicht die Feste in Riva.

Könnte es sein, dass es sich vielleicht um die Schwarze Festung in der Wüste Gor handelt?
Und bei dem Magier um niemand Geringeren als den Dämonenmeister Borbarad, der da mal eben aus Augen, Würmern und "Stimmen" diejenigen Chimären erzeugt, die uns dann später im Spiel noch heimsuchen werden?

Dafür sieht die Festung halt von weitem etwas unspektakulär aus. Nur - was sollte es sonst darstellen? Zum Schluss macht er sogar noch den Deckel auf die Urne.
Da rendere ich Tage an diesem bizarren Intro, und verstehe es erst jetzt. :lol: