Redmond (pte/19.01.2018/12:30) Microsoft-Forscher
http://microsoft.com
haben ein KI-System entwickelt, das anhand beschreibender Texte Bilder
malt. Dabei zeige die Künstliche Intelligenz (KI) auch eine "künstliche
Vorstellungskraft", heißt es im Microsoft-Research-Blog. Während der
Ansatz bei realistischen Beschreibungen beispielsweise von Vögeln
offenbar auch gut funktioniert, liefern absurde Texte wie von
schwimmenden Doppeldecker-Bussen teils eher bizarre Bilder.
Vom Wort zum Bild
Das Microsoft-Team hat in der Vergangenheit mit dem CaptionBot http://captionbot.ai
ein System entwickelt, das automatisch Schlagworte zu Fotos generiert,
sowie ein Tool, das Fragen zu Bildern beantwortet. "Nun wollen wir den
Text dafür nutzen, um ein Bild zu generieren", sagt Projektmitarbeiterin
Qiuyuan Huang. Dazu setzt das Team auf ein sogenanntes Generative
Adversarial Network. Dabei erstellt ein maschinenlernendes System ein
Bild anhand eines Textes, ehe ein zweites die Glaubwürdigkeit der
Darstellung beurteilt. Das erste System verfeinert sein Bild dann so
lange, bis das zweite mit dem Ergebnis zufrieden ist.
Damit das funktioniert, haben die Forscher das System zunächst mit
Datensets trainiert, die Paare aus Wörtern und entsprechenden Bildern
umfassen. Tatsächlich hat die KI so gelernt, anhand der Beschreibung
"Ein Vogel mit gelbem Körper, schwarzen Flügeln und kurzem Schnabel" ein
durchaus realistisches Bild zu erstellen. Wenn ein Text nicht vorgibt,
wo sich der Vogel befindet, fügt das System meist einen Ast hinzu. Es
hat offenbar gelernt, dass Vögel meist auf Ästen sitzen. Dieses Ergänzen
von Bildern um Details ist auch ein Grund, weshalb Microsoft dem System
eine künstliche Vorstellungskraft zuschreibt.
Absurd ergibt bizarr
Während das System bei realistischen Beschreibungen auch realistische
Bilder liefert, stößt es bei absurden Texten an seine Grenzen. Das Team
hat das beispielsweise mit dem Satz "Ein roter Doppeldecker-Bus, der
auf einem See schwimmt" getestet. Dazu lieferte die KI ein eher bizarres
Konstrukt, das wie eine Kreuzung aus Boot und Bus wirkt. Die Forscher
vermuten, dass das System intern damit zu kämpfen hatte, weil es weiß,
dass Boote auf Seen schwimmen, der Text aber explizit einen Bus
forderte.
Auch die auf den ersten Blick realistischen Bilder von Vögeln sind
noch nicht perfekt, so die Forscher. Bei näherer Betrachtung seien fast
immer Fehler zu finden, die darauf hindeuten, dass ein Computer das Bild
erstellt hat. Das umfasst beispielsweise Vögel, die eine falsche
Schnabelfarbe haben und Bananenstauden mit seltsam mutierten Früchten.
Dennoch könnte die Technologie langfristig interessant sein, um
beispielsweise automatisiert Entwurfszeichnungen zu verfeinern oder das
Erstellen von Animationsfilmen zu erleichtern.
Zum Forschungs-Paper "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks": http://arxiv.org/abs/1711.10485