Zum Inhalt springen

Mensch zu Maschine: Finde den Stuhl

Im Projekt Neoclassica bringt ein Team aus Informatikern, einer Informatikerin und einem Historiker Maschinen bei, klassizistische Möbeln auf Abbildungen zu erkennen. Sie nutzen dafür neuronale Netze, die Google bereits vortrainiert hat.

Menschen wissen intuitiv, was ein Stuhl ist. Sie haben von klein auf viele Beispiele gesehen und anhand dieser Beispiele gelernt, was einen Stuhl ausmacht: Beine, Sitzfläche, Lehne. Diese Merkmale haben sie so verinnerlicht, dass sie einen Stuhl nicht mehr in seine einzelnen Bestandteile zerlegen müssen, um zu wissen: Das ist ein Stuhl. Menschen besitzen die Fähigkeit zum Deep Learning – ein Begriff, der häufig in Zusammenhang mit künstlicher Intelligenz fällt. Dazu später mehr.

Film zum Projekt

Prof. Dr. Siegfried Handschuh, assoziierter Professor an der Universität Passau und Ordinarius für Data Science an der Universität St. Gallen, Bernhard Bermeitinger (Informatiker), Maria Christoforaki (Informatikerin) und Simon Donig (Historiker) schildern, wie sie im Projekt Neoclassica Maschinen die Formsprache des Klassizismus beigebracht haben.

Zunächst aber zu Simon Donig. Er ist Historiker und interessiert sich für klassizistische Möbel. Donig hat sich über mehrere Jahre hinweg Expertenwissen angeeignet. Er weiß noch ein bisschen mehr als ein durchschnittlicher Mensch über bestimmte Stühle, kann deren Merkmale und Eigenheiten bestimmten Epochen zuordnen. Zum Beispiel weiß er, dass ein klassizistischer Stuhl in seiner Formsprache auf die Antike zurückgreift. Diese ist schlichter, geradliniger und geometrischer ist als jene eines barocken Stuhls und weist weniger florale Verzierungen auf. Hier gibt er dieses Wissen an eine Maschine weiter:

Der Historiker Simon Donig gibt sein Wissen an die Maschine weiter, indem er dieses Bild annotiert.

Der Historiker Donig annotiert ein Foto eines "Period Rooms" im Metropolitan Museum of Art. Das Museum nutzt diese Form der Installation, um zeitgenössische Räume unmittelbar erlebbar zu machen. In dem Bild handelt es sich um den Nachbau eines Zimmers des "Hôtel de Tessé", das im Jahr 1628 in Paris stand. Die Wandverkleidung stammt tatsächlich aus dem Hôtel, bei den ausgestellten Möbelstücken handelt es sich zwar ebenfalls um Originale aus der Zeit, aber nicht direkt aus dem Hôtel. Allerdings könnten die Möbel in dem Hôtel auch so oder so ähnlich ausgesehen haben, vielleicht waren darunter auch zwei Armlehnstühle oder, in der Fachsprache: Fauteuils.

Damit die Maschine den Historiker versteht, braucht es die Vermittlung aus der Informatik. Das Team am Passauer Lehrstuhl für Informatik mit Schwerpunkt Digital Libraries and Web Information Systems hat unter der Leitung von Siegfried Handschuh(*) im Projekt Neoclassica den Editor aufgebaut, mit dessen Hilfe der Historiker Donig der Maschine die klassizistische Formsprache beibringen kann. Die Informatikerin Maria Christoforaki hat das Wissen des Historikers modelliert und in eine Form gebracht, die Maschinen verstehen können. Gemeinsam haben sie eine Ontologie aufgebaut, eine Art Wörterbuch für einen Computer.

Historisches Wissen, übersetzt in Computersprache

Die Informatikerin Maria Christoforaki erklärt im Video, wie sie die Arbeit des Historikers Simon Donig in eine maschinell verarbeitbare Form übersetzt hat (in Englisch).

Die Passauer Ontologie basiert auf dem CIDOC Conceptual Reference Model, das viele Museen weltweit zur Dokumentation des kulturellen Erbes nutzen. Es handelt sich dabei um eine Norm (ISO 21127:2014) für den kontrollierten Austausch von Informationen im Bereich des kulturellen Erbes. Dies soll sicherstellen, dass auch andere Forschende die mit der Neoclassica Ontologie annotierten Daten nutzen können. 

Historische Definitionen füttern künstliche Intelligenz

„In dieser Ontologie findet sich die Handschrift von Simon Donig“, sagt Prof. Dr. Handschuh. Und dessen Rechercheleistung. Der Historiker hat dazu Primärquellen recherchiert, darunter etwa das „Cabinet Dictionary“ aus dem Jahr 1803, in dem der englische Möbelhersteller Thomas Sheraton inspirierende Abbildungen von Stühlen zusammengetragen hat. Darin wiederum taucht der Begriff fauteuil – Armlehnstuhl – auf und wird wie folgt definiert: „Fauteuil, from the French, signifies a large chair.“ Diese Definition findet sich nun auch in der Passauer Ontologie und infolgedessen im CIDOC.

Die Ontologie modelliert also das Fachwissen und macht dieses dem Computer zugänglich. Sie ist allerdings nur ein Teil der künstlichen Intelligenz, die das Passauer Team nutzt. Die zweite Komponente ist ein intelligentes, lernfähiges System, ein künstliches neuronales Netz. Dieses identifiziert und klassifiziert die eingespeisten Abbildungen.

Prof. Dr. Siegfried Handschuh zufolge basieren neuronale Netze im Kern auf statistischen Verfahren: Sie versuchen, eine mathematische Funktion mit vielen Millionen Parametern abzuschätzen.

VGG19-Layout, Convolutional Neural Network

Schematische Darstellung der Verarbeitungsschritte eines normalen Convolutional Neural Network

Schematische Darstellung der Verarbeitungsschritte eines normalen Convolutional Neural Network: Links wird ein Bild eingegeben. Die Matrix stellt die Farbwerte der jeweiligen Pixel dar. Dieses Neuronale Netzwerk besteht aus 19 Convolutional Layers, faltenden Schichten, die selbstständig die im Bild vorliegenden Informationen finden und verdichten. Die Ausgabe rechts ist eine Wahrscheinlichkeitsverteilung über die vorgegebenen Klassen. Das Beispielbild zeigt, dass sich das Neuronale Netzwerk zu 74% sicher ist, dass das eingegebene Bild einen Stuhl darstellt.

Quelle: Bernhard Bermeitinger

Grob besteht ein neuronales Netz aus mehreren Schichten. Links, in die Input-Schicht, wird das Trainingsbeispiel eingegeben. In der obigen Abbildung ist das ein klassizistischer Stuhl. Rechts, aus der Output-Schicht, kommt bestenfalls das Ergebnis, dass es sich bei der Abbildung mit einer hohen Wahrscheinlichkeit um einen klassizistischen Stuhl handelt.

Dazwischen liegen Hunderte verborgene Ebenen, die dazu da sind, unterschiedliche Merkmale eines Bildes zu erkennen und zu extrahieren. Beispielsweise könnte die erste Ebene lernen, die groben Umrisse eines Stuhls zu erkennen. Die Ebenen dazwischen extrahieren weitere Merkmale und die letzte Ebene erfasst kleinste Details und Formen, die charakteristisch für die klassizistische Formsprache sein können.

Ein neuronales Netz lernt mit Hilfe beliebig vieler Beispiele, je mehr, desto besser. Deep Learning funktioniert bei der Maschine ähnlich wie beim menschlichen Gehirn: das künstliche neuronale Netz identifiziert in den verschiedenen Schichten bestimmte Merkmale und gibt diese an die jeweils tiefer liegende Schicht weiter.  Es kann die Merkmale auf das Wesentliche reduzieren und generalisieren. Anhand dieses Wissens kann es die Wahrscheinlichkeit berechnen, ob es sich bei einer bislang nicht bekannten Abbildung ebenfalls um einen Stuhl handelt. Ein Beispiel für ein solches künstliches, neuronales Netz wäre die Suche in Google Photos oder Google Lense.

Das von Google vortrainierte Netz erkennt in dem Spiegel im Ankleidezimmer der französischen Königin Marie Antoinette einen Laptop.

Trifft's nicht ganz: Das von Google vortrainierte Netz erkennt in den Abbildungen Gegenstände aus unserem heutigen Alltag, wie zum Beispiel einen Laptop. Tatsächlich handelt es sich bei dem vermeintlichen Laptop um einen Spiegel aus dem Ankleidezimmer der französischen Königin Marie Antoinette.

Trainiert mit der Passauer Ontologie erkennt das Netz klassizistische Stühle.

Hohe Trefferquote: So sieht das Ergebnis aus, nachdem das bereits vortrainierte Netz die Passauer Ontologie geübt hat.

Nun ist es zwar so, dass das Team um Neoclassica viele Abbildungen klassizistischer Möbelstücke zusammengetragen hat – insgesamt 1246 Dateien aus namhaften Museen wie dem New Yorker Museum of Modern Art, dem Amsterdamer Rijksmuseum oder der Eremitage in Sankt Petersburg. Allerdings sind das zu wenig, um das Netz erfolgreich trainieren zu können. Für ein Trainingsbeispiel haben sie bisweilen nur fünf bis 20 Abbildungen zur Verfügung. Üblich sind 100 bis 1000.

Von Google vortrainiertes Netz

Um die Treffsicherheit zu verbessern, bedient sich das Forschungsteam in Neoclassica eines Tricks: Es setzt auf die Vorarbeit von Google, das das neuronale Netz bereits auf Alltagswissen trainiert hat. Die künstliche Intelligenz kennt also bereits das Konzept Stuhl und erkennt Stühle auf Abbildungen. Klassizistische Objekte hingegen kennt das vortrainierte Google-Netzwerk noch nicht, stattdessen ordnet es die Formen Gegenstände aus unserem heutigen Alltag zu. Einem Laptop, zum Beispiel. Oder einer Mikrowelle. Trainiert mit dem Wissen des Historikers Donig aber schafft es das Netz, klassizistische Möbelstücke selbst auf bislang nicht bekannten Abbildungen mit hoher Zuverlässigkeit zu erkennen, wie der Informatiker Bernhard Bermeitinger hier zeigt:

Der Informatiker Bernhard Bermeitinger demonstriert, wie das neuronale Netz klassizistische Möbelstücke auf Fotos ausfindig machen kann.

Für den Internet-Giganten Google, der sich auf die Digitalisierung unseres Alltags spezialisiert hat, ist solches Wissen uninteressant. Den Historiker hingegen bringen die neuen Instrumente ins Schwärmen: Sie könnten Expertinnen und Experten aus dem Bereich der Kunstgeschichte ganz neue Chancen eröffnen.

„Wir hätten die Möglichkeit, in die Breite zu gehen und eine Kultur, die daraus lebt, sich über die Formen auszutauschen, ein Stück weit wieder lebendig zu machen.“

Simon Donig, Historiker

Reizvoll ist die Zusammenarbeit mit den Geisteswissenschaften auch für Projektleiter Prof. Dr. Siegfried Handschuh, selbst Informatiker. Er geht noch einen Schritt weiter: Er möchte die Maschine so weit bringen, dass sie die Möbelstücke nicht nur erkennen, sondern auch beschreiben kann – und infolgedessen bestehende Theorien überprüfen kann. Im Video verrät er seine Vision:

* Prof. Dr. Siegfried Handschuh ist seit dem Wintersemester 2018/2019 assoziierter Professor an der Universität Passau und Ordinarius für Data Science an der Universität St. Gallen.