Presseaussendungen

Sehen Maschinen so wie wir?

An der TU Wien wurde untersucht, wie künstliche Intelligenz Bilder kategorisiert. Dabei zeigen sich verblüffende Ähnlichkeiten zu Sehsystemen in der Natur.

Gruppenfoto

Peyman M. Kiasari, Zahra Babaiee und Radu Grosu (v.l.n.r.)

Wie bringt man einer Maschine bei, Objekte auf Bildern zu erkennen? In den vergangenen Jahren sind in diesem Bereich gewaltige Fortschritte gelungen. Mit Hilfe von neuronalen Netzen kann man zum Beispiel Bilder von Tieren mit sehr hoher Trefferquote der jeweiligen Tierart zuordnen lassen. Man erreicht das, indem man ein neuronales Netz mit Hilfe vieler Beispielbilder trainiert – das Netz wird Schritt für Schritt so angepasst, dass es am Ende möglichst präzise die richtigen Antworten liefert.

Welche Strukturen sich dabei aber ausbilden, welche Mechanismen sich im neuronalen Netz entwickeln, die dann am Ende zum Ziel führen, bleibt dabei meist im Dunklen. Ein Team der TU Wien, geleitet von Prof. Radu Grosu, und ein Team des MIT (USA), geleitet von Prof. Daniela Rus, gingen nun aber genau dieser Frage nach – und kam zu erstaunlichen Ergebnissen: Im künstlichen neuronalen Netz bilden sich Strukturen, die eine verblüffende Ähnlichkeit mit Strukturen haben, die im Nervensystem von Tieren oder Menschen auftreten.

Mehrere Schichten von Neuronen

„Wir arbeiten mit sogenannten Convolutional Neural Networks – das sind künstliche neuronale Netze, die häufig zur Verarbeitung von Bilddaten verwendet werden“, sagt Zahra Babaiee vom Institut für Computer Engineering der TU Wien. Sie ist die Erstautorin des Papers und führte einen Teil der Forschungsarbeit gemeinsam mit Daniela Rus am MIT durch, den Rest gemeinsam mit Peyman M. Kiasari und Radu Grosu an der TU Wien.

Inspiriert wurde das Design dieser Netzwerke von den Nervenzellen-Netzwerken in unserem Auge und unserem Gehirn. Dort werden visuelle Eindrücke durch mehrere Schichten von Neuronen verarbeitet. Bestimmte Neuronen werden aktiv – zum Beispiel, weil sie durch Lichtsignale im Auge aktiviert werden – und leiten Signale an Neuronen der dahinterliegenden Schicht weiter.

Bei künstlichen neuronalen Netzen wird dieses Prinzip am Computer digital nachgeahmt: Der gewünschte Input – zum Beispiel ein digitales Bild – wird Pixel für Pixel der ersten Schicht künstlicher neuronaler Netze übergeben. Die Aktivität der Neuronen in dieser ersten Schicht hängt einfach davon ab, ob sie einen helleren oder einen dunkleren Pixel präsentiert bekommen. Aus diesen Aktivitäts-Werten der Neuronen in der ersten Schicht ergibt sich nun die Aktivität der Neuronen aus der nächsten Schicht: Jedes der Neuronen der nachfolgenden Schicht verknüpft die Signale der ersten Schicht nach einem ganz bestimmten individuellen Muster (man könnte auch sagen: nach einer ganz bestimmten Formel), und aus diesem Wert ergibt sich dann die Aktivität des Neurons aus der nächsten Schicht.

Verblüffende Ähnlichkeit mit biologischen neuronalen Netzen

„Bei Convolutional Neural Networks spielen nicht alle Neuronen einer Schicht für jedes Neuron der nachfolgenden Schicht eine Rolle“, erklärt Zahra Babaiee. „Auch im Gehirn ist nicht jedes Neuron einer Schicht mit ausnahmslos allen Neuronen der vorhergehenden Schicht verbunden, sondern nur mit den benachbarten Neuronen in einem ganz bestimmten Bereich.“

In Convolutional Neural Networks verwendet man daher sogenannte „Filter“, die entscheiden, welche Neuronen einen Einfluss auf ein bestimmtes nachfolgendes Neuron haben und welche nicht. Diese Filter werden nicht vorgegeben, sondern sie entstehen beim Training des neuronalen Netzes ganz von selbst. „Während man das Netzwerk mit vielen tausend Bildern trainiert, werden diese Filter und andere Parameter laufend angepasst. Der Algorithmus probiert aus, welche Gewichtung der Neuronen aus der vorangegangenen Schicht zum besten Ergebnis führt, so lange bis die Bilder mit möglichst hoher Zuverlässigkeit der richtigen Kategorie zugeordnet werden“, sagt Zahra Babaiee. „Das macht der Algorithmus automatisch, wir haben keinen direkten Einfluss darauf.“

Man kann aber am Ende des Trainings analysieren, welche Filter sich auf diese Weise entwickelt haben. Und dabei zeigen sich interessante Muster: Die Filter nehmen nicht etwa völlig zufällige Formen an, sondern sie fallen in mehrere einfache Kategorien. „Manchmal ergeben sich die Filter so, dass ein Neuron besonders stark von dem Neuron direkt davor beeinflusst wird und von anderen kaum“, sagt Zahra Babaiee. Andere Filter sehen kreuzförmig aus, oder sie zeigen zwei entgegengesetzte Bereiche – einen, dessen Neuronen das Neuron der nächsten Schicht stark positiv beeinflussen, und einen anderen, dessen Neuronen das Neutron der nächsten Schicht stark negativ beeinflussen.

„Das Verblüffende ist, dass genau diese Muster auch in biologischen Nervensystemen bereits beobachtet wurden, etwa bei Affen oder Katzen“, sagt Zahra Babaiee. Beim Menschen dürfte die Verarbeitung visueller Daten genauso funktionieren. Dass die Evolution dieselben Filter-Funktionen hervorgebracht hat, wie sie auch in einem automatisierten Machine-Learning-Prozess entstehen, ist wohl kein Zufall. „Wenn man weiß, dass sich genau diese Strukturen beim visuellen Lernen immer wieder bilden, dann kann man das im Trainingsprozess bereits berücksichtigen und Machine-Learning-Algorithmen entwickeln, die viel schneller zum gewünschten Ergebnis kommen als bisher“, hofft Zahra Babaiee.

 

Originalpublikation

Die Forschungsarbeit wurde im Mai 2024 auf der ICLR 2024 präsentiert, öffnet eine externe URL in einem neuen Fenster

Rückfragehinweis

Zahra Babaiee, MSc
Institut für Computer Engineering
Technische Universität Wien
+43 1 58801 18233
zahra.babaiee@tuwien.ac.at

Aussender:
Dr. Florian Aigner
PR und Marketing
Technische Universität Wien
+43 664 60588 4127
florian.aigner@tuwien.ac.at