Sehen Maschinen so wie wir?

05. Juni 2024

Sehen Maschinen so wie wir?

An der TU Wien wurde untersucht, wie künstliche Intelligenz Bilder kategorisiert. Dabei zeigen sich verblüffende Ähnlichkeiten zu Sehsystemen in der Natur.

Gruppenfoto — Peyman M. Kiasari, Zahra Babaiee und Radu Grosu (v.l.n.r.)

Wie bringt man einer Maschine bei, Objekte auf Bildern zu erkennen? In den vergangenen Jahren sind in diesem Bereich gewaltige Fortschritte gelungen. Mit Hilfe von neuronalen Netzen kann man zum Beispiel Bilder von Tieren mit sehr hoher Trefferquote der jeweiligen Tierart zuordnen lassen. Man erreicht das, indem man ein neuronales Netz mit Hilfe vieler Beispielbilder trainiert – das Netz wird Schritt für Schritt so angepasst, dass es am Ende möglichst präzise die richtigen Antworten liefert.

Welche Strukturen sich dabei aber ausbilden, welche Mechanismen sich im neuronalen Netz entwickeln, die dann am Ende zum Ziel führen, bleibt dabei meist im Dunklen. Ein Team der TU Wien, geleitet von Prof. Radu Grosu, und ein Team des MIT (USA), geleitet von Prof. Daniela Rus, gingen nun aber genau dieser Frage nach – und kam zu erstaunlichen Ergebnissen: Im künstlichen neuronalen Netz bilden sich Strukturen, die eine verblüffende Ähnlichkeit mit Strukturen haben, die im Nervensystem von Tieren oder Menschen auftreten.

Mehrere Schichten von Neuronen

„Wir arbeiten mit sogenannten Convolutional Neural Networks – das sind künstliche neuronale Netze, die häufig zur Verarbeitung von Bilddaten verwendet werden“, sagt Zahra Babaiee vom Institut für Computer Engineering der TU Wien. Sie ist die Erstautorin des Papers und führte einen Teil der Forschungsarbeit gemeinsam mit Daniela Rus am MIT durch, den Rest gemeinsam mit Peyman M. Kiasari und Radu Grosu an der TU Wien.

Inspiriert wurde das Design dieser Netzwerke von den Nervenzellen-Netzwerken in unserem Auge und unserem Gehirn. Dort werden visuelle Eindrücke durch mehrere Schichten von Neuronen verarbeitet. Bestimmte Neuronen werden aktiv – zum Beispiel, weil sie durch Lichtsignale im Auge aktiviert werden – und leiten Signale an Neuronen der dahinterliegenden Schicht weiter.

Bei künstlichen neuronalen Netzen wird dieses Prinzip am Computer digital nachgeahmt: Der gewünschte Input – zum Beispiel ein digitales Bild – wird Pixel für Pixel der ersten Schicht künstlicher neuronaler Netze übergeben. Die Aktivität der Neuronen in dieser ersten Schicht hängt einfach davon ab, ob sie einen helleren oder einen dunkleren Pixel präsentiert bekommen. Aus diesen Aktivitäts-Werten der Neuronen in der ersten Schicht ergibt sich nun die Aktivität der Neuronen aus der nächsten Schicht: Jedes der Neuronen der nachfolgenden Schicht verknüpft die Signale der ersten Schicht nach einem ganz bestimmten individuellen Muster (man könnte auch sagen: nach einer ganz bestimmten Formel), und aus diesem Wert ergibt sich dann die Aktivität des Neurons aus der nächsten Schicht.

Verblüffende Ähnlichkeit mit biologischen neuronalen Netzen

„Bei Convolutional Neural Networks spielen nicht alle Neuronen einer Schicht für jedes Neuron der nachfolgenden Schicht eine Rolle“, erklärt Zahra Babaiee. „Auch im Gehirn ist nicht jedes Neuron einer Schicht mit ausnahmslos allen Neuronen der vorhergehenden Schicht verbunden, sondern nur mit den benachbarten Neuronen in einem ganz bestimmten Bereich.“

In Convolutional Neural Networks verwendet man daher sogenannte „Filter“, die entscheiden, welche Neuronen einen Einfluss auf ein bestimmtes nachfolgendes Neuron haben und welche nicht. Diese Filter werden nicht vorgegeben, sondern sie entstehen beim Training des neuronalen Netzes ganz von selbst. „Während man das Netzwerk mit vielen tausend Bildern trainiert, werden diese Filter und andere Parameter laufend angepasst. Der Algorithmus probiert aus, welche Gewichtung der Neuronen aus der vorangegangenen Schicht zum besten Ergebnis führt, so lange bis die Bilder mit möglichst hoher Zuverlässigkeit der richtigen Kategorie zugeordnet werden“, sagt Zahra Babaiee. „Das macht der Algorithmus automatisch, wir haben keinen direkten Einfluss darauf.“

Man kann aber am Ende des Trainings analysieren, welche Filter sich auf diese Weise entwickelt haben. Und dabei zeigen sich interessante Muster: Die Filter nehmen nicht etwa völlig zufällige Formen an, sondern sie fallen in mehrere einfache Kategorien. „Manchmal ergeben sich die Filter so, dass ein Neuron besonders stark von dem Neuron direkt davor beeinflusst wird und von anderen kaum“, sagt Zahra Babaiee. Andere Filter sehen kreuzförmig aus, oder sie zeigen zwei entgegengesetzte Bereiche – einen, dessen Neuronen das Neuron der nächsten Schicht stark positiv beeinflussen, und einen anderen, dessen Neuronen das Neutron der nächsten Schicht stark negativ beeinflussen.

„Das Verblüffende ist, dass genau diese Muster auch in biologischen Nervensystemen bereits beobachtet wurden, etwa bei Affen oder Katzen“, sagt Zahra Babaiee. Beim Menschen dürfte die Verarbeitung visueller Daten genauso funktionieren. Dass die Evolution dieselben Filter-Funktionen hervorgebracht hat, wie sie auch in einem automatisierten Machine-Learning-Prozess entstehen, ist wohl kein Zufall. „Wenn man weiß, dass sich genau diese Strukturen beim visuellen Lernen immer wieder bilden, dann kann man das im Trainingsprozess bereits berücksichtigen und Machine-Learning-Algorithmen entwickeln, die viel schneller zum gewünschten Ergebnis kommen als bisher“, hofft Zahra Babaiee.

Originalpublikation

Die Forschungsarbeit wurde im Mai 2024 auf der ICLR 2024 präsentiert, öffnet eine externe URL in einem neuen Fenster

Rückfragehinweis

Zahra Babaiee, MSc
Institut für Computer Engineering
Technische Universität Wien
+43 1 58801 18233
zahra.babaiee@tuwien.ac.at

Aussender:
Dr. Florian Aigner
PR und Marketing
Technische Universität Wien
+43 664 60588 4127
florian.aigner@tuwien.ac.at

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einstellungen zur Verwendung von Cookies auf dieser Website.	1 Jahr	HTML	Homepage TU Wien
SimpleSAML	Wird benötigt, um die Sessions der eingeloggten Benutzer_innen voneinander unterscheiden zu können.	Session	HTTP	Login TU Wien
SimpleSAMLAuthToken	Wird benötigt, um die Sessions der eingeloggten Benutzer_innen voneinander unterscheiden zu können.	Session	HTTP	Login TU Wien
fe_typo_user	Wird benötigt, damit im Falle eines Typo3-Frontend-Logins die Session-ID wiedererkannt wird um Zugang zu geschützten Bereichen zu gewähren.	Session	HTTP	Homepage TU Wien
staticfilecache	Wird benötigt, um die Auslieferungszeit der Website zu optimieren.	Session	HTTP	Homepage TU Wien
JESSIONSID	Wird benötigt, damit im Falle eines LectureTube-Logins die Session-ID wiedererkannt wird um Zugang zu geschützten Bereichen zu gewähren.	Session	HTTP	LectureTube TU Wien
_shibsession_lecturetube	Wird benötigt, um die Sessions der eingeloggten Benutzer_innen voneinander unterscheiden zu können.	Session	HTTP	LectureTube TU Wien

Name	Zweck	Ablauf	Typ	Anbieter
_pk_id	Wird verwendet, um ein paar Details über den Benutzer wie die eindeutige Besucher-ID zu speichern.	13 Monate	HTML	Matomo TU Wien
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	HTML	Matomo TU Wien
_pk_ses	Wird benötigt, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo TU Wien
nmstat	Wird benutzt, um das Verhalten auf der Website festzuhalten. Es wird genutzt, um Statistiken über die Websitenutzung zu sammeln, wie zum Beispiel wann der/die Besucher_in die Website zuletzt besucht hat. Das Cookie enthält keine personenbezogenen Daten und wird einzig für die Websiteanalyse eingesetzt.	1000 Tage	HTML	Siteimprove
siteimproveses	Wird dafür eingesetzt, um die Abfolge an Seiten zu verfolgen, die ein Besucher/eine Besucherin im Laufe des Besuchs auf der Website ansieht. Das Cookie enthält keine personenbezogenen Daten und wird einzig für die Websiteanalyse eingesetzt.	Session	HTTP	Siteimprove
AWSELB	Tritt immer paarweise mit siteimproveses auf (zur Lastverteilung am Anbieter-Server)	Session	HTTP	Siteimprove

Name	Zweck	Ablauf	Typ	Anbieter
_ga	Wird benötigt, um die Sessions der Benutzer_innen voneinander unterscheiden zu können.	Persistent	HTTP	Google Analytics
_gali	Wird benötigt, um festzustellen welche Links auf einer Seite angeklickt werden.	sofort	HTTP	Google Analytics
_gat	Dies ist ein funktionsbezogenes Cookie, dessen Aufgaben unterschiedlich sein können.	2 Jahre	HTTP	Google Analytics
_gid	Wird benötigt, um Benutzer_innen zu unterscheiden und Statistiken zu erstellen.	24 Stunden	HTTP	Google Analytics
_gads	Wird benötigt, um Websites zu ermöglichen Werbung von Google, einschließlich personalisierter Werbung, anzuzeigen.	13 Monate	HTTP	Google Analytics
_gac_	Wird von Werbetreibenden benötigt, um Nutzer_innenaktivitäten und die Leistung ihrer Werbekampagnen zu messen.	90 Tage	HTTP	Google Analytics
_gcl_	Wird von Werbetreibenden benötigt, um feststellen zu können, wie oft Nutzer_innen, die auf ihre Anzeigen klicken, am Ende eine Aktion auf ihrer Website ausführen.	90 Tage	HTTP	Google Analytics
_gcl_au	Enthält eine zufällig generierte Benutzer_innen-ID.	90 Tage	HTTP	Google
_gcl_aw	Wird gesetzt, wenn Nutzer_innen auf eine Google-Anzeige auf der Website klicken und enthält Informationen darüber, welche Anzeige angeklickt wurde.	90 Tage	HTTP	Google
__utma	Wird benötigt, um die Erfassung von Besuchen und Besucher_innen zu ermöglichen.	2 Jahre	HTTP	Google Analytics
__utmb	Wird benötigt, um neue Besuche zu erkennen.	30 Minuten	HTTP	Google Analytics
__utmc	Wird in Verbindung mit __utmb verwendet um festzustellen, ob es sich um einen neuen (kürzlichen) Besuch handelt.	Session	HTTP	Google Analytics
__utmd	Wird benötigt, um den Weg der Besucher_innen auf der Website zu speichern und zu verfolgen und sie in Gruppen zu klassifizieren (Marketing/Tracking).	1 Sekunde	HTTP	Google Analytics
__utmt	Wird benötigt, um die Abfragerate auf Google Analytics zu begrenzen.	10 Minuten	HTTP	Google Analytics
__utmz	Wird benötigt, um zu bestimmen aus welcher Quelle/Kampagne Besucher_innen kommen.	6 Monate	HTTP	Google Analytics
__utmvc	Wird benötigt, um Informationen über das Nutzer_innenverhalten auf mehreren Websites zu sammeln. Diese Informationen werden verwendet, um die Relevanz der Werbung auf der Website zu optimieren.	24 Stunden	HTTP	Google AdSense
utm_source	Wird benötigt, um URLs mit Parametern zu versehen, um die Kampagnen zu identifizieren, die den Verkehr weiterleiten.	sofort	HTTP	Google Analytics
__utm.gif	Wird zum Speichern von Browserdetails benötigt.	Session	HTTP	Google Analytics
gtag	Wird benötigt, um Remarketing zu betreiben.	30 Tage	HTTP	Google AdSense
id	Wird benötigt, um Remarketing zu betreiben.	2 Jahre	HTTP	Google AdWords
1P_JAR	Wird benötigt, um Werbung zu optimieren, für Nutzer_innen relevante Anzeigen bereitzustellen, Berichte zur Kampagnenleistung zu verbessern oder um zu vermeiden, dass Benutzer_innen dieselben Anzeigen mehrmals sehen.	2 Jahre	HTTP	Google
AID	Wird benötigt, um gezielte Werbung zu aktivieren.	2 Jahre	HTTP	Google Analytics
ANID	Wird benötigt, um Google-Werbung auf Websites einzublenden, die nicht zu Google gehören.	2 Jahre	HTTP	Google AdSense
APISID	Unbekannte Funktionalität	2 Jahre	HTTP	Google Ads Optimization
AR	Wird benötigt, um ein Profil der Interessen der Besucher_innen zu erstellen und relevante Werbung auf anderen Websites anzuzeigen. Dieses Cookie funktioniert, indem es Ihren Browser und Ihr Gerät eindeutig identifiziert.	2 Jahre	HTTP	Google AdSense
CONSENT	Wird benötigt, um die Vorlieben der Besucher_innen zu speichern und die Werbung zu personalisieren.	Persistent	HTTP	Google
DSID	Wird für Werbung benötigt, die an verschiedenen Stellen im Web angezeigt wird und dient zum Speichern der Präferenzen der Benutzer_innen.	2 Jahre	HTTP	Doubleclick
DV	Wird benötigt, um die Präferenzen der Nutzer_innen und andere Informationen zu speichern. Dazu gehören insbesondere die bevorzugte Sprache, die Anzahl der auf der Seite anzuzeigenden Suchergebnisse sowie die Entscheidung, ob der Google SafeSearch-Filter aktiviert werden soll oder nicht.	2 Jahre	HTTP	Google
HSID	Enthält die Google-Konto-ID und den letzten Anmeldezeitpunkt der Nutzer_innen.	2 Jahre	HTTP	Google
IDE	Wird benötigt, um die Handlungen der Benutzer_innen auf der Webseite nach der Anzeige oder dem Klicken auf eine der Anzeigen des Anbieters zu registrieren und zu melden, mit dem Zweck der Messung der Wirksamkeit einer Werbung und der Anzeige zielgerichteter Werbung für die Benutzer_innen.	2 Jahre	HTTP	Doubleclick
LOGIN_INFO	Wird benutzt, um die Anmeldedaten der Benutzer_innen von Google-Services zu speichern.	2 Jahre	HTTP	Google
NID	Wird benutzt, um Informationen über Nutzer_innen-Einstellungen zu speichern.	6 Monate	HTTP	Google
OTZ	Wird benötigt, um Aktivitäten von Besucher_innen mit anderen Geräten, die zuvor über das Google-Konto eingeloggt sind zu verknüpfen. Auf diese Weise wird die Werbung auf verschiedene Geräte zugeschnitten.	1 Monat	HTTP	Google
RUL	Wird benötigt, um festzustellen, ob Werbung richtig angezeigt wurde, um Marketingaktivitäten effizienter zu gestalten.	1 Jahr	HTTP	Doubleclick
SAPISID	Wird benötigt, um Benutzer_innen-Einstellungen zu speichern und um die Bandbreite der User_innen zu berechnen.	Persistent	HTTP	Google
SEARCH_SAMESITE	Ermöglicht es Servern, das Risiko von CSRF- und Informationsleck-Angriffen zu mindern, indem es festlegt, dass ein bestimmtes Cookie nur bei Anfragen gesendet werden darf, die von derselben registrierbaren Domäne ausgehen.	6 Monate	HTTP	Google
SID	Enthält die Google-Konto-ID und den letzten Anmeldezeitpunkt der Nutzer_innen.	2 Jahre	HTTP	Google
SIDCC	Wird benötigt, um Informationen über Nutzer_inneneinstellungen und -informationen für Google Maps zu speichern.	3 Monate	HTTP	Google
SSID	Wird benötigt, um Besucher_innen Informationen für Videos, die von YouTube auf in Google Maps integrierten Karten gehostet werden zu sammeln.	Persistent	HTTP	Google
__SECURE-1PAPISID	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-1PSID	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-3PAPISID	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-3PSID	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-3PSIDCC	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-APISID	Wird benötigt, um ein Profil der Interessen von Website-Besucher_innen zu erstellen, um durch Retargeting relevante und personalisierte Werbung anzuzeigen.	8 Monate	HTTP	Google
__SECURE-HSID	Wird benötigt, um digital signierte und verschlüsselte Daten aus der eindeutigen Google-ID zu sichern und die letzte Anmeldezeit, die Google zur Identifizierung von Besucher_innen, zur Verhinderung der betrügerischen Verwendung von Anmeldedaten und zum Schutz von Besucher_innendaten von unbefugten Parteien zu speichern. Dies kann auch für Targeting-Zwecke verwendet werden, um relevante und personalisierte Werbeinhalte anzuzeigen.	8 Monate	HTTP	Google
__SECURE-SSID	Wird benötigt, um Informationen darüber zu speichern, wie die Besucher_innen die Website nutzen, und über die Anzeigen, die sie möglicherweise gesehen haben, bevor sie die Website besucht haben. Wird auch zur Anpassung von Anzeigen auf Google-Domains verwendet.	8 Monate	HTTP	Google
test_cookie	Wird als Test gesetzt, um zu prüfen, ob der Browser das Setzen von Cookies zulässt. Enthält keine Identifikationsmerkmale.	15 Minuten	HTTP	Google
VISITOR_INFO1_LIVE	Wird benötigt, um Benutzer_innen-Einstellungen zu speichern und um die Bandbreite der User_innen zu berechnen.	6 Monate	HTTP	Youtube
facebook	Wird verwendet, um Anzeigen auszuliefern oder Retargeting zu ermöglichen	90 Tage	HTTP	Meta (Facebook)
__fb_chat_plugin	Wird zum Speichern und Verfolgen von Interaktionen (Marketing/Tracking) benötigt.	Persistent	HTTP	Meta (Facebook)
_js_datr	Wird benötigt, um Benutzer_inneneinstellungen zu speichern.	2 Jahre	HTTP	Meta (Facebook)
_fbc	Wird benötigt, um den letzten Besuch zu speichern (Marketing/Tracking).	2 Jahre	HTTP	Meta (Facebook)
fbm	Wird benötigt, um Kontodaten zu speichern (Marketing/Tracking).	1 Jahr	HTTP	Meta (Facebook)
xs	Wird zum Speichern einer eindeutigen Sitzungs-ID benötigt (Marketing/Tracking).	1 Jahr	HTTP	Meta (Facebook)
wd	Wird benötigt, um die Bildschirmauflösung zu loggen.	1 Woche	HTTP	Meta (Facebook)
fr	Wird benötigt, um Anzeigen zu schalten und deren Relevanz zu messen und zu verbessern.	3 Monate	HTTP	Meta (Facebook)
act	Wird benötigt, um angemeldete Benutzer_innen zu speichern (Marketing/Tracking).	90 Tage	HTTP	Meta (Facebook)
_fbp	Wird zum Speichern und Verfolgen von Besuchen auf verschiedenen Websites benötigt (Marketing/Tracking).	3 Monate	HTTP	Meta (Facebook)
datr	Wird benötigt, um den Browser für Sicherheits- und Website-Integritätszwecke, einschließlich der Wiederherstellung von Konten und der Identifizierung von potenziell gefährdeten Konten zu identifizieren.	2 Jahre	HTTP	Meta (Facebook)
dpr	Wird für Analysezwecke verwendet. Technische Parameter werden protokolliert (z. B. Seitenverhältnis und Abmessungen des Bildschirms), damit Facebook-Apps korrekt angezeigt werden können.	1 Woche	HTTP	Meta (Facebook)
sb	Wird benötigt, um Browserdetails und Sicherheitsinformationen des Facebook-Kontos zu speichern.	2 Jahre	HTTP	Meta (Facebook)
dbln	Wird benötigt, um Browserdetails und Sicherheitsinformationen des Facebook-Kontos zu speichern.	2 Jahre	HTTP	Meta (Facebook)
spin	Wird für Werbezwecke und Berichterstattung über soziale Kampagnen benötigt.	Session	HTTP	Meta (Facebook)
presence	Enthält den "Chat"-Status eingeloggter Benutzer_innen.	1 Monat	HTTP	Meta (Facebook)
cppo	Wird für statistische Zwecke benötigt.	90 Tage	HTTP	Meta (Facebook)
locale	Wird benötigt, um die Spracheinstellungen zu speichern.	Session	HTTP	Meta (Facebook)
pl	Wird für Facebook Pixel benötigt.	2 Jahre	HTTP	Meta (Facebook)
lu	Wird für Facebook Pixel benötigt.	2 Jahre	HTTP	Meta (Facebook)
c_user	Wird für Facebook Pixel benötigt.	3 Monate	HTTP	Meta (Facebook)
bcookie	Wird zur Speicherung von Browserdaten benötigt (Marketing/Tracking).	2 Jahre	HTTP	LinkedIn
li_oatml	Wird verwendet, um LinkedIn-Mitglieder außerhalb von LinkedIn zu Werbe- und Analysezwecken zu identifizieren.	1 Monat	HTTP	LinkedIn
BizographicsOptOut	Wird zum Speichern von Datenschutzeinstellungen benötigt.	10 Jahre	HTTP	LinkedIn
li_sugr	Wird zur Speicherung von Browserdaten benötigt (Marketing/Tracking).	3 Monate	HTTP	LinkedIn
UserMatchHistory	Wird zur Bereitstellung von Werbeeinblendungen oder Retargeting benötigt (Marketing/Tracking).	30 Tage	HTTP	LinkedIn
linkedin_oauth_	Wird benötigt, um seitenübergreifende Funktionen bereitzustellen.	Session	HTTP	LinkedIn
lidc	Wird benötigt, um durchgeführte Aktionen auf der Website zu speichern (Marketing/Tracking).	1 Tag	HTTP	LinkedIn
bscookie	Wird benötigt, um durchgeführte Aktionen auf der Website zu speichern (Marketing/Tracking).	2 Jahre	HTTP	LinkedIn
X-LI-IDC	Wird benötigt, um seitenübergreifende Funktionen bereitzustellen (Marketing/Tracking).	Session	HTTP	LinkedIn
AnalyticsSyncHistory	Speichert den Zeitpunkt, zu dem der/die Benutzer_in mit dem "lms_analytics"-Cookie synchronisiert wurde.	30 Tage	HTTP	LinkedIn
lms_ads	Wird benötigt, um LinkedIn-Mitglieder außerhalb von LinkedIn zu identifizieren.	30 Tage	HTTP	LinkedIn
lms_analytics	Wird benötigt, um LinkedIn-Mitglieder zu Analysezwecken zu identifizieren.	30 Tage	HTTP	LinkedIn
li_fat_id	Wird für eine indirekte Mitgliederidentifikation benötigt, die für Conversion Tracking, Retargeting und Analysen verwendet wird.	30 Tage	HTTP	LinkedIn
U	Wird benötigt, um den Browser zu identifizieren.	3 Monate	HTTP	LinkedIn
_guid	Wird benötigt, um ein LinkedIn-Mitglied für Werbung über Google Ads zu identifizieren.	90 Tage	HTTP	LinkedIn

News