Christian Doppler Labor für Embedded Machine Learning
Im Zentrum einer wegweisenden Partnerschaft zwischen der Christian Doppler Gesellschaft und Industriepartnern steht die angewandte Forschung zur Verfeinerung künstlicher neuronaler Netzwerke auf eingebetteten Plattformen. Durch den Einsatz modernster Technologien optimieren wir Latenz, Durchsatz, Ressourcennutzung und Stromverbrauch, während wir fortschrittliche Methoden für dynamisches Online-Lernen in eingebetteten Systemen vorantreiben.
Über uns
Ein Christian Doppler Labor (CD-Labor) wird zu gleichen Teilen von der Christian Doppler Gesellschaft und den Industriepartner_innen finanziert. Es verbindet grundlegende und angewandte Forschung, um das Feld voranzubringen und die Stärken der Industriepartner_innen zu nutzen, um sie auf dem neuesten Stand in ihren Bereichen zu halten. Die geplante Laufzeit des CD-Labors beträgt sieben Jahre, von Oktober 2019 bis September 2026. Unser Fokus liegt auf dem Prozess der Zuordnung künstlicher neuronaler Netzwerke (NN) auf eingebettete Plattformen mit strengen Ressourcenbeschränkungen. Wir entwickeln weder neue NN-Architekturen noch neue Hardware-Plattformen oder Hardware-Geräte, sondern verwenden modernste NNs und Plattformen. Wir schätzen Latenz, Durchsatz, Ressourcennutzung und Stromverbrauch ab, analysieren und vergleichen Implementierungen eines gegebenen NNs auf verschiedenen Zielplattformen, wählen NN-Varianten aus, transformieren und optimieren sie für bestimmte Zielplattformen und entwickeln Methoden für dynamisches Online-Lernen in eingebetteten Systemen.
Das CD-Labor besteht aus folgenden fünf Partner_innen:
Das Institut für Computertechnik (ICT) an der TU Wien unter der Leitung von Prof. Axel Jantsch, Prof. Hermann Kaindl und Prof. Thilo Sauter hat einen starken Forschungsschwerpunkt auf eingebetteten Systemen, der das gesamte Spektrum von analoger Hardware bis hin zur eingebetteten Software abdeckt. Die Gruppe von A. Jantsch erforscht die Architektur und Entwurfsmethoden von Systemen auf einem Chip (SoC) und hat international Anerkennung für ihre Arbeit im Bereich Network on Chip, self-aware SoC, On-Chip-Ressourcenmanagement und Hardware-Sicherheit erhalten. Das ICT veröffentlicht etwa 80 peer reviewed Paper pro Jahr in führenden Fachzeitschriften und Konferenzen und ist in der internationalen Gemeinschaft fest etabliert. Die Mitarbeiter_innen organisieren regelmäßig Sonderveranstaltungen, Workshops und Konferenzen als Gutachter_innen, Redakteur_innen von Fachzeitschriften und Gastherausgeber_innen.
Das Institut für Computergraphik und Wahrnehmung (ICG) an der TU Graz unter der Leitung von Prof. Horst Bischof, Prof. Vincent Lepetit, Prof. Thomas Pock und Prof. Dieter Schmalstieg ist die einzige österreichische akademische Gruppe, die sowohl Computer Vision als auch Computer Graphics abdeckt. Das ICG pflegt eine Kultur der digitalen visuellen Informationsverarbeitung. Die Forschung am ICG konzentriert sich auf maschinelles Sehen, maschinelles Lernen, medizinische Bildanalyse, Objektrekonstruktion und -erkennung, Computergrafik und Visualisierung. Das Institut umfasst 7 Planstellen im öffentlichen Dienst und etwa 70 Stellen mit Drittmittelfinanzierung, was es zu einem der größten Institute an der Technischen Universität Graz macht. In den letzten fünf Jahren war das Institut für 85 Diplomarbeiten und die Verleihung von 49 Doktortiteln verantwortlich. Unsere Forscher_innen haben in den letzten Jahren durchschnittlich etwa 90 Veröffentlichungen pro Jahr in wissenschaftlichen Fachzeitschriften, Buchkapiteln und internationalen Konferenzen verfasst. Das ICG verfügt über Erfahrung in nationalen (FWF und FFG) sowie EU-geförderten Projekten.
Die Siemens AG ist ein Technologieunternehmen, das sich auf Industrie, Infrastruktur, Transport und Gesundheitswesen konzentriert. Von ressourceneffizienteren Fabriken über widerstandsfähige Lieferketten und intelligentere Gebäude und Stromnetze bis hin zu sauberem und komfortablerem Transport sowie fortschrittlicher Gesundheitsversorgung schafft das Unternehmen Technologien mit einem klaren Zweck und echtem Mehrwert für Kunde_innen. Durch die Verbindung der realen und digitalen Welten ermöglicht Siemens seinen Kunde_innen, ihre Branchen und Märkte zu transformieren und den Alltag von Milliarden Menschen zu verändern. Gegründet im Jahr 1847, beschäftigt das Unternehmen heute weltweit etwa 293.000 Mitarbeiter_innen.
Mission Embedded entwickelt und liefert hochzuverlässige eingebettete Systeme für professionelle Anwendungen in den Bereichen Verkehr, Industrie, Flugverkehrskontrolle und Medizintechnik. Dies ist unsere Leidenschaft. Unser besonderer Fokus liegt auf Assistenzsystemen, autonomem Fahren, autonomen Maschinen sowie KI und maschinellem Sehen in Sicherheitsanwendungen. Unsere maßgeschneiderten Lösungen ermöglichen es unseren Kunde_innen, ihre Innovationsprojekte in kurzer Zeit umzusetzen. Mission Embedded ist Mitglied der Frequentis Group und profitiert somit von über 70 Jahren Expertise und Innovation in missionskritischen Anwendungen. Kunde_innen profitieren von praktischer Erfahrung in einer Vielzahl von Bereichen, von Bahn- und Flugverkehrsmanagement bis hin zu Industrie und Medizin. Die Experten von Mission Embedded unterstützen während aller Phasen des Produktlebenszyklus, von der Konzeption über die Systemgestaltung bis hin zur Produktion und Wartung.
AVL (Anstalt für Verbrennungskraftmaschinen List) ist ein österreichisches Automobilberatungsunternehmen und ein unabhängiges Forschungsinstitut. Mit mehr als 11.500 Mitarbeiter_innen ist die AVL List GmbH das weltweit größte unabhängige Unternehmen für die Entwicklung, Simulation und Prüfung aller Arten von Antriebssystemen (Hybrid, Verbrennungsmotor, Getriebe, Elektroantrieb, Batterien, Brennstoffzelle und Steuerungstechnologie), ihre Integration in das Fahrzeug und übernimmt zunehmend neue Aufgaben im Bereich der assistierten und autonomen Fahrfunktionen sowie der Datenintelligenz. Das Unternehmen wurde 1948 gegründet und hat seinen Hauptsitz in Graz, Österreich. Es bietet branchenführende Technologien und Dienstleistungen basierend auf höchsten Qualitäts- und Innovationsstandards, um Kunde_innen bei der Reduzierung von Komplexität und der Schaffung von Mehrwert zu unterstützen. Die Mission von AVL ist es, führende Technologien und herausragende Dienstleistungen anzubieten, um eine bessere Welt zu schaffen, indem die Mobilitätstrends von morgen vorangetrieben werden.
Die Christian Doppler Forschungsgesellschaft (CDG) ist nach dem österreichischen Physiker und Mathematiker Christian Andreas Doppler benannt. Er ist hauptsächlich für seine Entdeckung des sogenannten "Doppler-Effekts" bekannt. Die Universalität des "Doppler-Effekts" findet Anwendung in einer breiten Palette von Anwendungen in den Naturwissenschaften und der Technologie.
Der gemeinnützige Verein hat das Ziel, die Entwicklung in den Bereichen Naturwissenschaften, Technologie und Wirtschaft zu fördern sowie ihre wirtschaftliche Umsetzung und Nutzung zu unterstützen. Er ermöglicht talentierten Wissenschaftler_innen an renommierten Forschungszentren hochwertige Forschung und Wissenstransfer im Einklang mit den Anforderungen und zum Vorteil der CDG-Mitgliedsunternehmen.
Das Bundesministerium für Digitalisierung und Wirtschaftsstandort (BMDW) hat zum Ziel, die positive Entwicklung des Wirtschaftsstandorts weiter voranzutreiben, die Chancen der Digitalisierung für Wirtschaft und Gesellschaft aktiv zu nutzen und Unternehmertum zu fördern. Gemeinsam mit privaten Unternehmen fördert das BMDW Forschungsprojekte durch die Christian Doppler Forschungsgesellschaft.
Forschung
Das Christian Doppler Labor für Embedded Machine Learning betreibt Forschung im Bereich maschinelles Lernen mit Deep Neural Networks (DNNs) auf ressourcenbeschränkten eingebetteten Geräten. Es untersucht den Designraum, der durch DNN-Architekturparameter, DNN-Optimierung und Transformationen, verschiedene Implementierungsplattformkonfigurationen und Mapping-Optionen gekennzeichnet ist. Dieser Designraum ist umfangreich, wenig verstanden und entwickelt sich schnell weiter. Unser Fokus liegt nicht auf der Theorie von DNNs, sondern auf der Implementierung von DNNs unter engen Kosten- und Energiebeschränkungen. Das CD-Labor ist in drei Arbeitspakete unterteilt:
- Arbeitspaket 1, Embedded-Plattformen, geht von einem gegebenen DNN aus und untersucht FPGA-, GPU- und SoC-Plattformen sowie deren Konfiguration. Der Schwerpunkt liegt auf plattformabhängiger Optimierung und Mapping.
- Arbeitspaket 2, DNN-Architektur und Optimierung, untersucht DNN-Transformationen für eine gegebene, feste Zielplattform. Der Fokus liegt auf plattformunabhängiger DNN-Optimierung.
- Arbeitspaket 3, Kontinuierliches Lernen, untersucht kontinuierliche In-Device-Lernarchitekturen und -methoden sowie deren Implementierung und Betrieb auf ressourcenbeschränkten eingebetteten Geräten.
Das CD-Labor führt weltweit führende Forschung im Bereich eingebettetes maschinelles Lernen in den Anwendungsdomänen Computer Vision für autonome Systeme durch. Für diese Anwendungen ist das Ziel des Labors, Architekturen und Methoden zu entwickeln, die (1) die höchste Genauigkeit innerhalb eines gegebenen Energiebudgets bieten, (2) den geringsten Energieverbrauch für eine gegebene Zielgenauigkeit aufweisen und (3) die Fähigkeit zum lebenslangen Lernen in ressourcenbeschränkten Umgebungen ermöglichen.
Beschreibung
Module
Das CD-Labor für Embedded ist in zwei Module unterteilt: Modul 1 und Modul 2. Modul 1 fokussiert sich auf die Anwendung von Hardware-Konfigurationsoptimierung, hardwarebewusster neuronaler Netzwerkoptimierung und die Auswahl geeigneter Hardware- und Netzwerkkombinationen für spezifische Anwendungen. Modul 2 fokussiert sich auf kontinuierliches Lernen im autonomen Fahren und die allgemeine Verbesserung der Objekterkennung, beispielsweise unter schwierigen Wetterbedingungen.
In den ersten beiden Jahren, 2020-2021, haben wir eine starke Kompetenz in Schätzmethoden, Benchmarking und Bewertung über verschiedene Plattformen aufgebaut, sowie plattformbewusste Netzwerkoptimierungen. Am wichtigsten ist vielleicht, dass wir eine Infrastruktur aus Tools, Workflows, Skripten und Anleitungen entwickelt haben, die weitere Experimente und Forschung erleichtern wird. Derzeit stärken wir diese Aspekte weiter, da wir darin erheblichen Mehrwert für unsere Partner_innen sehen. Darüber hinaus planen wir, unser Arbeitsgebiet in zwei Richtungen zu erweitern:
- Mehr Fokus auf Zeitreihen- und raumzeitliche Daten sowie die entsprechenden Anwendungen. Die Analyse von Zeitreihen- und raumzeitlichen Daten erfordert auch, unseren Netzwerkbereich zu erweitern, um RNNs, Autoencoder-Netzwerke (AEs) und andere Netzwerktypen einzubeziehen.
- Szenario für verteilte Implementierung: Smart Cameras und andere Sensoren generieren eine große Menge an Daten, die verarbeitet und analysiert werden müssen. Aus Gründen der Kommunikationsüberlastung, Privatsphäre oder Sicherheit ist es oft attraktiv, die Datenanalyse und Inferenz am Sensor oder in dessen Nähe durchzuführen. Allerdings verfügen Sensorknoten normalerweise über begrenzte Rechen- und Energiressourcen. Die Aufteilung der Verarbeitungspipeline und ihre Implementierung auf dem Sensorknoten, einem Zugangspunkt und einem Cloud-Server ist ein herausfordernder Design-Trade-off, der von Sensorknoten, Kommunikationsverbindung, Zugangspunkt und den Anforderungen der Anwendung abhängt. Die Aufteilung der DNN-basierten Inferenz ist besonders komplex, da im Gegensatz zu traditionellen Datenverarbeitungspipelines das Datenvolumen während der Verarbeitung zunimmt und bis zum Ende der DNN-Pipeline auf einem sehr hohen Niveau bleibt. Daher führt jede naive Teilung in der Mitte zu einem großen Datenvolumen, das über die Kommunikationsverbindung übertragen werden muss.
Arbeitspaket 1 - Embedded Platforms
Im Arbeitspaket 1 untersuchen wir Methoden zur Evaluierung, Auswahl und Konfiguration einer Plattform sowie zur Zuordnung eines gegebenen, trainierten DNNs zur ausgewählten Plattform. Hierbei handelt es sich um hardware-spezifische Themen. Die eingebettete Plattform ist für die Inferenz ausgelegt und optimiert, nicht für das Training. Bei den Schätzungstechniken werden wir bestehende analytische Modelle oder schichtweise Energieabschätzungen berücksichtigen und darauf aufbauen. In Fällen, in denen analytische Modelle nicht ausreichend Genauigkeit bieten, setzen wir einen datengetriebenen Ansatz ein. Die Forschungsfrage dieses Arbeitspakets lautet: Welche ist die beste Plattform für ein gegebenes Netzwerk?
Arbeitspaket 1.1 Schätzung
Weiterentwicklung der Schätzverfahren ANNETTE und Blackthorn, um die Leistungsschätzung einzubeziehen, sie für mehr Plattformen zu generalisieren, sie robuster und ausgereifter zu machen und sie auf RNNs auszudehnen.
Arbeitspaket 1.2 Video
Durch die Arbeit mit einer Bildfolge kann die Leistung der Erkennung durch Berücksichtigung von zeitlichen Mustern erhöht werden. Wir erweitern die Verarbeitung auf eingebetteter Hardware auf Anwendungen für Videoobjektsegmentierung und -verfolgung (VOST). Dies umfasst die Verarbeitung von spärlichen 3D-Faltungen sowie effiziente Punktverarbeitung. In Zusammenarbeit mit Arbeitspaket 3.2 und Arbeitspaket 3.3 werden wir Möglichkeiten finden, diese Netzwerke auf eingebetteten Plattformen optimiert anzuwenden.
Arbeitspaket 1.3 Zuordnung auf eine einzelne Plattform
Eine Toolbox für plattformspezifische Optimierung und Zuordnung für unsere Zielplattformen. Die in Phase 1 entwickelten Techniken zur Zuordnung von CNNs auf verschiedenen Plattformen werden weiterentwickelt, um sie stärker zu automatisieren und mehr Plattformvarianten abzudecken. Darüber hinaus wird sie auch auf RNNs wie Long-Short-Term-Memories und Gated Recurrent Units ausgedehnt.
Wir untersuchen Methoden zur Evaluierung, Auswahl und Optimierung von Deep Neural Networks (DNNs), die auf eine gegebene Zielplattform für Inferenz abgebildet werden sollen. Wir erforschen die möglichen architektonischen Entscheidungen und den Erkundungs- und Zuordnungsprozess von Netzwerken. Basierend auf Schätzverfahren können verschiedene DNN-Optionen, die durch top-down und bottom-up Ansätze abgeleitet werden, für potenzielle Zielplattformen bewertet werden. Die Forschungsfrage dieses Arbeitspakets lautet: Welche sind die Entwurfs- und Optimierungsstrategien für neuronale Netzwerke unter Berücksichtigung einer Zielplattform und einer Anwendung?
Der Fokus liegt auf folgenden Herausforderungen:
-
Wir konzentrieren uns auf Kombinationen von Optimierungsmethoden, anstatt auf einzelne Methoden wie pruning und Quantisierung, wie in der Einleitung beschrieben.
-
Wir behandeln sowohl CNNs als auch RNNs, abhängig von den Anwendungsfällen. Zeitreihenanwendungen sind ein neuer Schwerpunkt in diesem Projekt.
-
Neben single node Plattformen zielen wir auf verteilte Implementierungen ab, bei denen die Front-End-Verarbeitungspipeline auf die eingebettete Plattform und das Back-End auf einen Server abgebildet wird.
Die Hauptplattformen, die in Betracht gezogen werden, sind Xilinx-Boards (z. B. Ultrascale und Versal AI Core Series mit Vitis AI), Nvidia (Jetson), ARM-basierte Plattformen (z. B. RasberryPi, STM32 mit ARM NN) und Intel (z. B. Myriad X). Darüber hinaus wurde NXP's i.MX 8M Plus und i.MX 93 als eine weitere interessante Plattform identifiziert. Welches ist die "beste" DNN-Entwurfs- und Optimierungsstrategie?
Arbeitspaket 2.1 Bildgetrieben
Der Fokus liegt auf bild- und videogesteuerten, hardwarebewussten Optimierungsszenarien unter Berücksichtigung geeigneter DNNs.
Arbeitspaket 2.2 Zeitreihen
Der Fokus liegt auf zeitreihengetriebenen, hardwarebewussten Optimierungsszenarien unter Berücksichtigung geeigneter DNNs.
Arbeitspaket 2.3 Verteilte Zuordnung
Diese Aufgabe betrachtet Hardware, Algorithmen und Software im TinyML-Bereich, die in der Lage sind, Sensor-Datenanalysen auf dem Gerät mit äußerst geringem Energieverbrauch durchzuführen und dabei ständig aktiv zu sein. Dies ermöglicht den Einsatz von batteriebetriebenen Geräten. Für den Fall, dass der Sensorknoten zu begrenzt ist, um das gesamte DNN zu hosten, muss das DNN in ein Front-End aufgeteilt werden, das auf die Plattform des Sensorknotens abgebildet wird, und ein Back-End, das auf einen Server abgebildet wird. Wir entwickeln plattformbewusste DNN-Transformations- und Partitionierungsmethoden unter Berücksichtigung der Einschränkungen der Sensorknotenplattform, der Kommunikationsverbindung und der Anforderungen der Anwendung.
Arbeitspaket 2.4 Optimierungs Toolbox
Wir entwickeln eine Toolbox für plattformbewusste DNN-Optimierungs-, Partitionierungs- und Zuordnungsmethoden für unsere Zielplattformen.
Unser Fokus liegt auf kontinuierlichen Lernsystemen, die auf eingebetteten Systemen implementiert werden können, wobei das autonome Fahren ein wichtiger Anwendungsfall ist. Ein hauptsächliches Szenario, das in Betracht gezogen wird, ist wie folgt: Nehmen wir an, Sie haben ein halbautonomes Auto, das ein vortrainiertes Netzwerk für die Objekterkennung und -erkennung verwendet. Das System wurde auf einem bestimmten Datensatz trainiert, z. B. einem in den USA gesammelten Datensatz. Während Sie fahren, sammelt das Auto kontinuierlich Daten. Die Grenzfälle sind von besonderem Interesse, d. h. wo das Erkennungssystem versagt. Nachdem Sie nach Hause zurückgekehrt sind, werden diese Daten verwendet, um das System neu zu trainieren. Auf diese Weise wird das System jeden Tag, an dem Sie es verwenden, besser. Wir haben dieses Szenario gewählt, weil es:
-
Nahe am on-line Lernen ist, aber auf der derzeit verfügbaren Hardware umsetzbar ist.
-
Ein realistisches Anwendungsszenario für unseren industriellen Partner_innen ist.
-
Uns die Freiheit gibt, mit verschiedenen on-line Methoden zu experimentieren.
Arbeitspaket 3.1 Demonstrator
Für das lebenslange Lernen benötigen wir ein laufendes System, das wir verwenden können, um kontinuierlich Daten zur Neuschulung / Neubewertung unserer Modelle zu erhalten. Das Ziel des Demonstrators ist zweifach. Er dient als realistische Datenerfassungsplattform, auf die wir Zugriff haben. Für unsere wissenschaftlichen Ziele ist dies von wesentlicher Bedeutung. Es ermöglicht uns, eine konstante Austauschplattform mit unseren industriellen Partner_innen zu haben. Wir können unsere Forschungsergebnisse leicht übertragen, was im Laufe des Projekts immer wichtiger wird.
Arbeitspaket 3.2 Ausnutzung zeitlicher Informationen
Zeitliche Informationen in 2D und 3D erweisen sich als wertvolle Quelle zur Gewinnung zusätzlicher Etiketten, um entweder bestehende Detektoren zu verbessern, für den Domänenwechsel oder für die Anpassung. Sowohl kurzfristige zeitliche Informationen (z. B. Szenenfluss) als auch langfristige Tracking-Informationen, wie sie für mehrere Objektverfolger (MOT) gewonnen werden, sind wichtig. Insbesondere erweitern wir laufende Arbeiten, die sich auf die unüberwachte Domänenanpassung durch re-training mit Pseudo-Labels konzentrieren.
Arbeitspaket 3.3 3D domain transfer learning
Unsupervised domain transfer ist ein aktuelles Forschungsthema. Das Gebiet der Domänenübertragung für 3D-Daten wurde bisher kaum behandelt. Aufgrund des Mangels an gekennzeichneten 3D-Daten (im Vergleich zu Bildern) handelt es sich hierbei um ein dringendes Problem. Unsere ersten Experimente zeigen eine extreme Empfindlichkeit von Methoden gegenüber Veränderungen im LiDAR, der Montage des LiDAR, der Umgebung und sogar des Annotationsstils.
Arbeitspaket 3.4 Dynamisches lernen
Es besteht die Notwendigkeit, kurzfristiges Lernen oder Anpassung durchzuführen. Ein typisches Beispiel sind wechselnde Wetterbedingungen oder schnelle Beleuchtungsänderungen. Wir untersuchen Methoden, die in der Lage sind, dieses schnelle Lernen durchzuführen, d.h. das Lernen aus einem einzigen Beispiel (oder kurzen Videosequenzen). Ein spezielles Beispiel ist ein Detektor, der unter guten Wetterbedingungen trainiert wurde, aber sich schnell an regnerische Bedingungen anpassen muss. Der in gezeigte Ansatz zeigt, dass einfache Hilfsaufgaben wie Bildrotation verwendet werden können, um von einem einzigen Bild aus wiederzuverlernen. Tatsächlich können wir dieses Problem als Problem der Merkmals-Neugewichtung unter Verwendung von Hilfsaufgaben formulieren. Wenn dies erfolgreich ist, wird dies ein völlig neues Forschungsgebiet eröffnen.