Videotechnik und Künstliche Intelligenz

Für die Auswertung von Videodaten, werden zunehmend die Methoden der Künstlichen Intelligenz (KI) eingesetzt. Beispiele sind Expertensysteme, Spracherkennung und Maschinelles Lernen

Lesezeit: 8 Min.

Die Zukunft der Künstlichen Intelligenz

Für die Auswertung von Videodaten, werden die Methoden der Künstlichen Intelligenz (KI) eingesetzt. Bildquelle: AdobeStock, Urheber: fotomek

12.10.2020

Die Geschichte der Videotechnik für Überwachungszwecke ist in Deutschland fast 80 Jahre alt. Bereits ab Mitte 1950 wurden in Großstädten wie Hamburg, Hannover und München Videokamerasysteme zur Verkehrslenkung installiert. Zehn Jahre später wurden solche Kamerasysteme darüber hinaus für die Beobachtung von Großveranstaltungen eingesetzt. Ausgestattet mit Geräten zur Aufzeichnung und Übertragung mit Teleobjektiven ermöglichten sie die effiziente Lenkung der Einsatzkräfte, der Beweissicherung und der Identifizierung. „Video surveillance systems“ (VSS) werden heute sowohl in privaten als auch in öffentlichen Bereichen zahlreich eingesetzt, da bedingt durch den technischen Fortschritt die Funktionalitäten im Vergleich zu früher deutlich zugenommen haben.

Den größten Schritt in der Entwicklung der Videotechnik bedeutete der Übergang von analog zu digital. In der Vergangenheit wurden die analogen Bildsignale (Helligkeits- und Farbwerte), die beispielsweise durch das Abtasten eines Elektronenstrahls oder das Auslesen eines CCD-Sensors gewonnen wurden, über Koaxialkabel auf entfernte Monitore übertragen bzw. auf Magnetbändern gespeichert. Später konnten diese Signale über Analog-Digital (AD)-Wandler auf digitalen Medien abgespeichert werden. Vorteile dieser Technik waren ein großes Angebot an verfügbarer Hardware, die Möglichkeit langer Signalleitungen und eine hohe Akzeptanz beim Endkunden. Hohe Auflösungen und der Zugriff auf zahlreiche Kameras waren damit jedoch nur schwer zu realisieren.

Fortschritte in der Rechenleistung von Prozessoren und deren Miniaturisierung sowie in der Sensortechnik ermöglichten jedoch eine weitgehende Digitalisierung der Videotechnik. IP-Kameras digitalisieren und verarbeiten die Bildsignale bereits in der Kamera und senden diese zeit- und platzsparend über standardisierte IP-Netze oder andere digitale Schnittstellen an Speichermedien wie Festplatten und SSDs mit hoher Kapazität. Damit werden unter anderem hohe Bildauflösungen sowie das Betreiben von zahlreichen Kameras in einem System ermöglicht.

Das Vorhandensein und die Auswertung massenhafter digitaler Daten macht die Anwendung von Videobildern auch für zahlreiche andere Bereiche interessant, auch im Consumer-Bereich. So werden Videobilder heute zum Entsperren von Smartphones durch Gesichtserkennung und zur Darstellung einer „Virtual Reality“ genutzt. Auch bei der Entwicklung von autonom fahrenden Fahrzeugen spielen Videobilder eine große Rolle. Neben zahlreichen anderen Sensoren werden auch Videokameras dazu benutzt, um die Realität um das Fahrzeug abzubilden. Dabei werden beispielsweise Verkehrszeichen erkannt und gefährliche Situationen wie das Auftauchen von Fußgängern detektiert.

Hohe Anforderungen an die Auswertung

Die Nutzung in diesen Bereichen stellt jedoch hohe Anforderungen an die Verarbeitung und Auswertung von Videobildern. Die früher übliche „manuelle“ Bewertung, beispielsweise durch einen menschlichen Operator in einer Einsatzleitzentrale, ist bei diesen Anforderungen nicht möglich. So muss ein autonomes Fahrzeug in Millisekunden entscheiden, ob eine gefährliche Situation vorliegt und entsprechende Steuerungsbefehle veranlassen. Für diese Anwendungen wird eine automatisierte Auswertung von Videobildern in Echtzeit und ohne menschliches Zutun benötigt. Auch in der Videoüberwachung ergeben sich durch die automatische Auswertung der Bilder neue Funktionalitäten, wie beispielsweise das Erkennen von gefährlichen Gegenständen auf Bahnhöfen und Flughäfen oder das Erkennen von außergewöhnlichen Situationen in einer Menschenmenge.

Aus diesem Grund werden für die Auswertung von Videodaten zunehmend die Methoden der Künstlichen Intelligenz (KI) eingesetzt. Diese soll menschliche Intelligenz auf Computern simulieren und umfasst das Lernen (die Erfassung von Informationen und Regeln für deren Verarbeitung), das ziehen von Schlussfolgerungen und die Selbstkorrektur. Beispiele für Methoden der KI sind Expertensysteme, Spracherkennung und Maschinelles Lernen. Besonders geeignet für die Verarbeitung von Videobildern wird der Einsatz „Künstlicher Neuronaler Netzen“ (KNN) angesehen, da diese vor allem Stärken im Bereich der Mustererkennung besitzen.

KNN sind Algorithmen, die der Informationsverarbeitung im menschlichen Gehirn nachempfunden sind. Sie bestehen aus Knoten (Neuronen), die Informationen von außen oder von anderen Neuronen aufnehmen, modifizieren und als Ergebnis aus- bzw. weitergeben. KNN bestehen aus einer Eingabeschicht, einer Ausgabeschicht und den dazwischenliegenden verborgenen Neuronen. Informationen wie zum Beispiel die Helligkeit eines Bildpixels werden durch die Eingabeneuronen aufgenommen, durch die verborgenen Neuronen verarbeitet und in der Ausgabeschicht ausgegeben. Gewichtungen an den einzelnen Neuronen bestimmen dabei den Einfluss des Neurons auf die nächste Schicht. KNN müssen trainiert werden. Dabei wird die Eingabe mit der bekannten Ausgabe verglichen und für die aktuelle Verteilung der Gewichte ein Fehler berechnet. Für den nächsten Durchlauf werden die Gewichtungen verändert, so lange, bis der Fehler minimiert ist.

Geschichte der KNN

Bereits Ende der 1950er Jahre wurden KNN entwickelt, die einfache Aufgaben in der Bild- und Spracherkennung bewältigten. Gleichzeitig wurde deutlich, dass die damaligen KNN wichtige Probleme nicht repräsentieren können. Ab 1970 erlahmte das Interesse deshalb, Forschungen und Finanzierungen an künstlicher Intelligenz wurden gestoppt. In den 1980er Jahren brachte der Backpropagation-Algorithmus wieder frischen Wind in die Forschung über KNN. Damit gelang das Training von mehrschichtigen Netzen, der Ausgabewert wird mit der gewünschten Ausgabe verglichen, ein Fehler berechnet und dieser in Richtung der Eingabeneuronen zurück gespielt. KNN mit Backpropagation wurden vor allem zur Mustererkennung eingesetzt, beispielsweise bei Handschriften und Bildern. Mitte der Neunzigerjahre entwickelte das ZN Zentrum für Neuroinformatik unter anderem mit ZN Face ein marktreifes Gesichtserkennungssystem.

Danach schlief die Forschung zu KNN erneut ein. Die damaligen Methoden ließen ein Trainieren der Netze für große Probleme nicht zu und andere Methoden des maschinellen Lernens, wie beispielsweise „Convolutional Neural Networks“ zeigten bessere Ergebnisse. Mitte der 2000er Jahre kam es zu einer Renaissance des Backpropagation-Algorithmus. Zu dieser Zeit standen wesentlich mehr Trainingsdaten zur Verfügung und die Rechenleistung von Computern war exponentiell angestiegen. Damit und mit der Verbesserung der Trainingsalgorithmen („Deep Learning“) war es möglich, dass auch sehr tiefe KNN ohne menschliches Zutun in annehmbarer Zeit trainiert werden konnten. Dabei sollen selbst neue Situationen aus den beim Training gemachten Erfahrungen bewertet werden können.

Kritik am Einsatz von KNN

Gerade hier setzt jedoch auch die Kritik am Einsatz von KI bzw. KNN an. So wurde bereits 2013 nachgewiesen, dass vom Menschen kaum wahrnehmbare Manipulationen der Bildpixel zum gänzlichen Versagen der Mustererkennung eines KNN führen können [1]. Weitere wissenschaftliche Arbeiten folgten: ein nur geringfügiges, für Menschen kaum sichtbar verändertes Stopp-Schild wurde von der KI als 45 Meilen-Tempolimit interpretiert [2] und ein unauffälliger Aufkleber, der nur ein Prozent der Bildfläche ausmachte, irritierte die Bewegungsschätzung eines autonomen Fahrzeugs. Nach und nach wurden zahlreiche solcher „Adversarial Patches“ bekannt. Vorher korrekt klassifizierte Pandabären wurden nach Überlagerung mit einem Störmuster plötzlich als Gibbons identifiziert und Gesichtserkennungssysteme versagten nach einer geringfügigen Bildmanipulation [3].

Maschinen lernen anders

Diese Arbeiten deuten auf ein strukturelles Problem von KNN hin. Neuronale Netze nutzen andere Eigenschaften in Bildern zur Klassifikation als der Mensch. Oder andersherum: die Funktionsweise von KNN ist von Menschen nicht nachvollziehbar. Insbesondere tiefe Netze mit zahlreichen Zwischenschichten sind für Menschen eine komplette Blackbox. Das hat Konsequenzen für das Training. Zwar benötigen tiefe KNN Millionen von Trainingsdaten, diese legen allerdings Menschen fest. Da die Funktionsweise der Netze nicht nachvollziehbar ist, bleibt somit auch unklar, ob die Trainingsdaten alle späteren Situationen oder auch bewusste Manipulationen des Bildes abdecken. Gleichzeitig kann auch nicht überprüft werden, wie ein KNN beispielsweise in Prognosesystemen eine bestimmte Entscheidung getroffen hat. Solange KNN nicht wie der Mensch über eine objektorientierte „Weltsicht“ verfügen, lassen sich solche Fehlleistungen vermutlich nie ganz ausschließen. KNN scheinen für ihre Paradedisziplin, das Erkennen bestimmter Muster innerhalb einer abgegrenzten Trainingsmenge, gut geeignet zu sein. Weniger gut gelingt, jedenfalls zum jetzigen Zeitpunkt, die richtige Bewertung neuer Situationen sowie der robuste Umgang mit manipulierten Daten.

Cyber-Angriffe durch KI

Für den Einsatz von KNN in Sicherheitsanwendungen ergeben sich noch weitere Konsequenzen. Durch Kenntnis der Algorithmen können Hacker diese Anwendungen gezielt manipulieren, um sie als Einfallstor in Computer und Netze zu missbrauchen. So können Ultraschallfrequenzen für den Menschen unhörbar Spracherkennungssysteme wie Alexa oder Siri dazu bringen, nicht gewollte Befehle auszuführen. Diese neuen Angriffsvektoren müssen bei allen sicherheitskritischen Anwendungen wie beispielsweise dem autonomen Fahren, bei automatischen Grenzkontrollen oder der Analyse medizinischer Daten berücksichtigt werden.

Eine ebenso große Gefahr stellt das „Vergiften“ von Trainingsdaten dar. Große KNN werden im Regelfall mit einer Vielzahl von Daten vortrainiert, um den Aufwand für den Endanwender gering zu halten und schnelle Entscheidungen zu ermöglichen. Werden diese Daten bereits im Vorfeld böswillig manipuliert, können unerwünschte Reaktionen des KNN wie beispielsweise die falsch-positive Erkennung eigentlich unerwünschter Personen die Folge sein. Die Möglichkeit zur Manipulation besteht dabei entlang der gesamten Lieferkette. Der Forschungsstand und mögliche Konsequenzen daraus wurde bereits im Mai 2019 im 2. Deutsch-französischen IT-Sicherheitslagebild vom Bundesamt für Sicherheit in der Informationstechnik thematisiert [4]. Welche Auswirkungen der Einsatz von KI auf den Datenschutz hat, haben die deutschen Datenschutzbeauftragten ihrer „Hambacher Erklärung“ dargestellt [5].

Fazit und Ausblick

Die Anwendung von KI bzw. KNN erfordert nicht nur die Einführung neuer Techniken, sondern auch eine gesellschaftliche Diskussion über die Folgen. Dabei sind noch zahlreiche Fragen offen: wer haftet beim Unfall eines autonomen Fahrzeuges? Was passiert, wenn ein Terroranschlag durch ein stehengelassenen Koffer nicht detektiert wird? Wie viel Entscheidungsfreiheit erhält ein KI-System? Heute sieht es so aus, dass KI bzw. KNN insbesondere in sicherheitskritischen Anwendungen noch keine alleinigen Entscheidungen treffen sollten. Stattdessen leisten sie schon seit geraumer Zeit wertvolle Assistenzdienste, bei denen immer der Mensch als letzte Instanz entscheidet. So entdecken Videosysteme selbstständig unübliche Vorgänge in einer Menschenmenge und machen einen menschlichen Operator darauf aufmerksam. Diese Assistenzfunktion wird auch zukünftig über einen längeren Zeitraum im Mittelpunkt stehen.

Literatur

[1] Szegedy, C.; Zaremba, W.; Sutskever, I. et al.: Intriguing properties of neural networks, 2013, https://arxiv.org/pdf/1312.6199.

[2] Eykholt, K.; Evtimov, I.; Fernandes, E. et al.: Robust Physical-World Attacks on Deep Learning Models, 2017, https://arxiv.org/pdf/1707.08945.

[3] Xu, H.; Ma, Y.; Liu, H. et al.: Adversarial Attacks and Defenses in Images, Graphs and Text: A Review, 2019, https://arxiv.org/pdf/1909.08072.pdf [Zugriff am: 14.09.2020].

[4] Bundesamt für Sicherheit in der Informationstechnik: Deutsch-Französisches IT-Sicherheitslagebild 2. Edition, https://www.bsi.bund.de/SharedDocs/Downloads/DE/BSI/Publikationen/DE-FR-Lagebild/de-fr_Lagebild.pdf?__blob=publicationFile&v=7 [Zugriff am: 14.09.2020].

[5] Datenschutzkonferenz verabschiedet »Hambacher Erklärung« zur Künstlichen Intelligenz, 2020, https://www.bfdi.bund.de/DE/Infothek/Pressemitteilungen/2019/14_HambacherErklaerung.html [Zugriff am: 10.09.2020].

Bildquelle Bild 1: AdobeStock, Urheber: fotomek

Über den Autor: Redaktion Prosecurity

Die ProSecurity Publishing GmbH & Co. KG ist einer der führenden deutschen Sicherheitsfachverlage. Wir punkten mit fachlicher Kompetenz, redaktioneller Qualität und einem weit gespannten Netzwerk von Experten und Branchenkennern.