Einleitung

Die KI basierte Bilderkennung stellt ein sehr wirksames Werkzeug dar. Obwohl neuronale Netze bereits vor Jahrzehnten entwickelt wurden, ist es erst in jüngster Zeit möglich, Objekte unter schwierigen Umständen und aus wechselnden Winkeln zu erkennen. Der Hauptgrund dafür sind rasante Fortschritte bei der Hardware.

Durch Bilderkennung lassen sich Objekte sicher identifizieren, trotz Schatten, Lichteinflüsse oder gemusterte Bildhintergründe.

Mit der klassischen Bildverarbeitung (Computer Vision) ist das alles nicht oder nur mit großem Aufwand zu erreichen. Zudem ist die Einrichtung von Systemen der Bilderkennung schneller durchführbar, als bei den bisher gängigen Methoden der Bildverarbeitung.

Entscheidend für die flexiblere visuelle Analyse durch Bilderkennung ist die Nutzung von künstlichen neuronalen Netzen (KNN). Denn im Unterschied zur Bildverarbeitung, orientiert sich die Bilderkennung nicht an fest programmierten Regeln, wie etwa der Form, Anzahl oder Lage von Objekten. Vielmehr erlernt der Computer durch Bildbeispiele, Objekte ähnlich wie ein Mensch an gemeinsamen Merkmalen zu identifizieren.

Zum Beispiel erkennt ein Mensch Schrauben unabhängig von der Lage, der Größe, der Kopfform und Gewindelänge. Auch spezielle Schraubenformen wie Gewindestifte, Rändelschrauben und Schraubhaken erkennt der Mensch als Schraube. Ein KI-System kann durch maschinelles Lernen eine fast so hohe Erkennungsrate wie ein Mensch erreichen. Dazu genügt es, ausreichend viele Bilder von Schrauben unterschiedlichen Typs auszuwerten. Dadurch erfasst die KI, welche Merkmale zum Typ „Schraube“ gehören.

Durch maschinelles Lernen lässt sich ein Computer auch darauf trainieren, Objekte von Schatten und Hintergrund zu unterscheiden. Durch diese Eigenschaft kann KI-basierte Bilderkennung unstrukturierte Bilder und Live-Videos auswerten, bei denen die Objekte nicht gleichförmig positioniert wurden. Menschen machen das unbewusst. Doch für die einfache Bildverarbeitung stellt das ein schwer überwindbares Hindernis dar.

Zu den typischen Anwendungen der industriellen Bilderkennung zählen zum Beispiel:

  • Oberflächenprüfung

  • Vermessung von Größen und Formen

  • Vollständigkeitsprüfung

  • Objekterkennung

  • Lage- und Positionserkennung

Auch die Entwicklung von Software gestaltet sich für KI-basierte Bilderkennungssysteme einfacher. Denn die Algorithmen der Bilderkennung bleiben gleich. Sie werden lediglich für neue Prüfaufgaben mit Musterbildern gespeist, wobei ein menschlicher Tutor die Bilder bewertet. Je nach Aufgabe können die Prüfobjekte aus unterschiedlichen Blickwinkeln und vor verschiedenen Hintergründen dargestellt werden.

Das Prinzip des maschinellen Lernens anhand von Beispielen, Automatisierungen und hierarchischer Merkmalsextraktion, zusammengefasst als Deep Learning bezeichnet, bildet hierbei die Grundlage der Bildverarbeitung. (vgl. elunic)

Ziel

Neuronale Netze sind für viele Fachbereiche ein immer wichtiger werdendes Thema. Diese Masterarbeit hat das Ziel zu zeigen, dass es auch mit einfachen Mitteln möglich ist, einen umfangreichen Datensatz zu erzeugen und ein neuronales Netz (NN) darauf zu trainieren. Der Weg vom Datensatz zum NN soll dabei möglichst einfach und intuitiv dargestellt werden, um auch ohne tiefgreifendes Vorwissen ein Verständnis über neuronale Netze zu entwickeln.

Auch ist das Suchen und Irren gut, denn durch Suchen und Irren lernt man.

—Johann Wolfgang Goethe

[Kersken, 2021]

Jupyter Book

Das Format, in dem diese Masterarbeit verfasst ist, ist ein Jupyter Book. Ein neues Open-Source-Projekt zum druckreifen Veröffentlichen rechnergestützter technischer und insbesondere ausführbarer Inhalte in Buch- und HTML-Form. So ist es möglich, die Abschnitte dieses Buchs, die Code enthalten, interaktiv auszuführen, zu reproduzieren und zu ändern.

print('Hello World')
Hello World

Aufbau

Im ersten Kapitel werden zwei verschiedene Datensätze erzeugt.

  • Der erste Datensatz wird durch “Data Augmentation” erzeugt, d.\(~\)h. die Trainingsbilder werden künstlich erzeugt.

  • Der zweite Datensatz wird aus echten Fotos erzeugt, die mit einer Smartphone-Kamera aufgenommen wurden.

Das zweite Kapitel beschreibt die Funktionsweise von neuronalen Netzen. Es wird gezeigt, wie ein einzelnes künstliches Neuron funktioniert und wie viele solcher Neuronen zu einem neuronalen Netz verschaltet werden.

Das dritte Kapitel beschäftigt sich mit “Convolutional Neural Nets”, es wird gezeigt wie CNNs funktionieren und weshalb diese so leistungsfähig sind.