+49 6221 672 19-00 info@hdvisionsystems.com

State-of-the-art Objekterkennung: Was das YOLO Netzwerk ausmacht

YOLO hat längst seinen Weg aus der Jugendsprache in die Welt von Künstlicher Intelligenz und Maschinellem Lernen gefunden – nach semantischer Abwandlung verbirgt sich dahinter das Akronym You Only Look Once. Erstmals stellten Redmon et al. 2016 YOLO als neuen Ansatz für eine Echtzeit-Objekterkennung vor. Wie das YOLO-Netzwerk aufgebaut ist, worin seine Vorteile aber auch Schwierigkeiten liegen, eruiere ich in diesem Beitrag.

Der YOLO Ansatz

Dem YOLO-Algorithmus liegt ein „faltendes“ neuronales Netzwerk (convolutional neuronal network CNN) zugrunde. Wie der Name vermuten lässt, benötigt dieser Algorithmus nur eine einzige Vorwärtspropagation (d.h. Durchlauf) durch das CNN um Objekte zu erkennen. Das CNN sagt in diesem Durchlauf sowohl verschiedene Klassenwahrscheinlichkeiten als auch bounding boxes gleichzeitig vorher. Bounding boxes – Hüllkörper – beschreiben die räumliche Ausdehnung des Objekts. Die Klassenwahrscheinlichkeit gibt an mit welcher Wahrscheinlichkeit das Objekt zu einer bestimmten Klasse, z.B. ’Katze’, gehört.

Beispiel einer Bounding Box

In einem ersten Schritt wird das Bild in ein S x S großes Gitter unterteilt. Fällt ein Objekt in eine der Gitterzellen, ist diese Zelle für die Erkennung des Objekts verantwortlich. Dafür bestimmt jede Zelle bounding boxes und Bewertungszahl (confidence scores). Die Bewertungszahlen geben an, wie sicher sich das Modell ist, dass die Bounding Box ein Objekt beeinhaltet und wie akkurat die Box zum Objekt passt. Die Bewertungszahl ist das Gleiche wie der Schnittpunkt über die Vereinigung (intersection over union) von Vorhersage und tatsächlichem Objekt. Befindet sich kein Objekt in der Zelle, ist die Bewertungszahl gleich null. Gleichzeitig wird die Klassenwahrscheinlichkeit für jede Zelle bestimmt. Auf Basis eines bestimmten Grenzwertes, der üblicherweise bei 0,5 liegt, trifft der Algorithmus die finale Vorhersage, aus der dann die Detektion erfolgt.

Das Modell

Vorteile des YOLO Netzwerkes

Die YOLO-Objekterkennung wird als ein einziges Regressionsproblem betrachtet, was den Algorithmus extrem schnell macht und eine komplexe Netzarchitektur ausschließt. So kann ein Video in Echtzeit mit weniger als 25 ms Verzögerung verarbeitet werden. Zudem lernt YOLO verallgemeinerbare Darstellungen von Objekten. Das ermöglicht es, nach einem Training auch auf unerwartete Inputs zu testen. In der Schnelligkeit der Objekterkennung liegt das YOLO-Netz deutlich vor anderen üblichen Netzen, wie z.B. RetinaNet.

Aber auch YOLO ist nicht perfekt und weist Limitierungen auf.

 

Limitierungen von YOLO

Dadurch, dass die Anzahl der Boxen pro Zelle festgelegt ist, erkennt das Netz kleinere, nah beieinander liegende Objekte oftmals nicht. Die Genauigkeit von YOLO ist demnach üblichen Ansätzen nicht überlegen und schneidet im Schnitt sogar etwas schlechter ab.

 

Aussichten

In den vergangenen Jahren wurde YOLO stetig weiterentwickelt und durch einige Features erweitert. Der Ansatz zählt nach wie vor zur state-of-the-art Objekterkennung und ist äußerst vielversprechend.

In der sich rasant entwickelnden Welt der industriellen Automatisierung ist eine zuverlässige und flexible Objekterkennung ein Grundpfeiler für Vision-Guided Robotics (VGR) und Qualitätssicherung. Bei HD Vision Systems ist es unsere Mission, die Grenzen des Möglichen in der Automatisierung neu zu definieren. Als Vision-Partner auf der Bosch Rexroth CtrlX-Plattform bringen wir modernste Bildverarbeitungstechnologie durch leistungsstarke Apps auf den Fabrikboden, die Konnektivität vereinfachen und die Leistung verbessern.

Pattern Matching: Ein traditioneller Ansatz

Eine der häufigsten Fragen beim Entwurf von Automatisierungslösungen ist, ob traditionelle Pattern-Matching-Techniken oder moderne KI-basierte Objekterkennung verwendet werden sollen. Pattern Matching ist regelbasiert und nutzt manuell definierte Vorlagen oder geometrische Formen zur Objekterkennung. Obwohl es lange ein fester Bestandteil klassischer Bildverarbeitung war, stößt es unter realen Bedingungen oft an seine Grenzen. Änderungen in Beleuchtung, Ausrichtung, Maßstab oder selbst kleine Verdeckungen können zu Erkennungsfehlern führen. Zudem ist die Einrichtung aufwändig, erfordert Expertenwissen und lässt sich nur schwer an Veränderungen in der Produktionslinie anpassen.

Deep Learning: Intelligent und anpassungsfähig

Im Gegensatz dazu nutzt die KI-basierte Objekterkennung datengetriebene Modelle, die auf großen und vielfältigen Datensätzen trainiert wurden. Diese Modelle erkennen Objekte anhand abstrakter Muster und sind dadurch wesentlich robuster und flexibler. Sie kommen mit unterschiedlichsten Abweichungen und Unregelmäßigkeiten in industriellen Umgebungen zurecht. Mithilfe von Transfer Learning und Datenaugmentation lassen sich Modelle zudem schnell auf neue Objekte oder Bedingungen anpassen – ganz ohne komplexes Regelwerk.

Integrierte KI auf CtrlX

Wir bei HD Vision Systems setzen konsequent auf diesen modernen Ansatz und haben ihn direkt in die Bosch Rexroth CtrlX-Plattform integriert. Unsere Apps ermöglichen den Anschluss von Standard-Industriekameras gemäß dem GenICam-Standard via Ethernet. Die aufgenommenen Bilder werden von KI-Modellen direkt im CtrlX-Ökosystem verarbeitet. Die Ergebnisse sind nicht nur präzise, sondern werden auch automatisch aus 2D-Bildkoordinaten in 3D-Weltkoordinaten überführt – entscheidend für präzise Roboterführung und Qualitätssicherung.

Vor-Ort-Training und Individualisierung

Neben vortrainierten Modellen bieten wir Frameworks an, mit denen Nutzer eigene Bilddaten annotieren und individuelle Objekterkennungsnetzwerke trainieren können – komplett vor Ort, ohne Daten in die Cloud zu senden. So behalten Sie die volle Kontrolle über Datenschutz und Datensicherheit. Integratoren und Endanwender können so hochspezialisierte Erkennungslösungen entwickeln – exakt zugeschnitten auf ihre Anwendung.

Zukunftsausblick: KI für moderne Fertigung

Pattern Matching hatte seine Zeit, aber die zunehmende Komplexität moderner Fertigungsprozesse verlangt intelligentere, flexiblere Systeme. Deep Learning liefert genau das. Mit den fortschrittlichen Vision-Tools von HD Vision Systems und der Modularität der Bosch Rexroth CtrlX-Plattform stehen Herstellern leistungsstarke Objekterkennungslösungen zur Verfügung, die mit ihren Anforderungen wachsen.

Egal ob Nachrüstung bestehender Anlagen oder Neuplanung – jetzt ist der richtige Zeitpunkt, die Kraft KI-gesteuerter Bildverarbeitung zu nutzen. Wir freuen uns, Sie dabei zu begleiten.

Continue reading:

Share This