Entwicklung und Verifikation einer Sprachverarbeitung für das autonome Logistik-Fahrzeug ALF: Unterschied zwischen den Versionen

Aus HSHL Mechatronik
Zur Navigation springen Zur Suche springen
Zeile 53: Zeile 53:
Weiterhin wurde der Sprachverarbeitungsprozess in einer Wirkstruktur modelliert. Diese zeigt den Prozess des gesamten Sprachverarbeitungssystems. Dabei wird ein Audiosignal mit der vorhandenen Kinect-Sensorik aufgenommen und durch die Spracherkennungtranskribiert. Das resultierende Transkript wird einer Schlagworterkennung sowie Sprachklassifizierung unterzogen. Die Sprachsynthese gibt über den Lautsprecher des Systems entsprechende Statusinformationen
Weiterhin wurde der Sprachverarbeitungsprozess in einer Wirkstruktur modelliert. Diese zeigt den Prozess des gesamten Sprachverarbeitungssystems. Dabei wird ein Audiosignal mit der vorhandenen Kinect-Sensorik aufgenommen und durch die Spracherkennungtranskribiert. Das resultierende Transkript wird einer Schlagworterkennung sowie Sprachklassifizierung unterzogen. Die Sprachsynthese gibt über den Lautsprecher des Systems entsprechende Statusinformationen
an das Umfeld aus.
an das Umfeld aus.
Zur Umsetzung der entwickelten Wirkstrukturen werden verschiedene Entwicklungsumgebungen,
Spracherkennungssysteme und Sprachklassifikatoren eingesetzt.
Neben ROS wurden PyCharm mit der Programmiersprache Python sowie Tensorflow
und Keras eingesetzt.


=== Spracherkennung ===
=== Spracherkennung ===

Version vom 10. Januar 2021, 11:06 Uhr

Autoren: Dittmann, H.
Betreuer: Prof. Dr.-Ing. Mirek Göbel
Art: Masterarbeit
Projektlaufzeit: 04/2020 - 10/2020

Darstellung des autonomen Logistik-Fahrzeugs

Einleitung

Das autonome Logistik-Fahrzeug (ALF) ist ein Transportfahrzeug und dient als Versuchsplattform für die Entwicklung autonomer Fahrfunktionen. Das Ziel ist die automatisierte Abwicklung von Logistikprozessen an dem Standort der Hochschule Bochum. Das ALF stellt die Grundlage für verschiedene Projekte in den Bereichen des autonomen Fahrens, künstlicher Intelligenz, Model-Based Design sowie dem Model-Based Systems Engineering.

Bisherige Arbeiten am autonomen-Logistik-Fahrzeug

Das Fahrzeug wurde im Rahmen der Masterarbeit Entwicklung und Verifikation eines autonomen Logistik-Fahrzeugs von M.Sc. Dennis Hotze, M.Sc. Dominik Eickmann und Prof. Dr. Ing. Arno Bergmann an der Hochschule Bochum in Kooperation mit der Smart Mechatronics GmbH entwickelt. Nach der Entwicklung wurde in der Bachelorarbeit Implementierung einer Schlupfregelung per Model-Based Design sowie einer SLAM-Kartografierung für ein autonomes Logistik-Fahrzeug eine Driftkompensation und das Abfahren einer definierten Trajektorie bei gleichzeitiger Kartografierung der Umgebung integriert. Damit wurde die Einbindung autonomer Fahrfunktionen ermöglicht. Die vorangegangenen Arbeiten dienen als Grundlage dieses Projektes. In der Bachelorarbeit wurde das Robot Operating System (ROS) als Framework zum Datenaustausch zwischen verschiedenen Softwareartefakten eingeführt.

Motivation und Aufgabenstellung

Parallel zu der Entwicklung der Sprachverarbeitung, wurde ein Zustandsautomat entwickelt. Dieser dient zur Verwaltung von verschiedenen Betriebsmodi des Fahrzeugs, die aus der Entwicklungshistorie entstanden sind. Die Betriebsmodi behandeln verschiedene autonome Fahrfunktionen des Roboters. Die Sprachverarbeitung dient im Wesentlichen der Bereitstellung von Transitionsbedingungen für den genannten Automaten durch Sprachbefehle. Der Aufruf dieser Betriebsmodi erfolgt bisher durch Eingaben in der Eingabeaufforderung des im ALF integrierten Linux-Systems. Dabei müssen für jeden Modus verschiedene Eingaben in der Konsole getätigt werden. Der Zustandsautomat und die Steuerung dessen mit der Sprachverarbeitung vereinfachen das Anwählen dieser Betriebsmodi, da Sprachbefehle diese manuellen Eingaben ersetzen. Für diese Funktion ist es nicht notwendig, Sprache beliebigen Inhalts zu erkennen. Hinsichtlich der Aufgaben am ALF reicht ein begrenztes Vokabular, da die Anzahl der Tätigkeiten und Sprachbefehle begrenzt ist. Das Ziel ist es, dem ALF eine Interpretation von Sätzen mit definiertem abgegrenzten Inhalt (zum Beispiel "Drive to location beta" oder "Start to localize yourself in known environment" etc.) zu ermöglichen.

Umsetzung

Einordnung in die bestehende Systemarchitektur

Die Abbildung zeigt das aus der vorangegangenen Arbeit mit der CONSENS-Methode weiterentwickelten Umfeldmodell.
Die Abbildung zeigt die Wirkstruktur des Wirkelementes ALF.
Die Abbildung zeigt die Wirkstruktur des Systelements Sprachverarbeitung.

Für eine Konzeptionierung wurde die Sprachverarbeitung in das bestehende System eingeordnet. Die Einordnung der Sprachverarbeitung erfolgt mithilfe der Umfeldmodellierung aus der "Conceptual design specification technique for the engineering of complex Systems“ (CONSENS). Das Verfahren dient der Modellierung von Umfeld- und Wirkstrukturen von mechatronischen Systemen und stellt eine Methode des Model Based Systems Engineering dar. Die Einordnung in das bestehende System basiert auf der Modellierung der erwähnten Bachelorarbeit. Der Informationsfluss zwischen verschiedenen Elementen wird mit Strichpunktlinien gekennzeichnet. Eine besondere Bedeutung bekommt der Informationsfluss zu dem Umfeldelement Zustandsautomat, dieser beinhaltet die Transitionsbedingungen, um die Betriebsmodi des ALF zu steuern. Die einzelnen Elemente stellen verschiedene Softwareartefakte dar. Der Framework ROS wird angewendet, um einen Datenaustausch zwischen diesen, sowie die Integration hochautomatisierter Fahrfunktionen zu ermöglichen. Die Wirkstruktur des Elements ALF wurde um den Sprachverarbeitungsprozess ergänzt.

Weiterhin wurde der Sprachverarbeitungsprozess in einer Wirkstruktur modelliert. Diese zeigt den Prozess des gesamten Sprachverarbeitungssystems. Dabei wird ein Audiosignal mit der vorhandenen Kinect-Sensorik aufgenommen und durch die Spracherkennungtranskribiert. Das resultierende Transkript wird einer Schlagworterkennung sowie Sprachklassifizierung unterzogen. Die Sprachsynthese gibt über den Lautsprecher des Systems entsprechende Statusinformationen an das Umfeld aus.

Zur Umsetzung der entwickelten Wirkstrukturen werden verschiedene Entwicklungsumgebungen, Spracherkennungssysteme und Sprachklassifikatoren eingesetzt. Neben ROS wurden PyCharm mit der Programmiersprache Python sowie Tensorflow und Keras eingesetzt.

Spracherkennung

Die Spracherkennung verarbeitet eine Tonspur zu einem Transkript, zu diesem Zweck ist eine Sprachaufnahme von Nöten. Die Tonspur wird mit einem Mikrofon der vorhandenen Kinect-Sensorik aufgenommen und in das ROS-Netzwerk veröffentlicht. Ein Spracherkennungssystem abonniert und transkribiert nachfolgend die Sprachaufnahme und stellt das Transkript ebenfalls in dem Netzwerk bereit.

Sprachklassifikation

Evaluation

Metriken und Datensatz

Ergebnisse am Testdatensatz

Verifikation des Datensatzes

Fazit und Ausblick


→ zurück zum Hauptartikel: Studentische Arbeiten