Speech-To-Text Demonstrator

Ein Erfahrungsbericht von Ole Rönna

Ohne Renderfarm kein Praktikum

Von Februar bis Juni 2021 habe ich zusammen mit einem großen Unternehmen für Bahninfrastruktur nach einer technischen Umsetzung auf Basis künstlicher Intelligenz für einen Speech-To-Text Demonstrator geforscht. Dazu wurden verschiedene Experimente mit sogenannten Deep Neural Networks durchgeführt. Dieses Vorgehen nennt man Machine Learning und es erfordert spezielle Hardware, da hier Daten in hohem Maße parallel verarbeitet werden, im Gegensatz zu konventionellen PC’s, die Informationen sehr schnell sequenziell verarbeiten. Durch die gute Vernetzung an der HAW-Hamburg Hochschule wurde ich schnell und herzlich in der Machine Learning AG des Creative Space for Technical Innovations (CSTI) aufgenommen. Ohne dessen leistungsfähige Serverhardware, hätte ich die notwendigen Experimente im Praktikum nicht durchführen können.

 

Ohne Renderfarm keine Bachelorarbeit

Das Unternehmen war mit den Ergebnissen des Praktikums sehr zufrieden. Es hat großes Interesse am Thema Künstliche Intelligenz und Sprachassistenz Systemen. Die langfristige strategische Orientierung der Firma bedeuten für uns Studenten Plätze für Abschlussarbeiten, Praktika und eventuell Jobaussicht. So schreibe ich gerade aufbauend auf den Ergebnissen des Praktikums meine Bachelorarbeit im Unternehmen. Wir trainieren nun ein speziell ausgesuchtes Deep Neural Networkmit verschiedenen Parametern und Optimierungen und evaluieren die Ergebnisse. Die Anforderungen an die Hardware hierbei sind nun ungleich höher, als im Praktikum. Das Modell wird mit über 3000 Stunden Audio Dateien trainiert. Hier kommt der neue sehr leistungsfähige Server in der CSTI Renderfarm A100 genau richtig. Kein anderer Server hat die Kapazität die über 450 Gigabyte Trainingsdaten im Arbeitsspeicher aufzunehmen (typische Workstations haben momentan 16 – 32 Gigabyte Arbeitsspeicher). Hinzu kommen über 200 Gigabyte temporärer Daten.Während die eigentlichen Audiodateien sehr schnell in den vier A100 GPUs des Servers verarbeitet werden, bereiten die 64 CPU Kerne die nächsten Stapel Samples vor.Mit der von der Renderfarm bereitgestellten Serverpower konnte das Modell erfolgreich trainiert werden. Das trainierte Modell wird in einem Demonstrator verwendet, der das Transkript eines LiveAudio-Streams anzeigt. Es bietet dem Unternehmen damit ein Anwendungsbeispiel, der Fortschritt und Potential der Technologie greifbar macht und notwendige nächste Schritte (Gelder) plausibler erscheinen lässt.

Ole Rönna, Student Elektro- und Informationstechnik, HAW-Hamburg