Bildnachweis: Artem Morgunov.
Allein in den letzten 10 Jahren hat sich die Nachfrage nach Übersetzungen mehr als verdoppelt. Um den steigenden Bedarf nach übersetztem Content zu decken, ist KI allen voran in der textbasierten Übersetzung kaum mehr wegzudenken. Das deutsche KI-Unternehmen GalaxyVoice.ai hat eine Technologie für personalisierte Echtzeitübersetzung entwickelt, die nun in gesprochener Kommunikation, Videoanrufen und Sprachnachrichten eingesetzt wird.
Neue Qualität im Wachstumsmarkt für maschinelle Übersetzungen
Ob im geschäftlichen Kontakt oder für den privaten Austausch – internationale Verflechtungen und mit ihr der Bedarf an zuverlässiger Übersetzung nehmen kontinuierlich zu. Das zumindest suggerieren Zahlen des digitalen Branchenverbandes Bitkom, denen zu Folge die Nachfrage nach Übersetzungen sich den in den letzten 10 Jahren verdoppelt hat. Die Medienplattform PR Newswire geht gar von einer durchschnittlichen Wachstumsrate von 11,8% des globalen Marktes für maschinelle Übersetzungen aus. Bis zum Jahr 2027 soll der Sektor ein Volumen von mehr als 305 Milliarden US-Dollar umfassen. Diese Schätzung könnte sich am Ende sogar als zu konservativ erweisen. Denn wie viel innovatives Potenzial in dem Wirtschaftssektor steckt, zeigt nicht zuletzt die erfolgreiche deutsche Entwicklung für eine Technologie zur personalisierten KI-Echtzeitübersetzung. Das Tool ermöglicht es, gesprochene Worte in Sekundenbruchteilen in 30 verschiedene Sprachen zu übersetzen. Es kann sicherlich als technologischer Durchbruch bezeichnet werden. Auch weil der KI-generierte Output Stimmfarbe und Duktus seines Sprechers übernimmt.
Voice Cloning trifft auf leistungsstarke Übersetzung
„Wir eliminieren die internationalen Sprachbarrieren“, gibt sich Artem Morgunov überzeugt. Er ist Co-Founder des Unternehmens GalaxyVoice.ai, das die Übersetzungs-KI realisiert hat. Die Initialzündung für das Projekt, so berichtet der Business Manager, kam, nachdem seine Frau bei einem internationalen Kundenservice auf Verständigungsprobleme stieß. „Der Sachbearbeiter hatte einen starken Akzent, sodass wir sein Englisch nicht wirklich verstanden. Da dachte ich mir: Das geht besser.“ Mittlerweile sei es möglich, „mit nur 15 Sekunden Audiomaterial eine authentische Kopie der eigenen Stimme zu erstellen“, unterstreicht Morgunov die enormen Fortschritte beim Voice Cloning.
Verbunden mit einer leistungsfähigen KI-Übersetzung entstand die Technologie, die sich als Feature über API-Schnittstellen leicht im Back-End anderer Programme anbinden lässt. Die Resultate sind teils beeindruckend. Menschen, die ihre Sprechfähigkeit verloren haben, können über Voice Cloning ihre alte Stimme für sich sprechen lassen. Doch im Verbund mit der Übersetzungsfunktion sieht Morgunov weitere Anwendungsbereiche, die weit über die Health Care Branche hinausgehen. „Mit der Anbindung unserer Technologie in Messenger Apps oder Videokonferenz Tools können Millionen von Nutzern von persönlichen Simultanübersetzungen profitieren,“ umreißt er einen der größten Benefits.
Nach dem europäischen AI-Act: Wie sicher ist Sprach-KI?
Wo Licht ist, ist bekanntlich auch Schatten: Von Telefonbetrug mit simulierten Stimmen, von nahen Verwandten bis hin zu politischer Instrumentalisierung von Audio-Deepfakes wie im Fall von US-Präsidenten Joe Biden. Mit der neuen Qualität in der KI-Übersetzung stellt sich auch die Frage nach der Prävention von Missbrauch mit neuer Dringlichkeit. Gründer Morgunov begrüßt deshalb die im Mai verabschiedete KI-Verordnung als ersten regulatorischen Rahmen und pflichtet bei: „Wir sehen die Gefahr. Deshalb muss es strenge Regeln geben.“ Schon vor Inkrafttreten des AI-Acts hat das Unternehmen eine 2-Faktor-Authentifizierung implementiert. So wird vor der Übersetzung geprüft, ob die verwendete Stimme wirklich von einem Menschen stammt oder nicht bereits KI-generiert wurde und ob sie mit jener der registrierten Person tatsächlich übereinstimmt.
Education, Entertainment, B2B: Der Impact des KI-Übersetzers
Nach jüngsten Daten des statistischen Bundesamtes nutzt erst jedes achte Unternehmen KI für sein Geschäft, ein Großteil davon kommt im Bereich Controlling und Finanzen zum Einsatz. Angesichts der großen Fortschritte in der Echtzeitübersetzung dürfte sich zumindest im internationalen Business schon bald der nächste KI-Wachstumsmarkt eröffnen. KI-Unternehmer Morgunov jedenfalls blickt bereits über den Tellerrand der Übersetzungsbranche hinaus. „Im Bereich Education können User die richtige Aussprache mit ihrer eigenen Stimme lernen“, nennt er nur ein Beispiel. Mit automatisierter Synchronisation für Videos sei sogar in ein bis drei Jahren zu rechnen.
Der Anfang vom Ende aller Sprachbarrieren
Auch bei GalaxyVoice.ai arbeitet man bereits an den nächsten Schritten. Für die bestmögliche Synergie und Reichweite soll die Technologie im Rahmen eines M&A-Deals über das Beratungsunternehmen Athys Capital Advisors verkauft werden, an das sich Interessenten wenden können. Parallel arbeitet man an weiteren Features. So soll die Anwendung schon bald Kontext und Absichten seiner Nutzer verstehen können, um ähnlich wie bei Apples Siri intelligente Befehle umzusetzen.
Live-Anrufe mit Echtzeit-KI-Unterstützung
Benutzer können Galaxyvoice während Live-Anrufen mit einem Befehl wie „Hey Galaxyvoice“ aktivieren, um Aufgaben und Übersetzungen in Echtzeit durchzuführen. Zum Beispiel kann ein Benutzer während eines Anrufs sagen: „Hey Galaxyvoice, fasse unseren Geschäftsplan jetzt auf euphorischem Japanisch zusammen.“ Galaxyvoice erstellt die Zusammenfassung innerhalb von Sekunden und liest sie in der eigenen Stimme des Benutzers mit der gewünschten Emotion vor. Dies eliminiert die Notwendigkeit, die richtigen Worte zu finden, um etwas zusammenzufassen oder zu erklären, da die KI diese Aufgabe besser als Menschen erledigen kann.
Ein herausragendes Feature ist die persönliche Wissensbasis, in der Benutzer große Mengen an Dateien und persönlichen Informationen hochladen können, sodass die KI alle relevanten Informationen für ihre individuelle Rolle in einer Organisation kennt. Dies ermöglicht eine nahtlose und effiziente Kommunikation während Live-Anrufen.