So funktioniert Speech-to-Text in openHAB 3.4!

Im vorigen Blogeintrag haben wir uns die allgemeinen Funktionen und Keyword Spotting (KS) etwas genauer angeschaut. In diesem Artikel geht es mehr um die technischen Aspekte, das Zusammenspiel mit KS und die Implementierung für meine ersten Tests mit openHAB 3.4.

Speech-to-Text ist eine neue Funktion in openHAB 3.4, die Sprachbefehle in Text umwandelt. So kann openHAB zum Beispiel Befehle ausführen oder Informationen anzeigen, wenn man sie laut ausspricht. In diesem Artikel wird erklärt, wie Speech-to-Text funktioniert und wie es eingerichtet werden kann.

Allgemeine Einführung in die Sprachsynthese

Sprachsynthese ist ein Verfahren zur Umwandlung von Text in natürlich klingende Sprache. Sie wird als Teil von Text-to-Speech-Technologien (TTS) verwendet, die es Benutzern ermöglichen, Text von einem Computer oder einer anderen Quelle auszusprechen. Die Technologie wird in verschiedenen Anwendungsbereichen eingesetzt, z.B. als Kommunikationshilfe für Seh- oder Hörbehinderte oder als menschliche Stimme im Internetradio oder in Videospielen.

Dank der neuen openHAB 3.4 Version ist es nun möglich, Speech-to-Text (STT) zu verwenden, um den Zugang zu Ihrer intelligenten Heimautomation zu vereinfachen und zu verbessern. Mit STT können Sie Befehle mit Ihrer Stimme an openHAB senden und erhalten sofort eine Antwort, ohne sich an technische Details erinnern zu müssen. Das bedeutet, dass Sie sich keine Sorgen mehr darüber machen müssen, ob Sie den richtigen Befehl geben, um Ihre Geräte zu steuern. STT macht es viel einfacher.

Mit der Einrichtung von STT in openHAB 3.4 können Sie jetzt einfach mit Ihrem Smart Home System interagieren und die Vorteile der neuesten Technologie genießen – ohne lange nach technischen Details suchen zu müssen! Der Zugriff auf intelligente Geräte war noch nie so einfach: Mit STT brauchen Sie nur Ihre Stimme zu benutzen!

Welche Funktionen hat Speech-to-Text in openHAB 3.4?

openHAB 3.4 enthält eine innovative Funktion namens Speech-to-Text (STT), die eine neue Art der Interaktion mit Ihrem intelligenten Zuhause ermöglicht. Mit STT können Sie das System anweisen, bestimmte Aufgaben auszuführen, z. B. das Licht ein- und auszuschalten, die Temperatur zu regeln oder Musik abzuspielen. Mit openHAB 3.4 ist es jetzt noch einfacher, Ihr Zuhause zu steuern und zu überwachen.

Speech-to-Text (STT) ist eine Technologie, die es Menschen ermöglicht, Geräte mit ihrer Stimme zu steuern. Mit openHAB 3.4 bietet STT einige neue Funktionen, die Ihnen helfen, das Beste aus Ihrem Smart Home herauszuholen.

Zum Beispiel kann STT in openHAB 3.4 verwendet werden, um Geräte zu steuern und automatische Aktionen auszulösen. Wenn Sie zum Beispiel „Licht an“ sagen, kann openHAB 3.4 Ihnen helfen, den Schalter für das entsprechende Gerät an diesem Ort einzuschalten. Sie können auch komplexere Befehle ausführen, indem Sie dem System eine Kette von Befehlen geben – zum Beispiel: „Licht an im Schlafzimmer und Heizung auf 25 Grad“. Mit openHAB 3.4 können Sie viele verschiedene Geräte und Apparate steuern, ohne sich um die spezifischen Details kümmern zu müssen.

openHAB 3.4 verfügt über weitere interessante Funktionen im Bereich Speech-to-Text (STT), die Ihnen helfen können, noch mehr aus Ihrem Smart Home herauszuholen – wie z.B. die Unterstützung von natürlichsprachlicher Interaktion oder die Integration von Multiroom-Systemkontrolle über Spracheingabe. All dies macht STT in openHAB 3.4 zu einem unverzichtbaren Bestandteil jedes modernen Smart Home und gibt Ihnen noch mehr Möglichkeiten, Ihr Zuhause intelligenter zu machen als je zuvor!

Wie kann man Speech-to-Text in openHAB 3.4 nutzen?

Die Verwendung von Speech-to-Text (STT) ist in den meisten modernen Smart Home Systemen üblich und eine großartige Möglichkeit, Ihr Zuhause noch intelligenter zu machen. Mit openHAB 3.4 ist es jetzt möglich, STT auf einfache Weise zu implementieren. Wir erklären Ihnen, wie das am besten funktioniert.

Vorbereitung

Bevor Sie STT mit openHAB 3.4 verwenden, müssen Sie sicherstellen, dass alle Hardware-Komponenten korrekt installiert und konfiguriert sind. Dazu gehören Router, Mikrofone und Lautsprecher sowie die notwendige Software. Nach der Installation können Sie mit der Konfiguration des STT-Systems beginnen.

Keyword Spotting

Das Keyword Spotting basiert auf der Open Sourc Library Rustspotter und kann vorab hier getestet werden. Die Einrichtung des Keyword Spotting (KS) wird hier beschrieben.

In meiner Umgebung habe ich das wie folgt umgesetzt:

Settings – Other Add-ons – Rustspotter Keyword Spotter – INSTALL
Konfiguration über
- http://IP:PORT/settings/services/org.openhab.voice.rustpotterks
- Einstellungen – Rustspotter Keyword Spotter
Magic Word Configuration
- Die Konfiguration kann über Rustspotter CLI generiert werden oder aus der Web-Demo übernehmen
- Konfiguration aus Website – guten_morgen-de_DE.rpw (umbenennen nach guten_morgen.rpw)
  - Kopieren nach \\IP\openHAB-userdata\rustpotter

Nun noch die KeywordSpotter.items erstellen:

// 08.02.2023 - Konfiguration für Rustspotter mit openHAB 3.4.1
Switch KeywordSpotterDialog "Keyword-Spotter Dialog Item"

Settings – Sprache (http://IP:PORT/settings/services/org.openhab.voice)
- Keyword-Spotter = Rustspotter
- Magisches Wort = guten morgen (guten_morgen.rpw)
- Listening Switch – KeywordSpotterDialog auswählen (Neustart der Dienste für Erkennung notwendig)

Text To Speech

Zuerst müssen Sie die Text To Speech (TTS) Option in Ihrem openHAB 3.4 installieren. Diese Option ermöglicht es Ihnen, Befehle über Sprachbefehle an Ihr Smart Home zu senden und diese an die entsprechende Hardware weiterzuleiten. Dazu benötigen Sie eine spezielle Erweiterung für openHAB 3.4, die dem Mikrofon oder Lautsprecher entspricht, den Sie verwenden möchten. Sobald diese installiert ist, stehen Ihnen eine Vielzahl von Befehlen zur Verfügung, mit denen Sie Ihr Smart Home steuern können.

Nach der Aktivierung von TTS können Sie nun Speech-to-Text (STT) in openHAB 3.4 verwenden, um auf natürliche Weise Befehle an Ihr Smart Home zu senden – ohne manuelle Eingabe am PC oder Smartphone! Um Text in Sprache umwandeln zu können, benötigen Sie allerdings ein spezielles Plugin für openHAB 3.4, das direkt aus dem offiziellen Repository heruntergeladen werden kann. Nachdem Sie das Plugin installiert haben, müssen Sie noch einige Konfigurationsschritte durchführen – aber keine Sorge: Folgen Sie einfach den Anweisungen im Plugin und schon bald ist STT einsatzbereit!

Nun haben Sie alles Nötige getan, um Speech-to-Text (STT) in openHAB 3.4 verwenden zu können! Jetzt müssen Sie nur noch loslegen und auf natürliche Weise Befehle an Ihr Smart Home senden – sei es um das Licht auszuschalten oder Musik abzuspielen – STT macht es möglich! Mit openHAB 3.4 haben Sie jetzt die Möglichkeit, Ihr Zuhause dank der leistungsstarken Spracherkennungstechnologien noch intelligenter zu machen!

Mary Text-To-Speech

Auf dieser Seite findet Ihr die Beschreibung zur Installation.

Settings – Other Add-ons – Mary Text-to-Speech – INSTALL
Settings – System Services – Sprache …
- … Text-to-Speech Service – MaryTTS
- … Stimme – MaryTTS – Deutsch – bits1-hsmm

Speech-To-Text

Der SST Dienst wird von Vosk genutzt. Das ist derzeit der einzige SST-Dienst in openHAB, der auch offline funktioniert.

Speech-to-Text (STT) einrichten
Settings – Other Add-ons – Vosk Speech-To-Text – INSTALL
Konfiguration über
- http://IP:PORT/settings/services/org.openhab.voice.voskstt
- Einstellungen – Rustspotter Keyword Spotter

Folgende Library muss noch installiert und kann wie folgt geprüft werden:

pi@openhabpi:~ $ sudo apt install libatomic1
Paketlisten werden gelesen... Fertig
Abhängigkeitsbaum wird aufgebaut.
Statusinformationen werden eingelesen.... Fertig
libatomic1 ist schon die neueste Version (8.3.0-6+rpi1).
0 aktualisiert, 0 neu installiert, 0 zu entfernen und 0 nicht aktualisiert.

Nun nimmt man die Konfiguration des Models vor
- https://alphacephei.com/vosk/models
- vosk-model-small-de-0.15 (45 MB)
- <openHAB userdata>/vosk/ in „model“ umbenennen
Die weitere Konfiguration läuft wie folgt
- Speech to Text Configuration
  - http://IP:PORT/settings/services/org.openhab.voice.voskstt
- Default Speech-to-Text Configuration
  - http://IP:PORT/settings/services/org.openhab.voice
  - Settings – System Services – Voice – Set Vosk as Speech-to-Text

HAB Speaker

Für den Test der Sprachfunktionen, gibt es im openHAB Marktplatz das Addon „HABSpeaker“. Details könnt Ihr hier im Forum lesen. Mit dem HABSpeaker ist es möglich, ohne weitere externe Hardware / Mikrofone die Konfiguration in openHAB zu testen.

Settings – Other Add-ons – HAB Speaker – INSTALL
Destkop-Client oder Mobile-Client (nur Android-APK) möglich
- HAB Speaker Mobile App v0.0.19 – APK – installieren
- Die Software findet ihr hier und die Dokumentation dort
Für den Zugriff auf HABSpeaker muss am Profil des Users ein API-Token generiert werden
Danach wird noch ein Thing für die Verwendung erstellt

Client (App, Desktop, Web-Client)

Die Nutzung der Android-App hat bei mir leider nicht zufriedenstellend funktioniert, kann aber wie folgt eingerichtet werden:

Konfiguration in Android-App
- Speaker Id: openHAB
- OpenHAB URL: http://IP:PORT
- OpenHAB API Token (siehe vorherige Erstellung)

Ich bin dann auf den Desktop-Client per Web umgestiegen. Hier konnte ich über mein Headset / Mikrofon die Funktionen einfach im Web-Browser testen:

ACHTUNG: Die Verwendung muss zwingend über HTTPS gehen wegen den Tonaufnahmen
Konfiguration im Browser …
- … https://IP:PORT/
- … https://IP:PORT/habspeaker

Fazit

Eigene Nutzung

Die Spracherkennung funktioniert in deutscher Sprache über den Browser sehr gut und wäre für meine Anwendung auf jeden Fall ausreichend. In Kombination mit dem Keyword Spotting hat mich der Funktionsumfang nicht ganz überzeugt.

Für mich ist derzeit kein Anwendungsfall für unser SmartHome erkennbar. Dazu müsste ich zunächst unsere Amazon Alexa / Echo Devices durch andere Lautsprecher ersetzen. Das ist aber derzeit nicht geplant.

Für einen Anwendungsfall von KS / STT / TTS für Personen, die keine Online / Amazon Erkennung im Haus haben möchten, ist dies aus meiner Sicht eine gute Lösung.

Allgemeines Fazit

Wenn Sie openHAB 3.4 verwenden, können Sie Ihr Haus vollständig per Sprache steuern. Speech-to-Text (STT) ermöglicht es, Befehle zu formulieren und einzugeben, ohne den Bildschirm zu berühren oder die Tastatur zu benutzen. Dies ist eine sehr nützliche Funktion für Menschen, die zum Beispiel ihr Haus nicht selbst bedienen können.

STT ist sehr einfach einzurichten und funktioniert reibungslos. Mit dem Softwarepaket openHAB 3.4 können Sie Sprachbefehle über Ihr Smartphone senden und ausführen. Die Installation ist schnell und einfach und der Benutzer hat sofort Zugang zu allen Funktionen des Systems.

Allerdings gibt es einige Einschränkungen bei der Verarbeitung von Text. Die Verarbeitung mit Spracherkennungssoftware ist oft fehleranfällig und es kann schwierig sein, lange Sätze oder komplexe Anweisungen zu verstehen. Um dies zu verbessern, kann es notwendig sein, zusätzliche Sensoren oder Komponenten hinzuzufügen, um das System zu konfigurieren und zu optimieren.

Zusammenfassend kann gesagt werden, dass Speech-to-Text (STT) eine sehr nützliche Technologie ist, um openHAB 3.4 effektiv zu nutzen und das Heimnetzwerk per Sprache zu steuern. Sie ist einfach zu installieren und bietet dem Benutzer viel Komfort bei der Bedienung des Systems. Es gibt jedoch einige Einschränkungen bei der Textverarbeitung und es können zusätzliche Komponenten oder Sensoren erforderlich sein, um das System optimal zu nutzen.