Spracheingabe für Ubuntu u. Windows mit Textüberarbeitung von ChatGPT

31. Oktober 2024 (letzte Aktualisierung am 2. November 2024)

Mit der Zeit wurde ich etwas schreibfaul und habe mir angewöhnt, die Spracheingabe auf meinem Android-Smartphone zu nutzen. Leider funktioniert diese Funktion jedoch unter den Betriebssystemen Ubuntu und Windows nicht so einfach. Nach einigem Experimentieren habe ich nun aber eine alternative Lösung gefunden, die es ermöglicht, Googles Spracheingabe über den Google Chrome-Browser zu nutzen. Herauskristallisiert hat sich beim Arbeiten ein mündlicher Dialog mit ChatGPT, der auf dem Desktop-PC oder Laptop unter Windows oder Ubuntu mit dem Webbrowser Google Chrome und dem speziell für ChatGPT geschaffenen Chrome-Plugin VoiceWave ein flüssiges und anregendes Vorgehen beim Verfassen von Textbeiträgen ermöglicht. Die Zeitersparnis ist beeindruckend. Gegen Ende des Artikels ist eine Arbeitsprobe vorgestellt.

Schritt 1: Installation von Google Chrome: Zunächst muss der Google Chrome-Browser auf dem System installiert sein. Für Windows ist dies eine einfache Angelegenheit, während es unter Ubuntu eventuell einige Schritte mehr benötigt, um Chrome zu installieren. Es ist wichtig, das Mikrofon im Browser zu aktivieren, da dies die Grundlage für die Spracheingabe-Funktion ist.

Bildschirmfoto Zu 2024 10 31 10 50 11
Der Rohtext in Google Docs, den ich mit Hilfe der Spracheingabe von Google Chrome eingegeben habe. Anschließend habe ich diesen Kauderwelsch von ChatGPT überarbeiten lassen und hier veröffentlicht, wobei ChatGPT eigene Gedanken hinzugefügt hat. Wohin soll das noch führen?

Schritt 2: Google Docs als Werkzeug für die Spracheingabe: Ein weiterer entscheidender Schritt ist die Verwendung von Google Docs, das über Google Chrome geöffnet wird. Dabei ist zu beachten, dass ein Google-Account für diese Anwendung erforderlich ist, da die Anmeldung im Chrome-Browser obligatorisch ist. Dies kann für Ubuntu-Nutzer möglicherweise ein Nachteil sein, da viele von ihnen bewusst auf Unabhängigkeit und Datenschutz setzen. Allerdings ist dies die Voraussetzung, um die Spracheingabe-Funktion von Google voll nutzen zu können.

Schritt 3: Texte strukturieren und bearbeiten:  Die Spracheingabe von Google Chrome funktioniert erstaunlich gut und ermöglicht eine zügige Umwandlung von gesprochenen Worten in Text. Der Rohtext ist jedoch oft unsauber und bedarf einer sorgfältigen Überarbeitung und Strukturierung. Hier kommt eine weitere hilfreiche Funktion ins Spiel: Über „Copy and Paste“ lässt sich der Text aus Google Docs kopieren und in ein Bearbeitungstool wie ChatGPT einfügen, das speziell für die Strukturierung und Bearbeitung von Texten geeignet ist.

Bildschirmfoto Zu 2024 10 31 10 49 41
Webseite von ChatGPT: Den Rohtext habe ich dann von ChatGPT für diesen kleinen Artikel bearbeiten und strukturieren lassen, was mir eine Menge Zeit und Arbeit ersparte.
Bildschirmfoto Zu 2024 10 31 11 21 34
Screenshot von ChatGPT als Beweis dafür, dass der hier eingesetzte Text tatsächlich von ChatGPT stammt.

Eine Lösung mit kleinen Kompromissen: Obwohl diese Methode eine zuverlässige und funktionale Spracheingabe unter Ubuntu und Windows ermöglicht, erfordert sie die Nutzung eines Google-Kontos sowie die Installation des Google Chrome-Browsers. Wer diese kleinen Einschränkungen in Kauf nimmt, erhält jedoch eine einfache und wirkungsvolle Lösung, um Spracheingaben auf dem Desktop umzusetzen.

Diesen Text habe ich übrigens ebenfalls mündlich diktiert und ihn zur besseren Lesbarkeit überarbeiten lassen.

Installation von Google Chrome unter Ubuntu: Hier ist eine einfache Methode zur Installation von Google Chrome unter Ubuntu über das Terminal. Diese Methode verwendet `wget`, um die Installationsdatei herunterzuladen, und `apt`, um sie zu installieren.

1. Herunterladen des Installationspakets: Öffne das Terminal (Strg + Alt + T) und lade die neueste Version von Google Chrome direkt von der Google-Webseite herunter, indem du folgenden Befehl eingibst:

wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb

2. Installiere Google Chrome: Nachdem der Download abgeschlossen ist, installiere das Paket mit folgendem Befehl:

sudo apt install ./google-chrome-stable_current_amd64.deb

3. Starten von Google Chrome: Nach erfolgreicher Installation kannst du Google Chrome direkt aus dem Anwendungsmenü starten oder durch Eingabe von `google-chrome` im Terminal.

Hinweis: Diese Methode stellt sicher, dass alle benötigten Abhängigkeiten automatisch installiert werden und Google Chrome optimal läuft.

Installation von Google Chrome auf Windows: Suche die offizielle Seite von Chrome und folge den Installationsanweisungen.

Dall·e 2024 10 31 11.10.44 A Sleek, Artistic Graphic Depicting The Concept Of Efficient Text Creation Through Voice To Text Technology And Ai Editing. Show A Blend Of A Modern M
Das Bild entstand durch die Nutzung einer KI-gestützten Grafiksoftware, die eine moderne und minimalistische Darstellung von Spracheingabe und KI-Bearbeitung erschafft. Es zeigt ein stilisiertes Mikrofon, das Text in Echtzeit an einen Bildschirm überträgt, unterstützt durch ein dezentes ChatGPT-Logo als Symbol für KI-gestützte Verfeinerung. Die beruhigenden Farbtöne unterstreichen den fließenden, nahtlosen Prozess der Textproduktion.

Fazit – Effiziente Texterstellung mit Google Spracheingabe und ChatGPT: Die Kombination aus der Google Spracheingabe und ChatGPT kann erheblich Zeit sparen. Durch die Spracheingabe lassen sich Ideen, Gedanken und Inhalte direkt in Text umwandeln – ohne den Aufwand des Tippens. Nach dem Diktat lassen sich die Rohtexte dann einfach in ChatGPT bearbeiten, um die Struktur zu verbessern, Absätze hinzuzufügen und das Ergebnis zu optimieren. Gerade für Nutzer, die viel Text erstellen oder ihre Gedanken schneller festhalten möchten, bietet dieser Arbeitsablauf eine beeindruckende Effizienz.

Für die Webseite von ChatGPT wäre es nur konsequent, ebenfalls eine Spracheingabe-Funktion anzubieten, so wie es die App für Android bereits erfolgreich umsetzt. Damit könnten auch Desktop-Nutzer direkt ihre Gedanken per Sprache diktieren und sofort in ChatGPT weiterbearbeiten lassen. Ob und wann diese Funktion zur Verfügung stehen wird, ist noch nicht offiziell angekündigt – aber angesichts der Beliebtheit und der Nachfrage nach sprachgesteuerten Anwendungen wäre dies eine sinnvolle Erweiterung. Für Chrome und ChatGPT gibt inzwischen schon ein Chrome-Plugin, das nachfolgend vorgestellt ist.

Bildschirmfoto Zu 2024 10 31 17 23 16
„VoiceWave: ChatGPT Voice Control“ ist ein Chrome-Plugin, das speziell für die Sprachsteuerung von ChatGPT entwickelt wurde. Es ermöglicht auch die Sprachausgabe mit der mir gewohnten Stimme von  ChatGPT.

Chrome-Plugin „VoiceWave: ChatGPT Voice Control“: „VoiceWave: ChatGPT Voice Control“ ist ein Chrome-Plugin, das speziell für die Sprachsteuerung von ChatGPT entwickelt wurde. Damit kannst Du Fragen oder Texte diktieren und sogar die Antworten von ChatGPT per Sprachausgabe vorlesen lassen – ideal, wenn Du freihändig arbeiten oder einfach eine entspanntere Unterhaltung mit der KI führen willst.

Hauptfunktionen von VoiceWave:

      1. Spracheingabe: Es erlaubt Dir, direkt in das Chatfeld zu sprechen, wodurch Deine Worte in Text umgewandelt und in ChatGPT eingefügt werden.
      2. Sprachausgabe: Das Plugin liest ChatGPTs Antworten laut vor, was gerade bei längeren Antworten praktisch sein kann.
      3. Einstellbare Sprachen und Stimmen: Du kannst verschiedene Stimmen und Sprachen für die Sprachausgabe wählen, passend zu Deinen Vorlieben.

Tipps zur Nutzung:

      • Mikrofonzugriff erlauben: Beim ersten Start wirst Du gefragt, ob die Erweiterung Zugriff auf Dein Mikrofon haben darf – das musst Du bestätigen, damit die Spracheingabe funktioniert.
      • Diktiermodus aktivieren/deaktivieren: Meist hat das Plugin ein kleines Symbol in der Browserleiste, über das Du die Spracheingabe aktivieren oder pausieren kannst.
      • Langsam und deutlich sprechen: Gerade für komplexere Wörter oder spezielle Fachbegriffe kann es helfen, etwas langsamer und klarer zu sprechen.

Diese Experimente mit VoiceVave beeindrucken mich sehr und eröffnen tatsächlich ganz neue Möglichkeiten und Perspektiven. Ich verwende also gerne das neue Plugin „VoiceWave: ChatGPT Voice Control“ in Google Chrome unter Ubuntu, und nach meinen bisherigen Erfahrungen funktioniert es ausgezeichnet.

Ich kann jetzt direkt in ChatGPT hineinsprechen und mir die Texte mit Hilfe dieses Plugins überarbeiten lassen. Wenn ich möchte, kann ich mir die überarbeiteten Texte auch mit einer angenehmen Sprachausgabe vorlesen lassen. Das funktioniert alles wunderbar!

Ich benutze dafür ein Headset und ein Mikrofon, und die Sprachverständlichkeit scheint für die Spracherkennung sehr gut zu sein. Diese neue Art der Interaktion ermöglicht es mir, effizienter zu arbeiten und gleichzeitig die Vorteile der Sprachsteuerung zu nutzen.

Ausblick für die nahe Zukunft: Dank dieser und ähnlicher Plugins, das sowohl unter Ubuntu als auch unter Windows funktioniert, habe ich umfangreiche Experimente mit der Sprachsteuerung durchgeführt. Ich habe ein Mikrofon und meine Stereoanlage angeschlossen, was die Nutzung erheblich vereinfacht. Dadurch ist es jetzt möglich, Texte für E-Mails fast mühelos einzugeben, während ich einfach spreche. Die Software überträgt meine Sprache in ein gut strukturiertes Schriftdeutsch oder in einen familiären Ton, je nach Bedarf.

Ich stelle mir vor, dass es in naher Zukunft auch Plugins für E-Mail-Programme wie Thunderbird geben wird, die diese Funktionalität bieten. Diese Entwicklung könnte die Art und Weise, wie wir kommunizieren, erheblich verändern. Es stellt sich die Frage, wie diese Technologien unsere zwischenmenschlichen Beziehungen beeinflussen und welche potenziellen negativen Auswirkungen sie auf unser Sozialverhalten haben könnten. Wenn immer mehr Menschen diese Technologien nutzen, wird die Art der Kommunikation möglicherweise oberflächlicher, und der persönliche Austausch könnte in den Hintergrund treten.

Ein weiterer Aspekt, der nicht unbeachtet bleiben sollte, ist die Zukunft von Suchmaschinen. Mit dem Aufkommen von KI-gestützten Kommunikationswerkzeugen könnten traditionelle Suchmaschinen erheblich an Bedeutung verlieren, da die Menschen zunehmend direkte Antworten und Lösungen über intelligente Systeme suchen werden.

Insgesamt eröffnet diese technologische Entwicklung sowohl spannende Möglichkeiten als auch Herausforderungen, die wir im Auge behalten sollten.

Übrigens lässt sich ChatGPT bereits in WordPress integrieren, um noch bequemer Content erzeugen zu können. Leider ist dieser Dienst nicht umsonst und deshalb konnte ich ihn auch nicht testen.

Übersetzung ins amerikanische Englisch: Schließlich habe ich mir diese Seite von ChatGPT übersetzen lassen. Dazu habe ich aus WordPress den HTML-Code herauskopiert und an ChatGPT übergeben. Das hat nicht auf Anhieb geklappt, da sich erst ein paar Fehler im HTML-Code eingeschlichen hatten: Hier die Übersetzung: https://elektronikbasteln.pl7.de/voice-input-for-ubuntu-and-windows-with-text-editing-by-chatgpt.

Meine praktische Lösung mit dem Chrome-Plugin „VoiceWave: ChatGPT Voice Control“: Ich verwende an meinem Notebook einen Audio-USB-Stick, der zwei Klinkenbuchsen hat: Eine Klinkenbuchse ist für den Ausgang, der mit der Stereoanlage verbunden ist, und die andere Klinkenbuchse dient als Mikrofoneingang, in dem das Mikrofon eines alten Headsets steckt. Das funktioniert wunderbar. Das Mikrofon lässt sich leicht in eine günstige Position für die Aufnahme verschieben.

Schreibtisch Ubuntu Chrome Chatgpt
Mein Arbeitsplatz für die Nutzung der Sprachunterstützung von ChatGPT.
Mikrofon Usb Soundkarte Klinkenstecker Kabel
USB-Soundkarten-Stick mit angeschlossenem Mikrofon eines alten Headsets. Der Audio-Ausgang des Sticks ist mit dem Tonbandeingang einer alten Stereoanlage verbunden.

Die Stereoanlage mit den Lautsprecherboxen sorgt für eine sehr gute Sprachqualität und somit für eine gute Verständlichkeit des KI-Systems.

Ich habe getestet, dass das Mikrofon etwa 15 cm von meinem Mund entfernt sein muss, was kein Problem darstellt. Ich experimentiere ein wenig, um Schwachstelle bei der Tonaufzeichnung zu beheben, da diese entscheidend ist. Zum Glück gibt es keine akustischen Rückkopplungen, weil das System Gegensprechen nicht erlaubt. Dieses Problem kennt man vom Telefon, tritt aber in diesem Fall nicht auf.

Bildschirmfoto Zu 2024 11 01 12 54 47
VoiceWave erlaubt verschiedene Steuerungsmöglichkeiten für das Ein- und Ausschalten des Mikrofons.

Genauer gesagt: Echos und Pfeifen, wie sie bei Freisprecheinrichtungen auftreten, sind hier nicht gegeben. Daher kann ich die Stereoanlage mit den großen Lautsprechern problemlos betreiben. Der warme Klang der Boxen vermittelt ein angenehme Arbeitsatmosphäre.

Arbeitsprobe mit ChatGPT und VoiceWave auf Google Chrome: Den nachfolgenden Text habe ich mir durch eine weitgehende mündliche Diskussion mit ChatGPT erstellen lassen. Dabei stammen die grundlegenden Gedanken von mir. ChatGPT hat sie strukturiert, sauber formuliert und komprimiert dargestellt.

„Digitale Betriebsarten zur Textübertragung sind im Amateurfunk seit mindestens 20 Jahren durch die digitale Signalverarbeitung weit verbreitet, und Funkfernschreiben (RTTY) gibt es sogar schon seit mindestens 40 Jahren, wenn nicht länger. Neu wäre jedoch die Verbindung dieser Betriebsarten mit moderner Spracherkennung und Sprachwiedergabe, wodurch sich ganz neue Möglichkeiten eröffnen würden, auch bei schwierigen Empfangsbedingungen präzise und fließende Gespräche zu führen. Besonders interessant wäre die Einbindung einer KI, die im QSO-Stil technische Fragen beantwortet und so als „digitaler Elmer“ fungieren könnte. Über eine API-Schnittstelle ließe sich die KI so programmieren, dass sie geltende Funkregeln einhält und technische Expertise bietet, was das Bandgespräch bereichern würde.

Ein System von Zahlencodes oder Abkürzungen, das häufige Begriffe und Standardphrasen im Amateurfunk komprimiert und dann als Klartext wiedergegeben wird, könnte die Übertragungsrate weiter optimieren. Dazu könnten auch Standardphrasen der Höflichkeit und des Smalltalks in verkürzter Form übertragen werden, was die Kommunikation noch flüssiger gestalten würde. Außerdem wäre es möglich, Texte in Echtzeit in andere Sprachen zu übersetzen, wodurch Sprachbarrieren verschwinden würden. Ein CRC-ähnlicher Code zur Fehlererkennung wäre hilfreich, um Übertragungsfehler zu vermeiden, da die KI bei Unklarheiten gezielt nachfragen könnte. Intelligente Abkürzungen, die flexibel durch Kontextverständnis aufgelöst werden, würden schnelle und effiziente Gespräche ermöglichen, ohne die zwischenmenschliche Verständigung zu beeinträchtigen. Dies könnte besonders bei komplexeren Themen oder technischen Details eine präzisere und reibungslosere Kommunikation sicherstellen.

Doch könnte dies auch eine neue Herausforderung darstellen, denn für den Funkpartner wäre nicht mehr unterscheidbar, ob es sich um einen Menschen oder eine KI handelt. Dies könnte Misstrauen und Verunsicherung erzeugen, insbesondere wenn die Enttäuschung entsteht, einen scheinbar echten Gesprächspartner nicht persönlich kennenlernen zu können. Diese Entwicklung wirft grundsätzliche Fragen auf: Wie viel Wert haben zwischenmenschliche Beziehungen über Distanzen hinweg, wenn sie durch KI ersetzbar sind? Möglicherweise müsste sich der Amateurfunk neu definieren, um diesen technologischen Wandel zu integrieren und zugleich die menschliche Komponente zu bewahren.

Insgesamt ist die Idee, digitale Betriebsarten mit moderner Technologie zu kombinieren, äußerst verführerisch, da sie die Möglichkeit bietet, hochinteressante und lehrreiche Gespräche zu führen, die das technische Verständnis der Teilnehmer fördern können. Diese Art der Kommunikation könnte dazu beitragen, sympathische und mitfühlende Gespräche nach den Regeln der Höflichkeit und gegenseitigen Rücksichtnahme zu ermöglichen, was positiv für die Gemeinschaft ist. Doch bleibt ein schaler Beigeschmack, da diese Interaktionen nicht von echten, mitfühlenden Menschen stammen. Auf Dauer könnte dies das Gefühl der Vereinsamung verstärken und, ohne echte zwischenmenschliche Kommunikation als Ausgleich, sogar zu Depressionen führen. Möglicherweise wird diese Entwicklung dazu führen, dass Funkamateure vermehrt nach persönlichen Treffen suchen, sei es in Amateurfunkclubs vor Ort oder auf Funkmessen, wo sie in direkten Kontakt mit echten Menschen treten können. Dort haben sie die Gelegenheit, sich auszutauschen und eine Verbindung zu knüpfen, die die wertvolle menschliche Komponente der Kommunikation bewahrt. Letztlich bleibt die zwischenmenschliche Interaktion unersetzlich, da wir alle noch Menschen sind, die den Kontakt zueinander brauchen.

Es ist durchaus denkbar, dass Künstliche Intelligenz (KI) in der Lage ist, meine persönliche Stimme täuschend echt nachzuahmen, sodass sie während Funkgesprächen eingesetzt werden kann. Diese Technologie hat in den letzten Jahren erhebliche Fortschritte gemacht, und KI-Modelle können mittlerweile Stimmen realistisch imitieren und sogar in Echtzeit agieren. Daraus könnte sich die Möglichkeit ergeben, dass zwei künstliche Intelligenzen über Funk miteinander kommunizieren, ohne dass Außenstehende merken, ob es sich um echte Menschen oder um Maschinen handelt. Diese Entwicklungen werfen jedoch einige wichtige Fragen auf: Wenn Gespräche nicht mehr zwischen Menschen, sondern zwischen KIs stattfinden, könnte das Vertrauen in die Kommunikation gefährdet werden. Missverständnisse könnten entstehen, wenn Teilnehmer nicht erkennen, ob sie mit einer Maschine oder einem Menschen interagieren, was die zwischenmenschliche Beziehung beeinträchtigen könnte.

Der Einsatz von KI, die menschliche Stimmen imitiert, könnte ethische Bedenken hervorrufen, insbesondere im Hinblick auf Täuschung oder Manipulation. Klare Richtlinien und Transparenz wären notwendig, damit die Teilnehmer wissen, mit wem oder was sie sprechen. Ein verstärkter Einsatz solcher Technologien könnte die echte menschliche Interaktion weiter verringern und zu einem verstärkten Gefühl der Einsamkeit führen, da persönliche Begegnungen und emotionale Verbindungen, die wir mit anderen Menschen teilen, durch Maschinen ersetzt werden. Insgesamt könnte die Vorstellung, KI-generierte Stimmen im Funkverkehr zu verwenden, sowohl innovative als auch herausfordernde Möglichkeiten bieten, die die Art und Weise, wie wir kommunizieren, revolutionieren, gleichzeitig aber grundlegende Fragen zur menschlichen Verbindung und Authentizität aufwerfen.

Durch den direkten mündlichen Dialog war die Arbeit mit dem Texten sehr anregend und ich kam mit einem Viertel der üblichen Zeit aus. Und das ist nur der Anfang einer Entwicklung. ChatGPT gibt es erst zwei Jahren zum Zeitpunkt des Erscheinens dieses Textes.