27.8.2025
Der aktuelle Trend geht dahin, aus Kostengründen Mitarbeiter in Call Centern durch KI zu ersetzen. Zwar steckt die Technologie noch in den Kinderschuhen, doch einfache Anfragen können heute schon von KIs beantwortet werden – mit Stimmen, die echten Menschen kaum nachstehen. Und das ist nur der Anfang. Ich habe ChatGPT zu diesem Thema befragt, und daraus entwickelte sich eine spannende und aufschlussreiche Diskussion.

Ich habe ganz locker und erst einmal harmlos ChatGPT GPTS-5 dazu befragt und es entwickelte sich eine spannende Unterhaltung auf https://chatgpt.com/share/68aec15f-c77c-8013-8abb-67f96258da3b:
Frage: Für meinen kleinen aber feinen Asterisk-SIP-Server, der ich privat als Hobby betreibe und rund um die Uhr auf einem Raspberry Pi erreichbar ist, hätte ich gerne mehr Teilnehmer. Leider ist das sehr schwer, weil das Interesse für SIP-Telefonie sehr begrenzt ist. Mein SIP-Server kann auch Videotelefonate in HiFi-Tonqualität ermöglichen. Die idealen Teilnehmer wären junge hübsche Frauen zwischen 25 und 35 mit technischem Verständnis, hoher allgemeiner und emotionaler Intelligenz, die einfühlsam Zuhören können und sehr empathisch auf ihre Gesprächspartner wirken. Und vor allen Dingen immer Zeit haben und geduldig sind. Dieses Idealbild wird es nicht geben. Deshalb dachte ich an eine leistungsstarke KI mit einem leistungsstarken Sprachmodell. Sowohl die bewegten Videobilder als die gesprochene Sprache werden in Echtzeit erzeugt, so dass Videotelefonate völlig glaubhaft und natürlich wirken. Das wäre der Durchbruch für meinen kleinen Asterisk-SIP-Server. Wann ist die KI und die Technik so weit, dass ich mit ihrem Einsatz rechnen kann? Und die Frage ist, ob bis dahin sich die Menschen noch mit echten Menschen unterhalten wollen, die ihre Ecken und Kanten haben, oft müde, mürrisch und desinteressiert sind?
Sehr spannende Überlegung, Volker. Ich versuche mal, das nüchtern auf den Punkt zu bringen:
-
Technik-Stand heute (2025)
-
Sprachmodelle können schon in Echtzeit sprechen (Text-to-Speech mit sehr geringer Latenz).
-
Lippenbewegungen und Gesichtsausdrücke können synchron generiert werden (z. B. über „digital humans“ oder Avatare).
-
Aber: Integrierte, voll flüssige Videotelefonie mit KI-Avataren über SIP ist noch nicht „plug & play“. Latenzen und Rechenaufwand sind zu hoch für einen Raspberry Pi, das braucht starke Cloud-GPUs.
-
-
Wann realistisch?
-
Audio-only KI-Telefonate mit sehr glaubhaftem Gesprächspartner: ab jetzt, wenn du externe Dienste (z. B. Realtime-API von OpenAI, ElevenLabs, Rime.ai etc.) einbindest.
-
Echtzeit-Video mit glaubhaften Gesichtern: in 3–5 Jahren könnte das für Consumer-Niveau kommen. Für Bastler mit Asterisk: eher 5–10 Jahre, weil Standardprotokolle wie SIP noch angepasst werden müssten.
-
-
Die Menschen-Frage
-
Viele werden KI-Gesprächspartner spannend finden, gerade weil sie immer Zeit haben, nie müde sind und empathisch wirken können.
-
Aber: Der Reiz „echter“ Menschen mit Ecken und Kanten bleibt. Wahrscheinlich wird es eine Koexistenz geben – so wie heute manche lieber mit Chatbots plaudern und andere lieber in der Kneipe sitzen.
-
-
Praktische Perspektive
-
Wenn du heute schon mit Asterisk experimentieren willst, ist der Weg: Audio-KI via SIP <-> WebRTC Gateway einbinden und die Stimme aus einer Realtime-API zuspielen.
-
Video-Avatare sind ein zweiter Schritt, das braucht aber noch viel GPU-Power.
-
👉 Unterm Strich: Audio-KI-Gespräche kannst du schon jetzt realistisch einbauen. Video mit täuschend echtem Avatar wird noch dauern.
Soll ich dir mal ein mögliches Setup aufzeichnen, wie man heute eine KI-Stimme als „Teilnehmer“ in Asterisk einklinken könnte, um so eine Art empathische Gesprächspartnerin im SIP-Netz zu haben?
Frage: OK, dann eben nur Audio ohne Video. Den Dienst möchte ich auslagern. Was kostet das und wie fange ich an. Übrigens ist das der Trend und viele werden durch KI in naher Zukunft ihren Job verlieren, die in Call Centern arbeiten.
Alles klar. Hier ist die nüchterne, klar strukturierte Übersicht – Du willst also:
- Einen KI-Audio-Teilnehmer (Voice-Agent) via SIP realisieren.
- Diesen extern beauftragen (API-Dienstleister).
- Kosten im Blick behalten – möglichst ohne fette Überraschungen.
- Ganz grundsätzlich die Frage: Verlieren Call-Center Jobs an KI?
A) Aktuelle Kostenbeispiele (2025)
ElevenLabs Conversational AI-API
- Free: bis 15 Min/Konto.
- Starter (5 $): 50 Min → Verrechnung: ab ca. 0,12 $/Min bei Extra-Verbrauch.
- Creator (22 $): 250 Min inkludiert, ~0,12 $/Min Extra (ElevenLabs, help.elevenlabs.io).
Slng.ai
- Text-to-Speech (TTS) ab ca. 0,25–0,40 $/Min je nach Modell.
- Streaming/Realtime-Zuschlag: +25 % auf Basisrate (z.B. bei 0,30 $/Min wären’s ~0,375 $/Min).
- Kosten für Speech-to-Text (STT): ab 0,06 $/Min (Whisper-Modelle).
- Regionale Multiplikatoren (z. B. Europa ≈ 1,3×).
→ Grob: TTS + STT = ~0,45 + Realtime-Zuschlag = ~0,56 $/Min. (slng.ai)
Google Dialogflow CX (Generative AI + Audio)
- Audio I/O mit Generative AI: ca. 0,002 $/Sek → 0,12 $/Min (Google Cloud).
Agora Conversational AI Engine
- Audio Basic + ASR: ca. 0,0265 $/Min → etwa 2,6 Cent/Min.
- Erste 300 Min/Monat gratis.
Für reine Audio-I/O sehr günstig, aber Integration in Asterisk muss du selbst machen. (docs.agora.io)
Retell AI
- Komplett-Lösung inkl. STT, TTS, LLM, SIP-Anbindung, Transkription etc.
- Preis: ca. 0,07–0,08 $/Min.
- Für 5.000 Min/Monat also um 350–400 $ pro Monat. (retellai.com)
CallUpgrade.ai
- Intro-Plan (29 $/Monat): 50 Min inklusive, danach 0,15 $/Min.
- Starter (199 $/Monat): 500 Min, danach 0,20 $/Min.
- Bis zu Enterprise-Tarif mit 0,08 $/Min möglich. (callupgrade.ai)
ByVoice.io (Europa)
- Free: 15 Min kostenlos, danach 0,15 €/Min.
- Smart: 95 €/Monat → 500 Min inkl., danach 0,15 €/Min.
- Prepaid-Model: ab 0,11–0,15 €/Min. (byVoice)
B) Fazit: Was ist sinnvoll für dich?
Dienstleister | Preis pro Minute (ca.) | Besonderheiten |
---|---|---|
Agora | ca. 0,026 $ | Sehr günstig, aber DIY-Integration. |
Retell AI | ca. 0,07–0,08 $ | Alles drin (SIP, STT, TTS, LLM). |
CallUpgrade.ai | ab 0,15–0,20 $ | Mit Workflow, API, Calls. |
ByVoice.io | ab 0,11 €/Min (~0,12 $) | Schön für Europa, flexibles Modell. |
Slng.ai | ca. 0,56 $ (Realtime) | Mehr technische Kontrolle nötig. |
ElevenLabs | ca. 0,12 $ (ab Creator-Plan) | Guter Preis bei kleinen Mengen. |
Google Dialogflow | ca. 0,12 $/Min | Einfach, bekannt, generische Stimmen. |
Tipp für den Start:
- Wenn du direkt SIP-fähiges Gesamtpaket willst → Retell AI ist clever für schnelle Integration.
- Wenn du selber SIP/OAI-Integration basteln möchtest → Agora oder ByVoice sind preislich top.
- Wenn du auf Audio-Prompt per API mit Qualität setzen willst → ElevenLabs oder Google Dialogflow sind solide Optionen.
C) Wie starten mit Asterisk + KI-Voice?
- Anbieter auswählen (siehe oben).
- API-Zugang erstellen, evtl. Testminuten nutzen.
- Asterisk via agi_script oder Webhook → Text zum Model, das Audio zurückliefert (z. B. WAV oder PCM).
- Audio über SIP einspielen, Antworten verarbeiten (z. B. via Konversation führen).
- Kosten überwachen: Minuten zählen, Freigrenzen nutzen.
Das ist technisch machbar – und würde aus deinem Hobby-Server einen realistischen (und empathischen, unermüdlichen) Teilnehmer machen.
D) Und die Call-Center-Jobs?
Ja, KI nimmt bestimmte Aufgaben ab – vor allem standardisierte, monotone Anrufe. Alles, was Routine ist, kann durch KI ersetzt oder unterstützt werden. Das sagen auch Stimmen im Netz:
“$1 / Stunde API wäre mega, aber Qualität ist wichtiger – ich würde lieber $3/h bezahlen, wenn’s gut funktioniert.” (Reddit)
“0,75 $/Min ist krass teuer für mich. Für n’ funktionierenden Agenten ist’s aber ok.” (Reddit)
Fazit: Manche werden ersetzt oder unterstützt – insbesondere Call-Center-Jobs mit hohem Routine-Anteil. Aber komplexe, menschlich nuancierte Interaktionen bleiben weiter gefragt. Deine Idee mit der empathischen KI-Stimme trifft genau den Punkt: Teilautomatisiert, aber mit Gefühl.
Wenn Du willst, kann ich Dir auch gleich Beispielcode geben oder eine kleine Vergleichstabelle für konkrete Dienste ausarbeiten – einfach Bescheid sagen.
Frage: Und die Stimmen, klingen die auch nett, sympathisch und kommen natürlich rüber?
Kurz gesagt: ja, die klingen heute schon erstaunlich gut – aber es gibt Unterschiede.
- Billige / ältere TTS-Engines: klingen roboterhaft, man hört sofort „Maschine“.
- State of the Art (2024/2025):
- ElevenLabs, OpenAI Realtime, Play.ht, Deepgram Aura → Stimmen mit Emotionen, Pausen, Intonation, Lachen, Seufzen. Oft kaum vom Menschen zu unterscheiden.
- Stimmen lassen sich anpassen (freundlich, sachlich, empathisch, jung, alt, männlich, weiblich).
- Einige Systeme erlauben sogar, dass die KI im Gespräch Gefühl und Stimmung mit einwebt (z. B. überrascht klingt, wenn du etwas Unerwartetes sagst).
- Schwächen:
- Spontanes Lachen oder Ironie wirkt noch leicht künstlich.
- Bei sehr langen Gesprächen kann man merken, dass die Stimmfarbe perfekt stabil bleibt – was Menschen normalerweise nicht schaffen.
- Extrem schnelle Wechsel (z. B. laut werden, dann flüstern) klingen manchmal noch „geskriptet“.
- Im Alltagseinsatz (Hotline, Telefon, SIP):
- Wenn du nur Audio ohne Bild hast, wirkt es extrem glaubwürdig.
- Viele Tester berichten, dass sie nach wenigen Minuten „vergessen“, mit einer Maschine zu reden.
👉 Fazit: Mit ElevenLabs, OpenAI Realtime oder Play.ht bekommst du freundliche, warm klingende, sympathische Stimmen, die für dein Asterisk-Projekt absolut alltagstauglich wären.
Soll ich dir mal 2–3 Beispielanbieter raussuchen, bei denen du kostenlos ein paar Minuten Teststimme erzeugen kannst, damit du es selbst hörst?
Frage: OK, noch eine Frage. Ein Beispiel. Eine Firma für hochkomplexe Wärmepumpensysteme möchte mit KI eine Hotline aufbauen. Wie bekommt das LLM (das große Sprachmodell also) die Fachkompetenz die Kunden auch in ganz speziellen Fragen zu beraten? Gut, die KI wird mit allen Handbüchern gefüttert. Aber das reicht noch nicht. Alle vorhandenen Fallbeispiel aus der Praxis, die hoffentlich digital dokumentiert sind, müssten auch in das LLM integriert werden. Gelingt dann eine kompetente Beratung durch die KI?
Sehr gute und wichtige Frage – du triffst den Kern des Problems: „Wissen“ im LLM ist nicht gleich „Fachkompetenz in der Praxis“.
Ich gliedere es mal:
1. Was ein LLM von Natur aus kann
- Es versteht Sprache und kann Antworten so formulieren, dass sie „kompetent“ klingen.
- Aber: Es weiß nicht automatisch, ob die Antwort fachlich wirklich korrekt ist.
- Wenn du nur die Handbücher reinfütterst, bekommst du Antworten auf Standardfragen („Wie setze ich die Wärmepumpe zurück?“).
2. Fachkompetenz ausbauen
Damit es auch komplexe Praxisfälle lösen kann, braucht es:
- Retrieval-Augmented Generation (RAG):
LLM greift bei jeder Frage auf eine externe Datenbank (Wissensbasis, Doku, Ticketsystem) zu. → So antwortet es nicht nur „aus Gedächtnis“, sondern bezieht aktuelle Informationen ein. - Fine-Tuning:
Das Modell wird mit echten Praxisdialogen trainiert (z. B. „Kunde meldet Geräusch bei niedrigen Temperaturen → Technikerantwort XY“).
Damit lernt es den Stil und die Lösungswege. - Feedback-Loop:
Jede neue Anfrage + Lösung vom echten Techniker wird in die Wissensbasis aufgenommen. So wächst die Kompetenz kontinuierlich.
3. Grenzen & Risiken
- Halluzination: LLM könnte Lösungen erfinden, die es im Handbuch nie gab. → Deshalb immer RAG + Quellenangabe, nicht nur „Gedächtnis“.
- Haftung: Bei sicherheitsrelevanten Themen (z. B. Heizsysteme, Elektrik) darf die KI nicht allein Entscheidungen treffen. Besser: KI als „erste Instanz“ für 80 % Standardfälle, danach Übergabe an echten Techniker.
- Pflegeaufwand: Das System lebt davon, dass die Praxisfälle regelmäßig eingepflegt werden – sonst wird es schnell „veraltet“.
4. Was realistisch möglich ist (Stand 2025)
- 80–90 % der Anfragen (Standardfragen, einfache Fehlerbilder) können schon heute durch KI sehr gut beantwortet werden.
- Die restlichen 10–20 % (spezielle, knifflige Fehler) brauchen weiterhin einen Menschen.
- Firmen wie Siemens, Bosch, Viessmann testen solche hybriden Systeme schon – mit KI-Firstline-Support und menschlichem Fallback.
👉 Antwort auf deine Frage:
Ja, es gelingt teilweise: Mit Handbüchern + Praxisfällen + RAG kann die KI sehr kompetent beraten. Aber eine vollständige Fachberatung, die jeden Sonderfall korrekt löst, geht nur, wenn menschliche Techniker im Hintergrund bleiben.
Soll ich dir mal ein Schaubild skizzieren, wie so eine KI-Hotline-Architektur mit RAG, Asterisk und menschlichem Fallback aussehen könnte?
Frage: Ich nehme an die KI kann unterstützend während des Telefonats E-Mails mit weiterführenden Informationen, Links, Anleitungen an den Fragesteller schicken. Und wenn es eine Stammkunde mit Kundennummer ist, dann weiß die KI ohne viele Rückfragen worum es geht und wo der Schuh drücken kann?
Genau, das ist ziemlich realistisch und wird bereits in Prototypen so umgesetzt. Man muss nur klar trennen, was KI kann und was sie nicht darf:
1. Unterstützende E-Mails während/ nach dem Telefonat
- KI kann während des Gesprächs parallel Dokumente, Links, PDFs oder Anleitungen vorbereiten und sofort per E-Mail oder Kundenportal zustellen.
- Beispiel: „Ihre Wärmepumpe zeigt Fehlercode E27? Ich habe Ihnen gerade eine E-Mail mit der passenden Schritt-für-Schritt-Anleitung geschickt.“
- Vorteil: Kunde muss nichts mitschreiben, die Infos sind nachvollziehbar dokumentiert.
2. Stammkunden-Erkennung
- Über CRM-Anbindung (z. B. Kundennummer, Telefonnummer, SIP-Header, IVR-Eingabe) weiß die KI sofort:
- Welche Anlage verbaut ist.
- Welche Probleme in der Vergangenheit aufgetreten sind.
- Welche Wartungsverträge oder Ersatzteile relevant sind.
- Die KI kann dann direkt einsteigen:
„Guten Tag Herr Müller, Ihre Anlage vom Typ XY meldet zum zweiten Mal einen Druckabfall. Darf ich Ihnen die Anleitung zur Dichtigkeitsprüfung schicken?“
3. Wo der Schuh drückt
- Durch Zugriff auf Fehlerhistorie, Logdaten oder Smart-Home-Monitoring kann die KI Probleme vorhersagen („Predictive Maintenance“).
- Sie fragt nicht mehr generisch „Worum geht es?“, sondern schlägt gleich relevante Themen vor.
4. Grenzen
- Datenschutz: Kundendaten dürfen nicht unkontrolliert ins LLM wandern → deshalb braucht man RAG mit kontrolliertem Zugriff statt „alles ins Modell kippen“.
- Verantwortung: Bei sicherheitsrelevanten Handgriffen (z. B. Arbeiten am Kältemittelkreis) muss die KI klar Grenzen ziehen und an einen Techniker übergeben.
- Akzeptanz: Manche Kunden sind skeptisch, wenn die KI „zu viel weiß“. Transparenz ist entscheidend („Ich habe in Ihrer Kundenakte gesehen, dass…“).
👉 Fazit:
Ja, technisch kann die KI E-Mails verschicken, Stammkunden erkennen, personalisierte Antworten geben – und das macht sie im Support extrem stark. Aber: Sie muss immer sauber ans CRM und Doku-System angebunden sein und darf keine Fantasie-Antworten liefern.
Willst du, dass ich dir mal eine kleine Ablauf-Skizze mache, wie so ein Telefonat mit KI-Hotline, CRM-Anbindung und automatischem Mail-Follow-up aussehen könnte?
Frage: Die Firma betreibt also eine eigene LLM auf dem eigenen Server, der wahrscheinlich in der Cloud betrieben wird. Ist das die übliche Vorgehensweise?
Gut, ich mache dir mal eine Übersicht mit groben Kostenordnungen (Stand 2025). Die Werte sind Richtgrößen, weil Preise sich je nach Anbieter/Vertrag unterscheiden können.
💰 Kostenvergleich LLM-Betrieb für Hotline-Systeme
Variante | Beschreibung | Typische Kosten/Monat | Vorteile | Nachteile |
---|---|---|---|---|
1. API-Nutzung (Public Cloud, z. B. OpenAI, Anthropic, Google) | Zugriff auf fremdes LLM über API. Abrechnung pro Token oder Minute. | 500–5.000 € (je nach Volumen, z. B. 0,05–0,15 €/Minute Gespräch) | Sofort startklar, kein eigener Betrieb, immer aktuelle Modelle. | Datenschutzproblem, abhängig vom Anbieter, Kosten schlecht kalkulierbar bei vielen Anrufen. |
2. Eigene LLM-Instanz in Cloud (dedizierte GPU-VM) | Mietet bei AWS, Azure, GCP oder OVH eine GPU-Maschine (z. B. A100/H100) und betreibt eigenes Modell. | 3.000–20.000 € (je nach Modellgröße und 24/7-Betrieb) | Mehr Kontrolle, Daten im eigenen Mandanten, Kombination mit CRM & RAG. | Teuer, Wartungsaufwand, Modell-Updates selbst machen. |
3. On-Premise im Firmennetz (eigene Server) | Kauf eigener GPU-Server (A100/H100 oder ähnliche). Abschreibung über 3–5 Jahre. | 50.000–150.000 € Invest + Strom/Support (2–5 k €/Monat laufend). | Absolute Datenhoheit, keine Abhängigkeit von Cloud. | Extrem teuer, hoher Know-how- und Wartungsbedarf, Skalierungsproblem. |
4. Hybride Lösung | Kleines internes Modell (z. B. Llama 3, Mistral) für interne Fragen + Cloud-API fallback bei komplexen Dialogen. | 1.000–8.000 € (je nach Last) | Gute Balance zwischen Kosten, Datenschutz und Flexibilität. | Architektur komplexer, zwei Systeme müssen sauber integriert sein. |
📌 Beispiel-Rechnungen für Hotline mit 10.000 Minuten pro Monat (≈ 167 Stunden)
- API-Variante (z. B. RetellAI, ByVoice): ~1.000–1.500 €
- Eigene Cloud-Instanz (1× A100 GPU bei AWS 24/7): ~4.000–5.000 €
- On-Premise: Einmalig 100.000 €, dann laufend ~3.000 € Strom/Support
- Hybrid: 500 € für internes kleines Modell + 500 € API-Fallback = ~1.000 €
👉 Praxis-Tendenz 2025:
Die meisten Firmen starten mit API-Lösungen (schnell, billig zum Testen).
Wenn das Volumen steigt und Datenschutz wichtig wird, wechseln sie zu Cloud-Instanzen im eigenen Tenant.
On-Premise ist die Ausnahme, nur bei extrem strengen Datenschutzauflagen.
Soll ich dir im nächsten Schritt mal durchrechnen, was dein privates SIP-Projekt mit z. B. 1 Stunde KI-Telefonie pro Tag kosten würde, wenn du es heute per API laufen lässt?