OpenClaw Voice Agent — so baust du einen KI-Telefon-Bot
Von Guido | ki-durchblick.com | April 2026 | Lesezeit: 13 Minuten
Keine Zeit? Hier die Kurzversion
- Voice Agents sind KI-gesteuerte Telefon-Bots, die natürliche Gespräche fuehren — kein „Druecken Sie die 1 für…“ mehr.
- OpenClaw + Voice ermöglicht Anrufannahme, Terminbuchung und FAQ-Beantwortung am Telefon, ohne dass du abheben musst.
- Kosten: OpenClaw kostenlos + Voice-Provider (Twilio/Vonage) ab ca. 10-20 EUR/Monat je nach Anrufvolumen.
- Für wen: Selbstständige und kleine Unternehmen, die viele Anrufe bekommen und nicht jeden sofort beantworten können.
- Stand 2026: Voice Agents sind funktional, aber noch nicht perfekt. Deutsch funktioniert gut für einfache Gespräche, wird bei komplexen Themen aber holprig.

Warum Voice Agents 2026 ein Thema sind
Jeder kennt das: Du rufst irgendwo an und eine Roboterstimme sagt „Für Deutsch drücken Sie die 1. Für Rechnungsfragen die 2. Für alles andere die 3.“ Du drueckst die 3, wartest 10 Minuten in der Warteschleife und legst frustriert auf.
Voice Agents sind das Gegenteil davon. Sie fuehren ein echtes Gespräch. Du sagst: „Ich möchte nächste Woche einen Termin.“ Der Bot antwortet: „Klar, ich habe Dienstag um 10 oder Mittwoch um 14 Uhr frei. Was passt besser?“ Kein Tastengedruecke, kein Warten, kein Frust.
Was das möglich macht:
- Speech-to-Text (STT): Die KI versteht, was du sagst — auch mit Dialekt, Nuscheln und Hintergrundgeraeusch
- LLM-Verarbeitung: Claude oder GPT verarbeitet die Anfrage intelligent — versteht Kontext, Absicht und Stimmung
- Text-to-Speech (TTS): Die Antwort wird in natürlich klingende Sprache umgewandelt — nicht wie ein Roboter, sondern wie ein Mensch
Alles zusammen passiert in unter 2 Sekunden. Der Anrufer merkt kaum einen Unterschied zu einem echten Menschen.
Im Casino haben wir das Problem jeden Tag gesehen: 50 Anrufe pro Tag, die Haelfte davon „Wann habt ihr offen?“ und „Gibt es Parkplaetze?“. Ein Mensch musste den ganzen Tag am Telefon sitzen für Fragen, die ein Bot in 3 Sekunden beantworten kann. Die andere Haelfte — Reservierungen, VIP-Anfragen, Beschwerden — die brauchten wirklich einen Menschen. Ein Voice Agent hätte die einfachen Anrufe gefiltert und den Menschen für die wichtigen freigemacht.
Wie funktioniert ein Voice Agent technisch?
Bevor wir in die Einrichtung gehen, hilft es, den Ablauf zu verstehen:
2. Anruf wird an den Voice-Provider weitergeleitet (Twilio/Vonage)
3. Voice-Provider verbindet mit OpenClaw
4. Kunde spricht → STT wandelt Sprache in Text um
5. OpenClaw verarbeitet den Text (versteht die Anfrage)
6. OpenClaw generiert eine Antwort
7. TTS wandelt Antwort in Sprache um
8. Kunde hoert die Antwort
9. Zurück zu Schritt 4 (Gespräch geht weiter)
Das alles passiert in Echtzeit. Der Kunde merkt nicht, dass er mit einer KI spricht — zumindest bei einfachen Gesprächen.
Was du brauchst
| Komponente | Was es ist | Kosten |
|---|---|---|
| OpenClaw | Der KI-Agent, der das Gespräch fuehrt | Kostenlos |
| Voice-Provider | Twilio, Vonage oder ähnlich — verbindet Telefonanrufe mit dem Internet | Ab 1 EUR/Monat + ca. 0,02-0,05 EUR/Minute |
| Telefonnummer | Eine virtuelle Telefonnummer (deutsche Vorwahl möglich) | Ab 1-3 EUR/Monat |
| STT-Service | Whisper (OpenAI), Deepgram oder Google STT | Ab 0,006 EUR/Minute |
| TTS-Service | ElevenLabs, OpenAI TTS oder Google TTS | Ab 0,015 EUR/1.000 Zeichen |
| API-Key (LLM) | Claude oder GPT für die Gesprächsfuehrung | 5-15 EUR/Monat |
Realistische Gesamtkosten: Bei 100 Anrufen pro Monat mit durchschnittlich 2 Minuten Gesprächsdauer: ca. 15-30 EUR/Monat. Das ist weniger als eine Stunde Mindestlohn für einen menschlichen Mitarbeiter am Telefon.
Schritt-für-Schritt: Voice Agent einrichten
Schritt 1: Voice-Provider einrichten (Twilio)
Twilio ist der bekannteste Voice-Provider und hat die beste Integration mit OpenClaw. Die Einrichtung:
- Konto erstellen auf twilio.com (kostenlos, mit Startguthaben)
- Telefonnummer kaufen — waehle eine deutsche Nummer (+49) für ca. 1-3 EUR/Monat
- API-Credentials notieren: Account SID und Auth Token findest du im Twilio Dashboard
Schritt 2: OpenClaw Voice-Skill konfigurieren
voice:
enabled: true
provider: „twilio“
twilio_account_sid: „DEIN_ACCOUNT_SID“
twilio_auth_token: „DEIN_AUTH_TOKEN“
phone_number: „+49XXXXXXXXX“
language: „de-DE“
stt_engine: „whisper“
tts_engine: „elevenlabs“
tts_voice: „deutsch_maennlich“
max_call_duration: 300 # Max. 5 Min. pro Anruf
handoff_phrase: „Ich verbinde Sie mit einem Mitarbeiter“
Schritt 3: Gesprächs-Prompt schreiben
Du bist der telefonische Assistent von [DEIN UNTERNEHMEN].
Verhalten am Telefon:
– Begruessung: „Guten Tag, [Firma] am Apparat, wie kann ich Ihnen helfen?“
– Sprich in kurzen, klaren Saetzen (max. 2-3 Saetze pro Antwort)
– Warte nach jeder Antwort auf die Reaktion des Anrufers
– Sieze den Anrufer (geschaeftlich)
– Sprich natürlich, nicht wie ein Roboter
– Wenn du etwas nicht verstanden hast: „Entschuldigung, könnten Sie das nochmal wiederholen?“
Was du beantworten kannst:
– Oeffnungszeiten: [DEINE ZEITEN]
– Adresse und Anfahrt: [DEINE ADRESSE]
– Preise: [DEINE PREISLISTE]
– Termine: [VERFUEGBARE TERMINE]
Was du NICHT tust:
– Keine Vertraege am Telefon abschliessen
– Keine Zahlungsdaten entgegennehmen
– Keine medizinischen oder rechtlichen Auskuenfte geben
– Bei Beschwerden: Sofort an Mitarbeiter weiterleiten
Schritt 4: Weiterleitung einrichten
Du kannst deine bestehende Geschaeftsnummer behalten und Anrufe nur unter bestimmten Bedingungen an den Bot weiterleiten:
- Ausserhalb der Geschaeftszeiten: Alle Anrufe nach 18 Uhr gehen an den Bot
- Bei Nichterreichbarkeit: Wenn du nach 4x Klingeln nicht abnimmst, übernimmt der Bot
- Parallel: Dein Telefon klingelt und der Bot geht gleichzeitig ran — wer zuerst abnimmt
Das konfigurierst du bei deinem Telefonanbieter oder direkt in Twilio. Die meisten Geschaeftsanschluesse unterstützen bedingte Rufumleitungen.
Was Voice Agents heute schon gut können
Stark bei
- FAQ beantworten: Oeffnungszeiten, Preise, Standort — zuverlässig und schnell
- Termine buchen: „Nächste Woche Mittwoch 14 Uhr“ — versteht Datums- und Zeitangaben gut
- Einfache Gespräche: Kurze, klare Dialoge mit erwartbaren Fragen
- Anrufer-Qualifizierung: „Worum geht es?“ und dann an die richtige Abteilung weiterleiten
- Mailbox-Ersatz: Statt Anrufbeantworter nimmt der Bot das Gespräch an und fasst es zusammen
Schwach bei
- Lange Gespräche: Nach 3-4 Minuten wird es holprig, Kontext geht verloren
- Dialekte und Slang: Bairisch, Saechsisch und Plattdeutsch sind eine Herausforderung
- Hintergrundgeraeusche: Straßenlaerm, Musik oder mehrere Sprecher verwirren die STT
- Emotionale Gespräche: Bei wuetenden oder verzweifelten Anrufern reagiert der Bot zu sachlich
- Komplexe Verhandlungen: „Können Sie beim Preis noch was machen?“ — überfordert den Bot
3 realistische Einsatz-Szenarien
Szenario 1: Intelligenter Anrufbeantworter
Statt: „Sie haben die Mailbox von… bitte sprechen Sie nach dem Ton.“
Mit Voice Agent: Der Bot nimmt den Anruf an, fragt worum es geht, beantwortet einfache Fragen sofort und schickt dir eine Zusammenfassung per Telegram: „Anruf von +49171… um 15:23. Fragt nach Preis für Webdesign. Will Rueckruf morgen vormittag.“
Vorteil: Kein „bitte rufen Sie später nochmal an“. Der Kunde fuehlt sich gehört, du verpasst keine Anfrage.
Szenario 2: Termin-Hotline
Arztpraxen, Friseure, Berater — überall das gleiche Problem: Das Telefon klingelt staendig, die Haelfte will nur einen Termin buchen.
Der Voice Agent übernimmt Terminbuchungen vollautomatisch. Er kennt deinen Kalender, bietet freie Zeiten an, bestaetigt den Termin und schickt eine Bestaetigung per SMS. Du siehst den neuen Termin einfach in deinem Kalender auftauchen.
Szenario 3: After-Hours-Support
Dein Büro schliesst um 17 Uhr. Aber Kunden rufen auch um 19, 21 oder 23 Uhr an. Bisher: Mailbox. Jetzt: Ein Bot, der die häufigsten Fragen beantwortet und bei allem anderen eine Zusammenfassung erstellt, die du am nächsten Morgen in deinem Morgen-Briefing siehst.
Ehrliche Einschätzung: Lohnt sich ein Voice Agent 2026?
Ja, wenn…
- Du regelmäßig Anrufe bekommst, die du nicht annehmen kannst (Meeting, unterwegs, Feierabend)
- Die meisten Anrufe Standard-Fragen sind (Oeffnungszeiten, Preise, Termine)
- Du den Bot als Ergänzung siehst, nicht als Ersatz für persoenlichen Kontakt
- Du bereit bist, den Bot 2-4 Wochen zu testen und zu optimieren
Nein, wenn…
- Du weniger als 5 Anrufe pro Woche bekommst (dann lohnt der Aufwand nicht)
- Deine Kunden persoenlichen Kontakt erwarten (z.B. Psychotherapie, Anwalt)
- Deine Gespräche komplex und lang sind (Beratung, Verhandlung)
- Du in einer Branche arbeitest, in der ein Bot als unprofessionell wahrgenommen wird
Meine ehrliche Einschätzung: Voice Agents sind 2026 funktional, aber noch nicht perfekt. Für Standard-Anfragen und als intelligenter Anrufbeantworter sind sie grossartig. Für alles andere brauchst du weiterhin einen Menschen.
In 1-2 Jahren wird das anders aussehen. Die Technologie verbessert sich schnell. Wer heute anfaengt, hat einen Vorsprung — und lernt, was funktioniert und was nicht, bevor die Konkurrenz aufwacht.
Casino-Weisheit: Die besten Spieler sind die, die ein neues Spiel frueh lernen — bevor alle anderen am Tisch sitzen und die Quoten drücken.
Voice Agent vs. WhatsApp Bot — was ist besser?
| Kriterium | Voice Agent (Telefon) | WhatsApp Bot |
|---|---|---|
| Zuverlässigkeit | Gut (STT manchmal ungenau) | Sehr gut (Text ist eindeutig) |
| Kosten | 15-30 EUR/Mon. | 5-15 EUR/Mon. |
| Kunden-Praeferenz | Ältere Zielgruppe, Notfaelle | Juengere Zielgruppe, Alltag |
| Einrichtung | Komplex (Voice-Provider noetig) | Mittel (QR-Code scannen) |
Idealfall: Beides. WhatsApp für den Alltag, Voice Agent für nach Feierabend und für die Kunden, die lieber anrufen. Beides laeuft über denselben OpenClaw-Agenten — eine Wissensdatenbank, zwei Kanaele.
Die OpenClaw-Serie auf ki-durchblick.com
- Teil 1: OpenClaw im Test — der komplette Guide
- Teil 2: Telegram Bot mit OpenClaw bauen
- Teil 3: WhatsApp Kundenservice-Bot erstellen
- Teil 4: 5 Automationen für Kleinunternehmer
- Teil 5: VPS-Setup — OpenClaw auf dem eigenen Server
- Teil 6: OpenClaw vs. Make.com vs. Zapier
- Teil 7: Voice Agent — KI-Telefon-Bot (dieser Artikel)
Häufig gestellte Fragen
Kann der Voice Agent auch Deutsch mit Dialekt verstehen?
Hochdeutsch und leichte Dialekte werden gut erkannt. Bei starkem Dialekt (tiefstes Bairisch, Saechsisch oder Plattdeutsch) sinkt die Erkennungsrate merklich. Die STT-Engines werden staendig verbessert, aber Stand 2026 ist klar: Je deutlicher der Anrufer spricht, desto besser funktioniert der Bot. Für Business-Telefonate im DACH-Raum reicht die Qualität in den allermeisten Faellen.
Klingt der Bot wie ein Roboter?
Mit modernen TTS-Engines wie ElevenLabs klingt der Bot erstaunlich natürlich. Die Stimmen haben Betonung, Pausen und natürlichen Sprachrhythmus. Bei kurzen Gesprächen (unter 2 Minuten) faellt es vielen Anrufern nicht auf. Bei laengeren Gesprächen wird es manchmal monoton. Die Qualität haengt stark vom gewaehlten TTS-Anbieter ab — ElevenLabs ist aktuell am besten für Deutsch.
Kann ich meine bestehende Telefonnummer behalten?
Ja. Du musst deine Nummer nicht wechseln. Die einfachste Lösung: Richte eine Rufumleitung ein. Wenn du nicht abnimmst (nach 4x Klingeln) oder außerhalb der Geschaeftszeiten, wird der Anruf an die virtuelle Twilio-Nummer weitergeleitet, wo der Bot übernimmt. Deine Kunden merken davon nichts — sie rufen weiterhin deine bekannte Nummer an.
Ist ein Voice Agent DSGVO-konform?
Grundsaetzlich ja, wenn du es richtig machst: Der Bot muss sich zu Beginn des Gesprächs als KI-Assistent vorstellen (Transparenzpflicht). Gesprächsaufzeichnungen brauchen eine Einwilligung. Die Datenverarbeitung muss in der Datenschutzerklärung dokumentiert sein. Und wenn du Twilio nutzt, brauchst du einen Auftragsverarbeitungsvertrag. Klingt kompliziert, ist aber mit einer Standard-Vorlage in 30 Minuten erledigt.
Stimmen die überzeugen: Die richtige KI-Stimme waehlen
Die Stimme deines Telefon-Bots entscheidet, ob Anrufer auflegen oder dranbleiben. Roboter-Stimmen schrecken ab — natürliche Stimmen schaffen Vertrauen.
ElevenLabs bietet aktuell die realistischsten KI-Stimmen auf dem Markt. Deutsch klingt wie ein echter Mensch, nicht wie ein Navi. Für einen Telefon-Bot, der professionell klingen soll, ist das ein Game-Changer.
Weitere Use Cases für den Voice Agent:
- Arztpraxen: Patienten rufen an, der Bot gibt Sprechzeiten durch und nimmt Terminwünsche auf
- Restaurants: Reservierungen per Telefon — der Bot prueft freie Tische und bestaetigt
- Handwerker: Kunden beschreiben ihr Problem, der Bot erstellt einen Auftrag und schickt dir eine Zusammenfassung
- Vereine: Mitglieder erfahren per Anruf die nächsten Trainingszeiten oder Veranstaltungen
- Ältere Menschen: Wer nicht tippen will, ruft einfach an — der Bot versteht und hilft (mehr zum Thema KI für Senioren)
Alle OpenClaw-Guides auf einen Blick: OpenClaw komplett
Transparenz-Hinweis: Dieser Artikel enthaelt Affiliate-Links zu OpenClaw Cloud und ElevenLabs. Wenn du über meinen Link ein Abo abschliesst, bekomme ich eine Provision — für dich aendert sich am Preis nichts.
Das koennte dich auch interessieren:
- OpenClaw im Test: Der KI-Agent, der wirklich Dinge erledigt
- WhatsApp Kundenservice-Bot mit OpenClaw erstellen – komplette Anleitung
- Telegram Bot mit OpenClaw bauen – Schritt-für-Schritt Anleitung
- 5 OpenClaw Automationen, die Kleinunternehmern Stunden sparen
- OpenClaw Sicherheit und Datenschutz – was du wissen musst