OpenClaw Voice Agent — so baust du einen KI-Telefon-Bot

OpenClaw Voice Agent — so baust du einen KI-Telefon-Bot

Von Guido | ki-durchblick.com | April 2026 | Lesezeit: 13 Minuten

Keine Zeit? Hier die Kurzversion

  • Voice Agents sind KI-gesteuerte Telefon-Bots, die natürliche Gespräche fuehren — kein „Druecken Sie die 1 für…“ mehr.
  • OpenClaw + Voice ermöglicht Anrufannahme, Terminbuchung und FAQ-Beantwortung am Telefon, ohne dass du abheben musst.
  • Kosten: OpenClaw kostenlos + Voice-Provider (Twilio/Vonage) ab ca. 10-20 EUR/Monat je nach Anrufvolumen.
  • Für wen: Selbstständige und kleine Unternehmen, die viele Anrufe bekommen und nicht jeden sofort beantworten können.
  • Stand 2026: Voice Agents sind funktional, aber noch nicht perfekt. Deutsch funktioniert gut für einfache Gespräche, wird bei komplexen Themen aber holprig.

Voice Agent KI-Telefon

Warum Voice Agents 2026 ein Thema sind

Jeder kennt das: Du rufst irgendwo an und eine Roboterstimme sagt „Für Deutsch drücken Sie die 1. Für Rechnungsfragen die 2. Für alles andere die 3.“ Du drueckst die 3, wartest 10 Minuten in der Warteschleife und legst frustriert auf.

Voice Agents sind das Gegenteil davon. Sie fuehren ein echtes Gespräch. Du sagst: „Ich möchte nächste Woche einen Termin.“ Der Bot antwortet: „Klar, ich habe Dienstag um 10 oder Mittwoch um 14 Uhr frei. Was passt besser?“ Kein Tastengedruecke, kein Warten, kein Frust.

Was das möglich macht:

  • Speech-to-Text (STT): Die KI versteht, was du sagst — auch mit Dialekt, Nuscheln und Hintergrundgeraeusch
  • LLM-Verarbeitung: Claude oder GPT verarbeitet die Anfrage intelligent — versteht Kontext, Absicht und Stimmung
  • Text-to-Speech (TTS): Die Antwort wird in natürlich klingende Sprache umgewandelt — nicht wie ein Roboter, sondern wie ein Mensch

Alles zusammen passiert in unter 2 Sekunden. Der Anrufer merkt kaum einen Unterschied zu einem echten Menschen.

Im Casino haben wir das Problem jeden Tag gesehen: 50 Anrufe pro Tag, die Haelfte davon „Wann habt ihr offen?“ und „Gibt es Parkplaetze?“. Ein Mensch musste den ganzen Tag am Telefon sitzen für Fragen, die ein Bot in 3 Sekunden beantworten kann. Die andere Haelfte — Reservierungen, VIP-Anfragen, Beschwerden — die brauchten wirklich einen Menschen. Ein Voice Agent hätte die einfachen Anrufe gefiltert und den Menschen für die wichtigen freigemacht.


Wie funktioniert ein Voice Agent technisch?

Bevor wir in die Einrichtung gehen, hilft es, den Ablauf zu verstehen:

1. Kunde ruft deine Nummer an
2. Anruf wird an den Voice-Provider weitergeleitet (Twilio/Vonage)
3. Voice-Provider verbindet mit OpenClaw
4. Kunde spricht → STT wandelt Sprache in Text um
5. OpenClaw verarbeitet den Text (versteht die Anfrage)
6. OpenClaw generiert eine Antwort
7. TTS wandelt Antwort in Sprache um
8. Kunde hoert die Antwort
9. Zurück zu Schritt 4 (Gespräch geht weiter)

Das alles passiert in Echtzeit. Der Kunde merkt nicht, dass er mit einer KI spricht — zumindest bei einfachen Gesprächen.


Was du brauchst

Komponente Was es ist Kosten
OpenClaw Der KI-Agent, der das Gespräch fuehrt Kostenlos
Voice-Provider Twilio, Vonage oder ähnlich — verbindet Telefonanrufe mit dem Internet Ab 1 EUR/Monat + ca. 0,02-0,05 EUR/Minute
Telefonnummer Eine virtuelle Telefonnummer (deutsche Vorwahl möglich) Ab 1-3 EUR/Monat
STT-Service Whisper (OpenAI), Deepgram oder Google STT Ab 0,006 EUR/Minute
TTS-Service ElevenLabs, OpenAI TTS oder Google TTS Ab 0,015 EUR/1.000 Zeichen
API-Key (LLM) Claude oder GPT für die Gesprächsfuehrung 5-15 EUR/Monat

Realistische Gesamtkosten: Bei 100 Anrufen pro Monat mit durchschnittlich 2 Minuten Gesprächsdauer: ca. 15-30 EUR/Monat. Das ist weniger als eine Stunde Mindestlohn für einen menschlichen Mitarbeiter am Telefon.


Schritt-für-Schritt: Voice Agent einrichten

Schritt 1: Voice-Provider einrichten (Twilio)

Twilio ist der bekannteste Voice-Provider und hat die beste Integration mit OpenClaw. Die Einrichtung:

  1. Konto erstellen auf twilio.com (kostenlos, mit Startguthaben)
  2. Telefonnummer kaufen — waehle eine deutsche Nummer (+49) für ca. 1-3 EUR/Monat
  3. API-Credentials notieren: Account SID und Auth Token findest du im Twilio Dashboard

Schritt 2: OpenClaw Voice-Skill konfigurieren

config.yaml Ergänzung:

voice:
  enabled: true
  provider: „twilio“
  twilio_account_sid: „DEIN_ACCOUNT_SID“
  twilio_auth_token: „DEIN_AUTH_TOKEN“
  phone_number: „+49XXXXXXXXX“
  language: „de-DE“
  stt_engine: „whisper“
  tts_engine: „elevenlabs“
  tts_voice: „deutsch_maennlich“
  max_call_duration: 300 # Max. 5 Min. pro Anruf
  handoff_phrase: „Ich verbinde Sie mit einem Mitarbeiter“

Schritt 3: Gesprächs-Prompt schreiben

System-Prompt für den Telefon-Bot:

Du bist der telefonische Assistent von [DEIN UNTERNEHMEN].

Verhalten am Telefon:
– Begruessung: „Guten Tag, [Firma] am Apparat, wie kann ich Ihnen helfen?“
– Sprich in kurzen, klaren Saetzen (max. 2-3 Saetze pro Antwort)
– Warte nach jeder Antwort auf die Reaktion des Anrufers
– Sieze den Anrufer (geschaeftlich)
– Sprich natürlich, nicht wie ein Roboter
– Wenn du etwas nicht verstanden hast: „Entschuldigung, könnten Sie das nochmal wiederholen?“

Was du beantworten kannst:
– Oeffnungszeiten: [DEINE ZEITEN]
– Adresse und Anfahrt: [DEINE ADRESSE]
– Preise: [DEINE PREISLISTE]
– Termine: [VERFUEGBARE TERMINE]

Was du NICHT tust:
– Keine Vertraege am Telefon abschliessen
– Keine Zahlungsdaten entgegennehmen
– Keine medizinischen oder rechtlichen Auskuenfte geben
– Bei Beschwerden: Sofort an Mitarbeiter weiterleiten

Schritt 4: Weiterleitung einrichten

Du kannst deine bestehende Geschaeftsnummer behalten und Anrufe nur unter bestimmten Bedingungen an den Bot weiterleiten:

  • Ausserhalb der Geschaeftszeiten: Alle Anrufe nach 18 Uhr gehen an den Bot
  • Bei Nichterreichbarkeit: Wenn du nach 4x Klingeln nicht abnimmst, übernimmt der Bot
  • Parallel: Dein Telefon klingelt und der Bot geht gleichzeitig ran — wer zuerst abnimmt

Das konfigurierst du bei deinem Telefonanbieter oder direkt in Twilio. Die meisten Geschaeftsanschluesse unterstützen bedingte Rufumleitungen.


Was Voice Agents heute schon gut können

Stark bei

  • FAQ beantworten: Oeffnungszeiten, Preise, Standort — zuverlässig und schnell
  • Termine buchen: „Nächste Woche Mittwoch 14 Uhr“ — versteht Datums- und Zeitangaben gut
  • Einfache Gespräche: Kurze, klare Dialoge mit erwartbaren Fragen
  • Anrufer-Qualifizierung: „Worum geht es?“ und dann an die richtige Abteilung weiterleiten
  • Mailbox-Ersatz: Statt Anrufbeantworter nimmt der Bot das Gespräch an und fasst es zusammen

Schwach bei

  • Lange Gespräche: Nach 3-4 Minuten wird es holprig, Kontext geht verloren
  • Dialekte und Slang: Bairisch, Saechsisch und Plattdeutsch sind eine Herausforderung
  • Hintergrundgeraeusche: Straßenlaerm, Musik oder mehrere Sprecher verwirren die STT
  • Emotionale Gespräche: Bei wuetenden oder verzweifelten Anrufern reagiert der Bot zu sachlich
  • Komplexe Verhandlungen: „Können Sie beim Preis noch was machen?“ — überfordert den Bot

3 realistische Einsatz-Szenarien

Szenario 1: Intelligenter Anrufbeantworter

Statt: „Sie haben die Mailbox von… bitte sprechen Sie nach dem Ton.“

Mit Voice Agent: Der Bot nimmt den Anruf an, fragt worum es geht, beantwortet einfache Fragen sofort und schickt dir eine Zusammenfassung per Telegram: „Anruf von +49171… um 15:23. Fragt nach Preis für Webdesign. Will Rueckruf morgen vormittag.“

Vorteil: Kein „bitte rufen Sie später nochmal an“. Der Kunde fuehlt sich gehört, du verpasst keine Anfrage.

Szenario 2: Termin-Hotline

Arztpraxen, Friseure, Berater — überall das gleiche Problem: Das Telefon klingelt staendig, die Haelfte will nur einen Termin buchen.

Der Voice Agent übernimmt Terminbuchungen vollautomatisch. Er kennt deinen Kalender, bietet freie Zeiten an, bestaetigt den Termin und schickt eine Bestaetigung per SMS. Du siehst den neuen Termin einfach in deinem Kalender auftauchen.

Szenario 3: After-Hours-Support

Dein Büro schliesst um 17 Uhr. Aber Kunden rufen auch um 19, 21 oder 23 Uhr an. Bisher: Mailbox. Jetzt: Ein Bot, der die häufigsten Fragen beantwortet und bei allem anderen eine Zusammenfassung erstellt, die du am nächsten Morgen in deinem Morgen-Briefing siehst.


Ehrliche Einschätzung: Lohnt sich ein Voice Agent 2026?

Ja, wenn…

  • Du regelmäßig Anrufe bekommst, die du nicht annehmen kannst (Meeting, unterwegs, Feierabend)
  • Die meisten Anrufe Standard-Fragen sind (Oeffnungszeiten, Preise, Termine)
  • Du den Bot als Ergänzung siehst, nicht als Ersatz für persoenlichen Kontakt
  • Du bereit bist, den Bot 2-4 Wochen zu testen und zu optimieren

Nein, wenn…

  • Du weniger als 5 Anrufe pro Woche bekommst (dann lohnt der Aufwand nicht)
  • Deine Kunden persoenlichen Kontakt erwarten (z.B. Psychotherapie, Anwalt)
  • Deine Gespräche komplex und lang sind (Beratung, Verhandlung)
  • Du in einer Branche arbeitest, in der ein Bot als unprofessionell wahrgenommen wird

Meine ehrliche Einschätzung: Voice Agents sind 2026 funktional, aber noch nicht perfekt. Für Standard-Anfragen und als intelligenter Anrufbeantworter sind sie grossartig. Für alles andere brauchst du weiterhin einen Menschen.

In 1-2 Jahren wird das anders aussehen. Die Technologie verbessert sich schnell. Wer heute anfaengt, hat einen Vorsprung — und lernt, was funktioniert und was nicht, bevor die Konkurrenz aufwacht.

Casino-Weisheit: Die besten Spieler sind die, die ein neues Spiel frueh lernen — bevor alle anderen am Tisch sitzen und die Quoten drücken.


Voice Agent vs. WhatsApp Bot — was ist besser?

Kriterium Voice Agent (Telefon) WhatsApp Bot
Zuverlässigkeit Gut (STT manchmal ungenau) Sehr gut (Text ist eindeutig)
Kosten 15-30 EUR/Mon. 5-15 EUR/Mon.
Kunden-Praeferenz Ältere Zielgruppe, Notfaelle Juengere Zielgruppe, Alltag
Einrichtung Komplex (Voice-Provider noetig) Mittel (QR-Code scannen)

Idealfall: Beides. WhatsApp für den Alltag, Voice Agent für nach Feierabend und für die Kunden, die lieber anrufen. Beides laeuft über denselben OpenClaw-Agenten — eine Wissensdatenbank, zwei Kanaele.


Häufig gestellte Fragen

Kann der Voice Agent auch Deutsch mit Dialekt verstehen?

Hochdeutsch und leichte Dialekte werden gut erkannt. Bei starkem Dialekt (tiefstes Bairisch, Saechsisch oder Plattdeutsch) sinkt die Erkennungsrate merklich. Die STT-Engines werden staendig verbessert, aber Stand 2026 ist klar: Je deutlicher der Anrufer spricht, desto besser funktioniert der Bot. Für Business-Telefonate im DACH-Raum reicht die Qualität in den allermeisten Faellen.

Klingt der Bot wie ein Roboter?

Mit modernen TTS-Engines wie ElevenLabs klingt der Bot erstaunlich natürlich. Die Stimmen haben Betonung, Pausen und natürlichen Sprachrhythmus. Bei kurzen Gesprächen (unter 2 Minuten) faellt es vielen Anrufern nicht auf. Bei laengeren Gesprächen wird es manchmal monoton. Die Qualität haengt stark vom gewaehlten TTS-Anbieter ab — ElevenLabs ist aktuell am besten für Deutsch.

Kann ich meine bestehende Telefonnummer behalten?

Ja. Du musst deine Nummer nicht wechseln. Die einfachste Lösung: Richte eine Rufumleitung ein. Wenn du nicht abnimmst (nach 4x Klingeln) oder außerhalb der Geschaeftszeiten, wird der Anruf an die virtuelle Twilio-Nummer weitergeleitet, wo der Bot übernimmt. Deine Kunden merken davon nichts — sie rufen weiterhin deine bekannte Nummer an.

Ist ein Voice Agent DSGVO-konform?

Grundsaetzlich ja, wenn du es richtig machst: Der Bot muss sich zu Beginn des Gesprächs als KI-Assistent vorstellen (Transparenzpflicht). Gesprächsaufzeichnungen brauchen eine Einwilligung. Die Datenverarbeitung muss in der Datenschutzerklärung dokumentiert sein. Und wenn du Twilio nutzt, brauchst du einen Auftragsverarbeitungsvertrag. Klingt kompliziert, ist aber mit einer Standard-Vorlage in 30 Minuten erledigt.

Stimmen die überzeugen: Die richtige KI-Stimme waehlen

Die Stimme deines Telefon-Bots entscheidet, ob Anrufer auflegen oder dranbleiben. Roboter-Stimmen schrecken ab — natürliche Stimmen schaffen Vertrauen.

ElevenLabs bietet aktuell die realistischsten KI-Stimmen auf dem Markt. Deutsch klingt wie ein echter Mensch, nicht wie ein Navi. Für einen Telefon-Bot, der professionell klingen soll, ist das ein Game-Changer.

Weitere Use Cases für den Voice Agent:

  • Arztpraxen: Patienten rufen an, der Bot gibt Sprechzeiten durch und nimmt Terminwünsche auf
  • Restaurants: Reservierungen per Telefon — der Bot prueft freie Tische und bestaetigt
  • Handwerker: Kunden beschreiben ihr Problem, der Bot erstellt einen Auftrag und schickt dir eine Zusammenfassung
  • Vereine: Mitglieder erfahren per Anruf die nächsten Trainingszeiten oder Veranstaltungen
  • Ältere Menschen: Wer nicht tippen will, ruft einfach an — der Bot versteht und hilft (mehr zum Thema KI für Senioren)

Alle OpenClaw-Guides auf einen Blick: OpenClaw komplett



Transparenz-Hinweis: Dieser Artikel enthaelt Affiliate-Links zu OpenClaw Cloud und ElevenLabs. Wenn du über meinen Link ein Abo abschliesst, bekomme ich eine Provision — für dich aendert sich am Preis nichts.

Jeden Freitag: Die besten KI-Tools der Woche

Kurz, ehrlich, ohne Spam. Welche Tools sich lohnen, welche nicht — direkt in dein Postfach. Kostenlos abmelden jederzeit.

Gratis Newsletter abonnieren