Sziasztok! Vapi-s segítséget kérnék, magyar nyelvű inbound hangügynökhöz.
Felállás: Vapi assistant, GPT-4.1 (temp 0.3), TTS ElevenLabs eleven_turbo_v2_5 (George hang), transcriber Speechmatics (hu). Magyar nyelvű, bejövő hívás, autószerviz időpontfoglalás.
Amivel küzdünk — turn-taking és késleltetés:
1. A gép a hívó szavába vág (barge-in / endpointing). Tipikus eset: a gép bemutatkozik („…miben segíthetek?"), a hívó elkezd válaszolni, és a gép belevág, mintha már befejezettnek hinné a hívó körét. Néha beszéd közben is félbeszakítja. Magyarra élezve kérdezem: hogyan állítjátok be megbízhatóan a fordulóváltást magyar beszédnél?
Jelenlegi beállításaink:
- startSpeakingPlan: waitSeconds 0.4, smartEndpointingPlan: { provider: "vapi" }
- stopSpeakingPlan: numWords 3, voiceSeconds 0.3, backoffSeconds 1.8
Kérdés: a Vapi smart endpointing jól megy magyarra, vagy érdemes waitSeconds-öt emelni / livekit vagy más endpointingre váltani? A magyar szünetek (gondolkodás közbeni „hát…", „mondjuk…") rendre korai fordulóvégnek számítanak.
2. Lassú / akadozó válasz („sokat gondolkodik"). Néha érezhető szünet, néha mintha kétszer kezdene bele. Milyen módszerekkel csökkentitek a látenciát Vapi-n (modellválasztás, streaming, TTS-motor)? Az eleven_turbo_v2_5 jó választás magyarra sebesség+minőség szempontból, vagy van jobb?
3. (Másodlagos) Töltelékszó-duplázódás. A tool-hívások körül a „egy pillanat" 2-3x is elhangzott; nagyrészt megoldottuk egyetlen request-start üzenetre + prompt-szabályra, de érdekel, ti hogyan tartjátok pontosan egyre a tool-várakozó töltelékmondatot.
Fő fájdalom: az #1, és a #2 — ez rontja leginkább a hívásélményt.
Köszi előre is bármilyen tippet!