Por que Xatô é texto e voz, não só chat
Quando começamos a desenhar o Xatô, a primeira pergunta foi: 'chat ou voz?'. Achei a pergunta errada. Em restaurante, depende da hora do dia, e mais ainda do contexto. Por isso o Xatô faz os dois — e ligação ainda.
Quando começamos a desenhar o Xatô, a primeira pergunta foi: "chat ou voz?". Achei a pergunta errada. Em restaurante, depende da hora do dia, e mais ainda do contexto. Por isso o Xatô faz os dois — e ligação ainda.
Texto faz sentido quando…
- O dono está em reunião com fornecedor e quer "olhar margem da semana"
sem incomodar.
- O gerente está respondendo cliente por WhatsApp e precisa consultar
reserva em paralelo.
- O contador quer extrair DRE da semana no fim do expediente.
Em todos esses casos, texto é silencioso, rápido, copy-pasteável.
Voz faz sentido quando…
- O chef está com as mãos sujas e precisa lançar uma compra de
hortifruti.
- O gerente está atravessando o salão e quer ver no-show do dia.
- O dono está dirigindo e quer saber faturamento do dia anterior.
Voz é hands-free, rápida e cabe em fluxo de movimento.
Ligação faz sentido quando…
- O dono não está mais no restaurante e quer conversa com o sistema
sobre como foi o dia.
- O fundador testando hipótese ("e se eu aumentar a pizza por R$ 5?").
- Sessão estratégica longa, onde digitar / falar comando seco não dá
vazão.
Ligação é o modo "conversa de mesa": fluido, com pergunta de acompanhamento, contexto evolutivo.
Como o Xatô troca de modo
A mesma sessão. Você pode começar texto, virar voz no carro, terminar ligação à noite. O Xatô não te faz repetir contexto — ele lembra a conversa. Tecnicamente, isso é não-trivial. Modo voz usa streaming bidirecional com latência baixa. Modo texto usa SSE com tool calling paralelo. Modo ligação usa VAD com barge-in (você interrompe o sistema falando). Cada modo tem otimização diferente, mas a memória é compartilhada.
A escolha de design
Não tem chat dedicado pra "tira-dúvida". Não tem voz dedicada pra "lançar gasto". O Xatô é um assistente unificado em três modalidades. Você escolhe qual cabe no momento.
E quando IA fala errado?
Falando agora especificamente do TTS (síntese de voz) — tem coisa que IA ainda erra. R$ vira "erre cifrão" em vez de "reais". Data DD/MM vira "vinte e um barra cinco" em vez de "vinte e um de maio". Resolvemos isso com pré-processamento antes de gerar voz — limpa markdown, traduz formatação, faz a frase soar humana. É detalhe chato. Mas é a diferença entre assistente que parece IA e assistente que parece concierge.
Sobre o autor
Anderson Henrique
Engenheiro de software com 8+ anos de experiência. Pernambucano, fundador do Chateau.ia. Trabalhou em projetos de tecnologia no Brasil, EUA, Reino Unido e Honduras.
Conhecer trajetória completa