·5 min de leitura·por Anderson Henrique

Por que Xatô é texto e voz, não só chat

Quando começamos a desenhar o Xatô, a primeira pergunta foi: 'chat ou voz?'. Achei a pergunta errada. Em restaurante, depende da hora do dia, e mais ainda do contexto. Por isso o Xatô faz os dois — e ligação ainda.

XatôVozUXProduto

Quando começamos a desenhar o Xatô, a primeira pergunta foi: "chat ou voz?". Achei a pergunta errada. Em restaurante, depende da hora do dia, e mais ainda do contexto. Por isso o Xatô faz os dois — e ligação ainda.

Texto faz sentido quando…

  • O dono está em reunião com fornecedor e quer "olhar margem da semana"

sem incomodar.

  • O gerente está respondendo cliente por WhatsApp e precisa consultar

reserva em paralelo.

  • O contador quer extrair DRE da semana no fim do expediente.

Em todos esses casos, texto é silencioso, rápido, copy-pasteável.

Voz faz sentido quando…

  • O chef está com as mãos sujas e precisa lançar uma compra de

hortifruti.

  • O gerente está atravessando o salão e quer ver no-show do dia.
  • O dono está dirigindo e quer saber faturamento do dia anterior.

Voz é hands-free, rápida e cabe em fluxo de movimento.

Ligação faz sentido quando…

  • O dono não está mais no restaurante e quer conversa com o sistema

sobre como foi o dia.

  • O fundador testando hipótese ("e se eu aumentar a pizza por R$ 5?").
  • Sessão estratégica longa, onde digitar / falar comando seco não dá

vazão.

Ligação é o modo "conversa de mesa": fluido, com pergunta de acompanhamento, contexto evolutivo.

Como o Xatô troca de modo

A mesma sessão. Você pode começar texto, virar voz no carro, terminar ligação à noite. O Xatô não te faz repetir contexto — ele lembra a conversa. Tecnicamente, isso é não-trivial. Modo voz usa streaming bidirecional com latência baixa. Modo texto usa SSE com tool calling paralelo. Modo ligação usa VAD com barge-in (você interrompe o sistema falando). Cada modo tem otimização diferente, mas a memória é compartilhada.

A escolha de design

Não tem chat dedicado pra "tira-dúvida". Não tem voz dedicada pra "lançar gasto". O Xatô é um assistente unificado em três modalidades. Você escolhe qual cabe no momento.

E quando IA fala errado?

Falando agora especificamente do TTS (síntese de voz) — tem coisa que IA ainda erra. R$ vira "erre cifrão" em vez de "reais". Data DD/MM vira "vinte e um barra cinco" em vez de "vinte e um de maio". Resolvemos isso com pré-processamento antes de gerar voz — limpa markdown, traduz formatação, faz a frase soar humana. É detalhe chato. Mas é a diferença entre assistente que parece IA e assistente que parece concierge.

Sobre o autor

Anderson Henrique

Engenheiro de software com 8+ anos de experiência. Pernambucano, fundador do Chateau.ia. Trabalhou em projetos de tecnologia no Brasil, EUA, Reino Unido e Honduras.

Conhecer trajetória completa

Continue lendo