Avaliação de Qualidade do Atendimento

Análise de Qualidade de Atendimento

Camaleao Camisas | WhatsApp
Visão Geral
Atendentes
Scorecard
Mapa de Calor
Evolução
Análise IA
Recomendações
Metodologia

Tempo de Primeira Resposta

Mensagens por Dia da Semana (Volume)

Mensagens por Horário

Sentimento dos Clientes

Ranking dos Atendentes

#NomeConversasMsgsResp. MedianaResp. P90 (10% piores)

Scorecard por Atendente

Nota de 0 a 10. Apenas atendentes com 3+ conversas no período. Clique no nome para ver o relatório individual.

#NomeGeralSaudaçãoCordialidadeProatividadeFechamentoResoluçãoSatisfaçãoConvs

Mapa de Calor — Volume de Mensagens (Dia × Hora)

Evolução Mensal de Conversas

Análise Detalhada por IA (Gemini)

Amostra analisada pelo Gemini 2.5 Flash (dados globais, não filtrados por período)

Diagnóstico e Recomendações

Metodologia de Avaliação

Este relatório combina análise quantitativa automatizada, heurísticas de qualidade baseadas em palavras-chave e análise semântica por inteligência artificial (Gemini 2.5 Flash) para avaliar a qualidade do atendimento ao cliente via WhatsApp. A metodologia foi projetada com base em frameworks consolidados de avaliação de qualidade em contact centers e atendimento digital.

1. Fonte de Dados

Os dados foram extraídos do backup de conversas do WhatsApp Business do número principal de atendimento da Camaleão Camisas. Cada pasta de conversa contém o histórico completo de mensagens com um cliente, incluindo textos, mídias, áudios e eventos de sistema.

O parsing utiliza expressão regular sobre o formato padrão de exportação do WhatsApp ([DD/MM/AAAA HH:MM:SS] Remetente: mensagem) para estruturar cada mensagem com timestamp, remetente, tipo de conteúdo (texto, imagem, áudio, vídeo, documento) e classificação do participante.

A classificação de participantes segue uma whitelist de 14 funcionários identificados manualmente, com mapa de unificação para tratar variações de nome (ex: "Kassio", "Kassio soares", "Kássio colaborador" → "Kassio Soares"). Mensagens de remetentes genéricos ("cliente", "CADASTRAR", "Camaleao Camisas") são reclassificadas como sistema. Mensagens de spam (cobranças, marketing) são identificadas por palavras-chave e marcadas para exclusão das análises.

2. Métricas Quantitativas

As métricas quantitativas seguem padrões estabelecidos pela indústria de atendimento ao cliente, conforme referenciados pelo COPC Customer Experience Standard (Customer Operations Performance Center, 2023) e pelo Contact Center Benchmarking Report da MetricNet.

MétricaDefiniçãoCálculo
Tempo de Primeira Resposta (FRT)Tempo entre a primeira mensagem do cliente e a primeira resposta humanaMediana e P90 dos intervalos em segundos
Tempo de ResoluçãoDuração total da conversa, da primeira à última mensagemDiferença entre timestamps
Taxa de TransferênciaProporção de conversas com troca de atendenteEventos AGENT_CHANGE_ADMIN / total de conversas
Taxa de AbandonoConversas onde o cliente não recebeu resposta humanaÚltima msg = cliente e msgs_atendente = 0
Volume por AtendenteConversas, mensagens enviadas, dias ativos e msgs/diaContagem e agregação por remetente
Distribuição TemporalMapa de calor de atividade por dia da semana e horaHistograma de timestamps das mensagens

A escolha de mediana e P90 (em vez de média) para tempos de resposta segue a recomendação de Kaplan & Norton (1996) para métricas de serviço com distribuições assimétricas, onde outliers (conversas retomadas dias depois) distorcem a média aritmética.

3. Scorecard Heurístico (Análise por Regras)

O scorecard avalia cada conversa individualmente através de análise léxica baseada em palavras-chave, uma abordagem de NLP (Natural Language Processing) amplamente utilizada em sistemas de Quality Assurance de contact centers. A metodologia é inspirada no modelo SERVQUAL (Parasuraman, Zeithaml & Berry, 1988) adaptado para atendimento digital, e nos critérios do Quality Monitoring Scorecard padrão do setor (Cleveland & Mayben, 1997).

CritérioPesoMétodo de Pontuação
Saudação1xDetecção de cumprimento na primeira mensagem do atendente ("bom dia", "boa tarde", "olá", "oi", "bem vindo"). Score: 8 se presente, 0 se ausente.
Cordialidade2xBase 5 ± ajustes: +2 se contém emojis (indicador de tom amigável); +2 se usa "por favor", "obrigado", "agradeço"; −3 se detectadas palavras de grosseria. Clamp 0-10.
Proatividade1xBase 5 ± ajustes: +2 se menciona "tabela de medidas", "prazos", "formas de pagamento" (informação antecipada); +1 se atendente enviou mais mensagens que o cliente. Clamp 0-10.
Fechamento1xDetecção de encerramento na última mensagem do atendente ("obrigado", "qualquer dúvida", "estamos à disposição", "até logo", "tenha um bom"). Score: 8 se presente, 0 se ausente.
Resolução3xBase 5 ± ajustes: +3 se sentimento positivo; −2 se sentimento negativo; +2 se mensagens finais mencionam "pronto", "finalizado", "entregue", "enviado". Clamp 0-10.

Nota Geral = média ponderada: (saudação×1 + cordialidade×2 + proatividade×1 + fechamento×1 + resolução×3) / 8

Os pesos refletem o impacto relativo de cada dimensão na satisfação do cliente: resolução recebe o maior peso (3x) por ser o principal determinante da satisfação segundo Parasuraman et al. (1988) e confirmado por pesquisas do Harvard Business Review ("Stop Trying to Delight Your Customers", Dixon, Freeman & Toman, 2010), que demonstram que resolver o problema na primeira interação é mais impactante que "encantar" o cliente.

4. Classificação de Sentimento

O sentimento é classificado por análise léxica baseada em léxicos de opinião, uma abordagem clássica de análise de sentimento (Liu, 2012). São utilizadas duas listas de palavras-chave:

  • Léxico positivo (12 termos): "perfeito", "excelente", "maravilhoso", "amei", "adorei", "parabéns", "muito bom", "top", "show", "sensacional", "satisfeito", "recomendo"
  • Léxico negativo (16 termos): "demora", "demorou", "cadê", "atrasado", "insatisfeito", "reclamação", "péssimo", "horrível", "absurdo", "vergonha", "nunca mais", "procon", "reclame aqui", "devolver", "reembolso", "cancelar"

Regra de decisão: se contagem negativa ≥ 2 → negativo; se positiva ≥ 2 → positivo; se negativa > positiva → negativo; se positiva > negativa → positivo; caso contrário → neutro. Apenas mensagens do cliente são analisadas (excluindo spam).

A abordagem por léxicos é uma simplificação consciente — métodos mais sofisticados (BERT, GPT) produzem melhores resultados para textos curtos e informais (como WhatsApp), mas exigem infraestrutura e custo significativamente maiores. A análise Gemini (Fase 5) complementa essa limitação nas amostras analisadas.

5. Classificação de Tipo de Conversa

Cada conversa é classificada em uma categoria funcional através de contagem de palavras-chave temáticas, priorizando categorias de maior especificidade:

TipoPrioridadePalavras-chave (exemplos)
Reclamação1ª (≥2 hits)"reclamação", "errado", "defeito", "problema", "veio errado", "não gostei", "refazer"
Orçamento2ª (≥1 hit)"orçamento", "valor", "preço", "quanto custa", "tabela", "cotação"
Acompanhamento3ª (≥1 hit)"como está", "andamento", "prazo", "quando fica", "já está pronto", "entrega"
ProduçãoAtendente mencionou "produção" ou "impresso"
GeralFallbackNão se encaixa nas categorias acima

6. Análise por Inteligência Artificial (Gemini 2.5 Flash)

Uma amostra estratificada de aproximadamente 100 conversas é submetida ao modelo Google Gemini 2.5 Flash para análise semântica profunda. O modelo avalia cada conversa individualmente com compreensão contextual completa — diferente da heurística, a IA consegue interpretar nuances, ironia, tom e contexto implícito.

Amostragem

A seleção prioriza diversidade: 1 a cada 30 conversas (amostra sistemática), filtrando apenas aquelas com ≥4 mensagens de texto relevantes. Conversas são limitadas a 40 mensagens e 8.000 caracteres para respeitar o contexto do modelo.

Critérios Avaliados pela IA

O modelo recebe um schema JSON estruturado (responseMimeType: application/json) que força 8 notas numéricas (0-10), classificação de tipo e sentimento, resumo textual, pontos fortes/fracos e oportunidades perdidas de venda:

  • Saudação — cumprimentou adequadamente?
  • Compreensão — entendeu o que o cliente queria?
  • Proatividade — antecipou necessidades?
  • Clareza — comunicou de forma clara?
  • Cordialidade — tom educado e profissional?
  • Resolução — problema/pedido foi resolvido?
  • Tempo — respostas em tempo aceitável?
  • Fechamento — encerrou adequadamente?

Nota Geral IA = média aritmética simples dos 8 critérios.

O uso de LLMs para avaliação de qualidade de atendimento está documentado em pesquisas recentes, incluindo Zheng et al. (2023) — "Judging LLM-as-a-Judge", que demonstra alta correlação entre avaliação por modelos de linguagem e avaliadores humanos em tarefas de pontuação de qualidade textual.

7. Relatórios Individuais

Os relatórios por atendente combinam dados de todas as fontes para gerar análises contextualizadas e únicas:

  • Ranking comparativo — posição em cada critério vs. equipe
  • Análise de volume — número de conversas, msgs/conversa, tipos de demanda
  • Perfil de atuação — % orçamento, acompanhamento, reclamação, produção
  • Consistência temporal — relação P90/mediana no tempo de resposta
  • Insights da IA — citações diretas do Gemini para pontos fortes/fracos
  • Correlações — cruzamento entre satisfação, cordialidade, resolução e fechamento

8. Limitações Conhecidas

  • Análise léxica simplificada — não captura ironia, contexto implícito ou variações regionais do português brasileiro. O sentimento "neutro" (80.9%) inclui conversas cuja polaridade não foi detectada.
  • Saudação e Fechamento binários — a heurística atribui 8 ou 0, sem gradações. Conversas com saudação parcial ("e aí") recebem 0.
  • Amostragem Gemini — a IA analisou ~100 de 3.600+ conversas. Atendentes com baixo volume podem ter 0-2 amostras, insuficientes para conclusões robustas.
  • Conversas multi-atendente — quando há transferência, os scores são atribuídos a todos os atendentes da conversa, o que pode distorcer resultados individuais.
  • Ausência de dados externos — não há integração com NPS, CSAT ou pesquisas de satisfação formais. O sentimento é inferido exclusivamente das mensagens.
  • Período temporal — funcionários que trabalharam em períodos diferentes podem não ser diretamente comparáveis (sazonalidade, volume, aprendizado).

Referências

  • Cleveland, J. & Mayben, P. (1997). Call Center Management on Fast Forward. ICMI Press. — Framework de Quality Monitoring Scorecard para contact centers.
  • COPC Inc. (2023). COPC CX Standard for Contact Centers, Release 7.0. — Padrão internacional de métricas operacionais de atendimento (FRT, FCR, Handle Time).
  • Dixon, M., Freeman, K. & Toman, N. (2010). Stop Trying to Delight Your Customers. Harvard Business Review, 88(7/8), 116-122. — Resolução no primeiro contato supera "encantamento" como driver de lealdade.
  • Kaplan, R.S. & Norton, D.P. (1996). The Balanced Scorecard. Harvard Business School Press. — Uso de percentis (P50, P90) vs médias em métricas de desempenho.
  • Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool. — Fundamentos de análise de sentimento por léxicos.
  • MetricNet (2024). Contact Center Benchmarking Report. — Benchmarks de tempo de resposta e satisfação em atendimento digital.
  • Parasuraman, A., Zeithaml, V.A. & Berry, L.L. (1988). SERVQUAL: A Multiple-Item Scale for Measuring Consumer Perceptions of Service Quality. Journal of Retailing, 64(1), 12-40. — Modelo de 5 dimensões de qualidade de serviço.
  • Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685. — Validação de LLMs como avaliadores de qualidade textual.