Avaliação do Atendimento — Camaleão Camisas

Tempo de Primeira Resposta

Mensagens por Dia da Semana (Volume)

Mensagens por Horário

Sentimento dos Clientes

Ranking dos Atendentes

#	Nome	Conversas	Msgs	Resp. Mediana	Resp. P90 (10% piores)

Scorecard por Atendente

Nota de 0 a 10. Apenas atendentes com 3+ conversas no período. Clique no nome para ver o relatório individual.

#	Nome	Geral	Saudação	Cordialidade	Proatividade	Fechamento	Resolução	Satisfação	Convs

Mapa de Calor — Volume de Mensagens (Dia × Hora)

Evolução Mensal de Conversas

Análise Detalhada por IA (Gemini)

Amostra analisada pelo Gemini 2.5 Flash (dados globais, não filtrados por período)

Diagnóstico e Recomendações

Metodologia de Avaliação

Este relatório combina análise quantitativa automatizada, heurísticas de qualidade baseadas em palavras-chave e análise semântica por inteligência artificial (Gemini 2.5 Flash) para avaliar a qualidade do atendimento ao cliente via WhatsApp. A metodologia foi projetada com base em frameworks consolidados de avaliação de qualidade em contact centers e atendimento digital.

1. Fonte de Dados

Os dados foram extraídos do backup de conversas do WhatsApp Business do número principal de atendimento da Camaleão Camisas. Cada pasta de conversa contém o histórico completo de mensagens com um cliente, incluindo textos, mídias, áudios e eventos de sistema.

O parsing utiliza expressão regular sobre o formato padrão de exportação do WhatsApp ([DD/MM/AAAA HH:MM:SS] Remetente: mensagem) para estruturar cada mensagem com timestamp, remetente, tipo de conteúdo (texto, imagem, áudio, vídeo, documento) e classificação do participante.

A classificação de participantes segue uma whitelist de 14 funcionários identificados manualmente, com mapa de unificação para tratar variações de nome (ex: "Kassio", "Kassio soares", "Kássio colaborador" → "Kassio Soares"). Mensagens de remetentes genéricos ("cliente", "CADASTRAR", "Camaleao Camisas") são reclassificadas como sistema. Mensagens de spam (cobranças, marketing) são identificadas por palavras-chave e marcadas para exclusão das análises.

2. Métricas Quantitativas

As métricas quantitativas seguem padrões estabelecidos pela indústria de atendimento ao cliente, conforme referenciados pelo COPC Customer Experience Standard (Customer Operations Performance Center, 2023) e pelo Contact Center Benchmarking Report da MetricNet.

Métrica	Definição	Cálculo
Tempo de Primeira Resposta (FRT)	Tempo entre a primeira mensagem do cliente e a primeira resposta humana	Mediana e P90 dos intervalos em segundos
Tempo de Resolução	Duração total da conversa, da primeira à última mensagem	Diferença entre timestamps
Taxa de Transferência	Proporção de conversas com troca de atendente	Eventos `AGENT_CHANGE_ADMIN` / total de conversas
Taxa de Abandono	Conversas onde o cliente não recebeu resposta humana	Última msg = cliente e msgs_atendente = 0
Volume por Atendente	Conversas, mensagens enviadas, dias ativos e msgs/dia	Contagem e agregação por remetente
Distribuição Temporal	Mapa de calor de atividade por dia da semana e hora	Histograma de timestamps das mensagens

A escolha de mediana e P90 (em vez de média) para tempos de resposta segue a recomendação de Kaplan & Norton (1996) para métricas de serviço com distribuições assimétricas, onde outliers (conversas retomadas dias depois) distorcem a média aritmética.

3. Scorecard Heurístico (Análise por Regras)

O scorecard avalia cada conversa individualmente através de análise léxica baseada em palavras-chave, uma abordagem de NLP (Natural Language Processing) amplamente utilizada em sistemas de Quality Assurance de contact centers. A metodologia é inspirada no modelo SERVQUAL (Parasuraman, Zeithaml & Berry, 1988) adaptado para atendimento digital, e nos critérios do Quality Monitoring Scorecard padrão do setor (Cleveland & Mayben, 1997).

Critério	Peso	Método de Pontuação
Saudação	1x	Detecção de cumprimento na primeira mensagem do atendente ("bom dia", "boa tarde", "olá", "oi", "bem vindo"). Score: 8 se presente, 0 se ausente.
Cordialidade	2x	Base 5 ± ajustes: +2 se contém emojis (indicador de tom amigável); +2 se usa "por favor", "obrigado", "agradeço"; −3 se detectadas palavras de grosseria. Clamp 0-10.
Proatividade	1x	Base 5 ± ajustes: +2 se menciona "tabela de medidas", "prazos", "formas de pagamento" (informação antecipada); +1 se atendente enviou mais mensagens que o cliente. Clamp 0-10.
Fechamento	1x	Detecção de encerramento na última mensagem do atendente ("obrigado", "qualquer dúvida", "estamos à disposição", "até logo", "tenha um bom"). Score: 8 se presente, 0 se ausente.
Resolução	3x	Base 5 ± ajustes: +3 se sentimento positivo; −2 se sentimento negativo; +2 se mensagens finais mencionam "pronto", "finalizado", "entregue", "enviado". Clamp 0-10.

Nota Geral = média ponderada: (saudação×1 + cordialidade×2 + proatividade×1 + fechamento×1 + resolução×3) / 8

Os pesos refletem o impacto relativo de cada dimensão na satisfação do cliente: resolução recebe o maior peso (3x) por ser o principal determinante da satisfação segundo Parasuraman et al. (1988) e confirmado por pesquisas do Harvard Business Review ("Stop Trying to Delight Your Customers", Dixon, Freeman & Toman, 2010), que demonstram que resolver o problema na primeira interação é mais impactante que "encantar" o cliente.

4. Classificação de Sentimento

O sentimento é classificado por análise léxica baseada em léxicos de opinião, uma abordagem clássica de análise de sentimento (Liu, 2012). São utilizadas duas listas de palavras-chave:

Léxico positivo (12 termos): "perfeito", "excelente", "maravilhoso", "amei", "adorei", "parabéns", "muito bom", "top", "show", "sensacional", "satisfeito", "recomendo"
Léxico negativo (16 termos): "demora", "demorou", "cadê", "atrasado", "insatisfeito", "reclamação", "péssimo", "horrível", "absurdo", "vergonha", "nunca mais", "procon", "reclame aqui", "devolver", "reembolso", "cancelar"

Regra de decisão: se contagem negativa ≥ 2 → negativo; se positiva ≥ 2 → positivo; se negativa > positiva → negativo; se positiva > negativa → positivo; caso contrário → neutro. Apenas mensagens do cliente são analisadas (excluindo spam).

A abordagem por léxicos é uma simplificação consciente — métodos mais sofisticados (BERT, GPT) produzem melhores resultados para textos curtos e informais (como WhatsApp), mas exigem infraestrutura e custo significativamente maiores. A análise Gemini (Fase 5) complementa essa limitação nas amostras analisadas.

5. Classificação de Tipo de Conversa

Cada conversa é classificada em uma categoria funcional através de contagem de palavras-chave temáticas, priorizando categorias de maior especificidade:

Tipo	Prioridade	Palavras-chave (exemplos)
Reclamação	1ª (≥2 hits)	"reclamação", "errado", "defeito", "problema", "veio errado", "não gostei", "refazer"
Orçamento	2ª (≥1 hit)	"orçamento", "valor", "preço", "quanto custa", "tabela", "cotação"
Acompanhamento	3ª (≥1 hit)	"como está", "andamento", "prazo", "quando fica", "já está pronto", "entrega"
Produção	4ª	Atendente mencionou "produção" ou "impresso"
Geral	Fallback	Não se encaixa nas categorias acima

6. Análise por Inteligência Artificial (Gemini 2.5 Flash)

Uma amostra estratificada de aproximadamente 100 conversas é submetida ao modelo Google Gemini 2.5 Flash para análise semântica profunda. O modelo avalia cada conversa individualmente com compreensão contextual completa — diferente da heurística, a IA consegue interpretar nuances, ironia, tom e contexto implícito.

Amostragem

A seleção prioriza diversidade: 1 a cada 30 conversas (amostra sistemática), filtrando apenas aquelas com ≥4 mensagens de texto relevantes. Conversas são limitadas a 40 mensagens e 8.000 caracteres para respeitar o contexto do modelo.

Critérios Avaliados pela IA

O modelo recebe um schema JSON estruturado (responseMimeType: application/json) que força 8 notas numéricas (0-10), classificação de tipo e sentimento, resumo textual, pontos fortes/fracos e oportunidades perdidas de venda:

Saudação — cumprimentou adequadamente?
Compreensão — entendeu o que o cliente queria?
Proatividade — antecipou necessidades?
Clareza — comunicou de forma clara?
Cordialidade — tom educado e profissional?
Resolução — problema/pedido foi resolvido?
Tempo — respostas em tempo aceitável?
Fechamento — encerrou adequadamente?

Nota Geral IA = média aritmética simples dos 8 critérios.

O uso de LLMs para avaliação de qualidade de atendimento está documentado em pesquisas recentes, incluindo Zheng et al. (2023) — "Judging LLM-as-a-Judge", que demonstra alta correlação entre avaliação por modelos de linguagem e avaliadores humanos em tarefas de pontuação de qualidade textual.

7. Relatórios Individuais

Os relatórios por atendente combinam dados de todas as fontes para gerar análises contextualizadas e únicas:

Ranking comparativo — posição em cada critério vs. equipe
Análise de volume — número de conversas, msgs/conversa, tipos de demanda
Perfil de atuação — % orçamento, acompanhamento, reclamação, produção
Consistência temporal — relação P90/mediana no tempo de resposta
Insights da IA — citações diretas do Gemini para pontos fortes/fracos
Correlações — cruzamento entre satisfação, cordialidade, resolução e fechamento

8. Limitações Conhecidas

Análise léxica simplificada — não captura ironia, contexto implícito ou variações regionais do português brasileiro. O sentimento "neutro" (80.9%) inclui conversas cuja polaridade não foi detectada.
Saudação e Fechamento binários — a heurística atribui 8 ou 0, sem gradações. Conversas com saudação parcial ("e aí") recebem 0.
Amostragem Gemini — a IA analisou ~100 de 3.600+ conversas. Atendentes com baixo volume podem ter 0-2 amostras, insuficientes para conclusões robustas.
Conversas multi-atendente — quando há transferência, os scores são atribuídos a todos os atendentes da conversa, o que pode distorcer resultados individuais.
Ausência de dados externos — não há integração com NPS, CSAT ou pesquisas de satisfação formais. O sentimento é inferido exclusivamente das mensagens.
Período temporal — funcionários que trabalharam em períodos diferentes podem não ser diretamente comparáveis (sazonalidade, volume, aprendizado).

Referências

Cleveland, J. & Mayben, P. (1997). Call Center Management on Fast Forward. ICMI Press. — Framework de Quality Monitoring Scorecard para contact centers.
COPC Inc. (2023). COPC CX Standard for Contact Centers, Release 7.0. — Padrão internacional de métricas operacionais de atendimento (FRT, FCR, Handle Time).
Dixon, M., Freeman, K. & Toman, N. (2010). Stop Trying to Delight Your Customers. Harvard Business Review, 88(7/8), 116-122. — Resolução no primeiro contato supera "encantamento" como driver de lealdade.
Kaplan, R.S. & Norton, D.P. (1996). The Balanced Scorecard. Harvard Business School Press. — Uso de percentis (P50, P90) vs médias em métricas de desempenho.
Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool. — Fundamentos de análise de sentimento por léxicos.
MetricNet (2024). Contact Center Benchmarking Report. — Benchmarks de tempo de resposta e satisfação em atendimento digital.
Parasuraman, A., Zeithaml, V.A. & Berry, L.L. (1988). SERVQUAL: A Multiple-Item Scale for Measuring Consumer Perceptions of Service Quality. Journal of Retailing, 64(1), 12-40. — Modelo de 5 dimensões de qualidade de serviço.
Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685. — Validação de LLMs como avaliadores de qualidade textual.

Análise de Qualidade de Atendimento