Ir para o conteúdo principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Análise de Cluster


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Sobre a análise de cluster

Quando analisamos nossos dados, muitas vezes nos preocupamos com diferentes grupos demográficos, e vamos segmentar os entrevistados por renda, região, idade e muito mais. Mas às vezes esses rótulos podem ser redutivos – afinal, saber que você tem muitos entrevistados do sexo masculino não diz que tipo de campanha publicitária eles gostariam de ver. Seu público é majoritariamente millenials? Anúncios de futebol? Os dois? Como você coloca características pessoais em condições que podem ser divididas para fins de marketing?

A análise de cluster é um meio de detectar os grupos que ocorrem naturalmente no conjunto de dados da sua pesquisa. Isso é feito analisando quais qualidades demográficas, comportamentais e/ou baseadas em crenças são as mais altamente correlacionadas.

Botão Cluster à esquerda na lista de opções Avançado

Qdica: Pode haver até 750 cartões em sua área de trabalho. Se você atingir esse limite, um erro será exibido quando você tentar criar um novo cartão, avisando que seus cartões mais antigos serão excluídos.

Preparação de uma pesquisa para análise de cluster

Para executar uma análise de cluster, você precisa coletar os dados corretos em sua pesquisa.

  • Faça as perguntas certas: 
    • Demografia: Pergunte sobre informações descritivas básicas, como idade, faixa de renda, raça ou sexo.
    • Comportamento: pergunte como os clientes interagem com sua marca e seus produtos ou sobre comportamentos que possam estar relacionados ao comportamento de compra deles. Por exemplo, você pode perguntar com que frequência o cliente vai às compras.
    • Dados operacionais: são informações como o tempo gasto no seu site ou o prazo do contrato de um funcionário em sua empresa.
      Qdica: Você está interessado em rastrear o tempo gasto em uma página?  Em seguida, talvez você tenha interesse em usar nosso recurso de Website Feedback. Entre em contato com seu Executivo de contas se você estiver interessado em saber mais.
    • Atitudes e crenças: pesquise seus entrevistados sobre seus principais valores, atitudes e crenças. Isso pode incluir crenças religiosas ou políticas, mas você também pode perguntar sobre crenças diretamente relevantes para o modo como sua empresa trabalha. Por exemplo, você pode pedir a eles que classifiquem a importância de interações de suporte serem presenciais.
  • Formatos de perguntas: Formatar perguntas sobre comportamentos e crenças como escalas. O intervalo em uma escala pode nos ajudar a entender quais pontos de escala estão correlacionados e, portanto, aproximadamente no mesmo cluster; Sim/Não e perguntas de seleção única não são tão úteis para a análise de cluster.
    Exemplo: Se você perguntar “Que tipo de comprador você é?” e oferece as opções “Prefere comprar em shoppings”, “Preferir comprar online” e “Preferir comprar em butiques”, o algoritmo de agrupamento desejará dividir os entrevistados em três grupos, um para cada resposta. Se, em vez disso, você os perguntou como uma série de perguntas (por exemplo, “Você gosta de comprar em shoppings?”) com as respostas de 1 a 7, o algoritmo de agrupamento fará um trabalho melhor para realmente discernir o que separa compradores diferentes um do outro.
    Qdica: As perguntas de múltipla escolha são as melhores para coletar dados escalares.
  • Tipos de variável: Quando estiver pronto para analisar no Stats iQ, certifique-se de formatar suas variáveis como categorias ou números. As datas são incompatíveis com a análise de cluster.
Qdica: Ao criar suas variáveis, considere aquelas que você já sabe que estão altamente correlacionadas. Isso ajudará você a permanecer no limite de 10 variáveis na análise de cluster.
Atenção: a análise de cluster tem um tamanho de amostra máximo de 20.000 respostas.

Executar análise de cluster

Qdica: Você só pode executar uma análise de cluster em 10 variáveis de cada vez. Se você quiser incluir mais, tente encontrar variáveis altamente correlacionadas entre si e crie uma média delas usando o botão Criar ou limpar variável.

Botão Cluster à esquerda na lista de opções Avançado

  1. Certifique-se de que os tipos de variável das perguntas estejam definidos como número ou categórico.
  2. Selecione as variáveis que deseja analisar à esquerda.
  3. Clique em Cluster.

Resultados da análise de cluster

Tabela de força e estatística

A tabela listará o tamanho da amostra (quantos entrevistados contribuíram com os dados para esta análise), o número de clusters e a pontuação da silhueta. A pontuação da silhueta é interpretada em frases como “muito forte” na frase no topo.

Os entrevistados são muito fortemente agrupados em 2 grupos; tamanho da amostra 126; número de clusters 2; escore de silhueta 0,7

Qdica: Para obter mais informações sobre a pontuação da silhueta exibida nesta tabela, consulte a seção Análise de interpretação de cluster.

A análise de cluster tenta escolher o número apropriado de clusters automaticamente, avaliando a rigidez do agrupamento em vários números, mas penalizando um número maior de clusters por ser mais difícil de trabalhar. Escolher o número certo é mais arte do que ciência, e você deve experimentar com números diferentes para ver o que funciona melhor.

Em alguns casos, o algoritmo não será capaz de produzir um determinado número de clusters e voltará a um número menor.

Resumo de Cluster

Seus clusters serão listados na seção Resumo de cluster. Eles serão descritos com base nas questões que os membros do cluster responderam mais de forma semelhante.

cluster 1 e cluster 2 são descritos

Exemplo: o cluster 1 nesta captura de tela contém pessoas que são:

  • Casado
  • Ter mestrado
  • Tem poucas pessoas (familiares imediatos, crianças) morando em sua casa
  • Jovem

Clique no nome de um cluster para renomeá-lo.

Qdica: Renomear seus clusters é importante para fazer com que seus resultados façam mais sentido em um contexto real ou de marketing.

Renomeação de Cluster 1 para pais de millenial altamente instruídos

Tabela de resultados cluster

Na tabela Resultados de cluster, as variáveis principais do cluster serão destacadas. Para as variáveis categóricas, será dada a opção mais comum e a porcentagem de respondentes no cluster que forneceram essa resposta. Para variáveis de número, você verá uma resposta média.

Exemplo: nesta captura de tela, o nível de instrução é categórico, então vemos um detalhamento nas porcentagens de entrevistados com doutorado vs. Menos do que o ensino médio vs. Mestrado.

A idade é numérica aqui, por isso vemos a idade média para cada cluster (32,4 para cluster 1, 50,3 para cluster 2).

Tabela de resultados cluster

Para saber mais sobre a criação de variáveis a partir de clusters, consulte a seção Criar variável a partir de clusters.

Importância da Variável

A tabela Importância da variável mostra a força da relação entre cada variável e os clusters. Uma relação mais forte indica que a variável foi mais importante na criação dos clusters.

Para calcular isso, executamos regressões para cada variável. Por exemplo, executaríamos a idade em relação ao resultado do cluster, as horas trabalhadas em relação ao resultado do cluster, etc.

Os valores de coeficiente de determinação resultantes dessas regressões são depois escalonados de modo que o coeficiente de determinação mais alto seja definido como 1.

Exemplo: digamos que Q7 teve um coeficiente de determinação de 0,5, o mais alto do grupo. Precisamos dobrar isso para fixá-lo em 1. Isso significa que se a Q13 tivesse um coeficiente de determinação de 0,4, ela apareceria como 0,8 no gráfico abaixo.

Gráfico de barras horizontais azuis de Importância variável

Criação de novas variáveis a partir de resultados

Depois de determinar clusters entre seus entrevistados, você poderá transformar essas categorias em novas variáveis que pode analisar no Stats iQ!

Primeiro, certifique-se de renomear seus clusters clicando em seus nomes.

Renomeação de Cluster 1 para pais de millenial altamente instruídos

Qdica: A etapa de renomeação não é necessária, mas tornará seus dados mais limpos e compreensíveis para você e seus colegas.

Assim que seus clusters tiverem nomes que façam sentido para você, clique em Criar variável a partir de clusters na tabela Resultados de cluster. Isso adicionará automaticamente uma variável categórica à sua lista de variáveis à esquerda.

Criar variável a partir do botão de cluster em branco abaixo da tabela de resultados de cluster

Qdica: Esta variável só está disponível no Stats iQ. Ele não será exibido em nenhum outro lugar nos seus dados da Qualtrics.

Notas Técnicas

A análise de cluster no Stats iQ usa a análise de classe latente (LCA) para particionar os dados fornecidos pelo usuário em seus clusters subjacentes. Ao contrário de outros algoritmos de agrupamento, o algoritmo Stats iQ LCA permite que tipos de dados mistos sejam agrupados (numéricos, categóricos e binários).

Análise de classe latente de tipo misto

Latent Class Analysis (LCA) é um modelo de clustering baseado em probabilidade. Cada cluster é definido por uma coleção de funções de densidade de probabilidade que, com base no valor das variáveis de um ponto de dados, retorna a probabilidade de um ponto de dados específico pertencer a esse cluster.

Exemplo: Sua família pode ser dividida em algumas gerações, como os filhos atuais, os pais e os avós. Um modelo LCA representaria esses 3 clusters, onde cada cluster é definido por uma única função de probabilidade baseada na idade:

Cluster Função de probabilidade Média  Função de probabilidade Desvio padrão
Atual 25 7
Responsáveis 48 5
Avós 75 3

Para atribuir alguém com 30 anos a um cluster, use essas funções de densidade de probabilidade para calcular que há uma probabilidade de 44% de estar em Atual, <1% de probabilidade de estar em Pais e <1% de probabilidade de estar em Avós. Este indivíduo seria atribuído ao seu cluster mais provável, Atual.

Um modelo LCA pode ser aplicado a múltiplas variáveis multiplicando a probabilidade de um datapoint pertencer a um cluster baseado em cada variável. O modelo pode ser aplicado a diferentes tipos de variáveis usando diferentes funções de densidade de probabilidade:

Tipo Transformação Função de densidade de probabilidade
Categórico Codificado dummy (N-1) Bernoulli
Binário Bernoulli
Numérico Normal

Determinar número de classes

Para determinar o número ideal de classes, o Stats iQ utiliza uma pontuação BIC.

Avaliação do ajuste do modelo

Para avaliar a ‘bondade’ objetiva de um modelo, o Stats iQ utiliza um escore de silhueta baseado em probabilidade. Uma pontuação de silhueta é uma medida do quão bem cada ponto de dados está dentro de seu cluster. Um escore de silhueta mede a similaridade de um ponto particular com todos os outros pontos em seu cluster e compara isso ao quão semelhante é com todos os pontos em seu aglomerado vizinho mais próximo. Para medir a similaridade entre dois pontos de dados, o Stats iQ calcula a distância máxima (uma métrica de distância que funciona para dados binários, categóricos e numéricos) entre os pontos.

Perguntas frequentes

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.