Ir para o conteúdo principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Análise de correspondência (BX)


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Sobre a análise de correspondência

A análise de correspondência revela as relações relativas entre e dentro de dois grupos de variáveis, com base em dados fornecidos em uma tabela de contingência. Para percepções da marca, estes dois grupos são:

  1. Marcas
  2. Atributos que se aplicam a essas marcas

Por exemplo, digamos que uma empresa quer saber quais atributos os consumidores associam a diferentes marcas de produtos de bebidas. A análise de correspondência ajuda a medir semelhanças entre marcas e a força das marcas em termos de suas relações com diferentes atributos. Entender as relações relativas permite que os donos das marcas identifiquem os efeitos de ações anteriores em diferentes atributos relacionados à marca e decidam as próximas etapas a serem executadas.

A análise de correspondência é valiosa nas percepções da marca por alguns motivos. Ao tentar observar relações relativas entre marcas e atributos, o tamanho da marca pode ter um efeito enganoso; a análise de correspondência remove esse efeito. A análise de correspondência também oferece uma visão rápida intuitiva das relações de atributo de marca (com base na proximidade e na distância da origem) que não é fornecida por muitos outros gráficos.

Qdica: Esta página é sobre a teoria da análise de correspondência – para o widget específico, consulte Widget Análise de correspondência.

Nesta página, explicaremos um exemplo de como aplicar a análise de correspondência a um caso de uso de diferentes marcas (fictícias) de produtos de refrigerantes.

Vamos começar com o formato de dados de entrada – uma tabela de contingência.

Tabelas de contingência

Uma tabela de contingência é uma tabela bidimensional com grupos de variáveis nas linhas e colunas. Se nossos grupos, como descrito acima, fossem marcas e seus atributos associados, executaríamos pesquisas e retornaríamos diferentes contagens de respostas associando diferentes marcas aos atributos indicados. Cada célula na tabela representa o número de respostas ou contagens que associam esse atributo a essa marca. Essa “associação” seria exibida por meio de uma pergunta de pesquisa, como “Escolher marcas de uma lista abaixo da qual você acredita que mostra o atributo ___”.

Aqui, os dois grupos são “marcas” (linhas) e “atributos” (colunas). A célula no canto inferior direito representa a contagem de respostas para a marca “Brawndo” e o atributo “Econômico”.

Desagradável Estética Econômico
Cerveja borboleta 5 7 2
Município de Squishee 18 46 20
Slurm 19 29 39
Fizzy Lifting Drink 12 40 49
Brawndo 3 7 16

Resíduos (R)

Na análise de correspondência, queremos ver os resíduos de cada célula. Um resíduo quantifica a diferença entre os dados observados e os dados que esperaríamos – assumindo que não há relação entre as categorias de linha e coluna (aqui, essas seriam marca e atributo). Um resíduo positivo nos mostra que a contagem para esse pareamento de atributos de marca é muito superior ao esperado, sugerindo uma relação forte; correspondentemente, um resíduo negativo apresenta um valor inferior ao esperado, sugerindo uma relação mais fraca. Vamos percorrer o cálculo desses resíduos.

Um resíduo (R) é igual a: R = P – E, onde P é as proporções observadas e E é as proporções esperadas para cada célula.  Vamos detalhar essas proporções observadas e esperadas!

Proporções observadas (P)

Uma proporção observada (P) é igual ao valor em uma célula dividido pela soma total de todos os valores na tabela. Assim, para nossa tabela de contingência acima, a soma total seria: 5 + 7 + 2 + 18 … + 16 = 312. Dividir o valor de cada célula pelo total de resultados na tabela abaixo para proporções observadas (P).

Por exemplo, na célula inferior direita, tomamos o valor inicial da célula de 16/312 = 0,051. Isso nos diz a proporção de todo o nosso gráfico que o emparelhamento de Brawndo e Economic representa com base em nossos dados coletados.

Desagradável Estética Econômico
Cerveja borboleta 0.016 0.022 0.006
Município de Squishee 0.058 0.147 0.064
Slurm 0.061 0.093 0.125
Fizzy Lifting Drink 0.038 0.128 0.157
Brawndo 0.01 0.022 0.051

Massas de linhas e colunas

Algo que podemos calcular facilmente a partir de nossas proporções observadas, e será usado muito depois, são as somas das linhas e colunas de nossa tabela de proporções, que são conhecidas como as massas de linha e coluna. Uma massa de linha ou coluna é a proporção de valores para essa linha/coluna. A massa da linha para “Butterbeer”, olhando para nosso gráfico acima, seria 0,016 + 0,022 + 0,006, nos dando 0,044.

Fazendo cálculos semelhantes, acabamos com:

Desagradável Estética Econômico Massas de linha
Cerveja borboleta 0.016 0.022 0,006 0.044
Município de Squishee 0.058 0,147 0.064 0.269
Slurm 0.061 0.093 0,125 0.279
Fizzy Lifting Drink 0.038 0,128 0.157 0.324
Brawndo 0,01 0.022 0.051 0.083
Massas de coluna 0.182 0.413 0.404  

Proporções previstas (E)

Proporções esperadas (E) seriam o que esperávamos ver na proporção de cada célula, assumindo que não há relação entre linhas e colunas. Nosso valor esperado para uma célula seria a massa da linha dessa célula multiplicada pela massa da coluna daquela célula.

Veja na célula superior esquerda, a massa da linha para Butterbeer multiplicada pela massa da coluna para Tasty, 0,044 * 0,182 = 0,008.

Desagradável Estética Econômico
Cerveja borboleta 0.008 0.019 0.018
Município de Squishee 0.049 0.111 0.109
Slurm 0.051 0.115 0.113
Fizzy Lifting Drink 0.059 0.134 0.131
Brawndo 0.015 0.034 0.034

Agora podemos calcular nossa tabela de resíduos (R), onde R = P – E. Os resíduos quantificam a diferença entre as proporções dos nossos dados observados e as proporções esperadas dos nossos dados, se assumirmos que não há relação entre as linhas e colunas.

Tomando o nosso valor mais negativo de -0,045 para Squishee e Econômico, o que interpretaríamos aqui é que há uma associação negativa entre Squishee e Econômico; Squishee é muito menos provável de ser visto como “Econômico” do que nossas outras marcas de bebidas.

Desagradável Estética Econômico
Cerveja borboleta 0,008 0.004 -0.012
Município de Squishee 0.009 0.036 -0.045
Slurm 0,01 -0,022 0.012
Fizzy Lifting Drink -0.021 -0,006 0.026
Brawndo -0,006 -0,012 0.018

Resíduos indexados (I)

No entanto, há alguns problemas com apenas a leitura de resíduos.

Observando a linha superior da tabela de cálculo de resíduos acima, vemos que todos esses números estão muito próximos de zero. Não devemos tirar a óbvia conclusão disso de que a Butterbeer não está relacionada com nossos atributos, pois essa suposição é incorreta. A explicação real seria que as proporções observadas (P) e as proporções esperadas (E) são pequenas porque, como a nossa massa de fileira nos diz, apenas 4,4% da amostra são Butterbeer.

Isso levanta um grande problema ao olhar para os resíduos, na medida em que, por desconsiderarmos o número real de registros nas linhas e colunas, nossos resultados são desviados para as linhas/colunas com massas maiores. Podemos corrigir isso dividindo nossos resíduos por nossas proporções esperadas (E), nos dando uma tabela de nossos resíduos indexados (I, I = R / E):

Desagradável Estética Econômico
Cerveja borboleta 0.95 0.21 -0.65
Município de Squishee 0.17 0.32 -0.41
Slurm 0,2 -0.19 0.11
Fizzy Lifting Drink -0.35 -0.04 0,2
Brawndo -0.37 -0,35 0.52

Os resíduos indexados são de fácil interpretação: quanto maior o valor da tabela, maior a proporção observada em relação à proporção esperada.

Por exemplo, tomando o maior valor à esquerda, a Butterbeer tem 95% mais probabilidade de ser vista como “Tasty” do que o que esperávamos se não houvesse relação entre essas marcas e atributos. Enquanto que no valor mais alto da direita, a Butterbeer tem 65% menos probabilidade de ser vista como “Econômica” do que o que esperávamos – sem nenhuma relação entre nossas marcas e atributos.

Desagradável Estética Econômico
Cerveja borboleta 0,95 0,21 -0,65
Município de Squishee 0,17 0,32 -0,41
Slurm 0,2 -0,19 0.11
Fizzy Lifting Drink -0,35 -0,04 0,2
Brawndo -0,37 -0,35 0,52

Tendo em vista nossos resíduos indexados (I), nossas proporções esperadas (E), nossas proporções observadas (P) e nossas massas de linhas e colunas, vamos calcular nossos valores de análise de correspondência para nosso gráfico!

Cálculo de coordenadas para análise de correspondência

Decomposição de valor singular (SVD)

Nosso primeiro passo é calcular a decomposição do valor singular, ou SVD. O SVD nos fornece valores para calcular o desvio e traçar nossas linhas e colunas (marcas e atributos).

Calculamos o SVD sobre o resíduo padronizado (Z), onde Z = I * sqrt(E), onde I é o nosso resíduo indexado, e E é nossas proporções esperadas. A multiplicação por E faz com que nossa SVD seja ponderada, de modo que células com maior valor esperado recebem um peso maior, e vice-versa, o que significa que, como os valores esperados estão frequentemente relacionados ao tamanho da amostra, células “menores” na tabela, onde o erro amostral teria sido maior, são minimizadas. Assim, a análise de correspondência utilizando uma tabela de contingência é relativamente robusta para anomalias causadas por erro de amostragem.

Voltando ao SVD, temos: SVD = svd(Z). Uma decomposição de valor único gera 3 saídas:

Um vetor, d, contendo os valores singulares.

1ª dimensão 2ª dimensão 3ª dimensão
2.65E-01 1.14E-01 4.21E-17

Uma matriz, u, contendo os vetores singulares esquerdos (marcas).

1ª dimensão 2ª dimensão 3ª dimensão
Cerveja borboleta -0.439 -0.424 -0.084
Município de Squishee -0.652 0.355 -0.626
Slurm 0.16 -0.0672 -0,424
Fizzy Lifting Drink 0.371 0.488 -0.274
Brawndo 0.469 -0.06 -0.588

Uma matriz, v, contendo os vetores singulares direitos (atributos).

1ª dimensão 2ª dimensão 3ª dimensão
Desagradável -0,41 -0.81 -0.427
Estética -0.489 >0.59 -0.643
Econômico 0.77 -0.055 -0.635

Os vetores singulares à esquerda correspondem às categorias nas linhas da tabela, e os vetores singulares à direita correspondem às colunas. Cada um dos valores singulares, para o cálculo da variância, e os vetores correspondentes (ou seja, colunas de u e v), para plotar posições, correspondem a uma dimensão. As coordenadas utilizadas para plotar categorias de linha e coluna para nosso gráfico de análise de correspondência são derivadas das duas primeiras dimensões.

Variância expressa por nossas dimensões

Valores quadrados singulares são conhecidos como autovalores (d^2). Os autovalores em nosso exemplo são 0,0704, 0,0129 e 0,0000. Exprimindo cada autovalor como uma proporção da soma total nos diz a quantidade de variância capturada em cada dimensão de nossa análise de correspondência, com base no valor singular de cada dimensão; obtemos 84,5% de variância expressa por nossa primeira dimensão, e 15,5% em nossa segunda dimensão (nossa terceira dimensão explica 0% da variância).

Análise de correspondência padrão

Agora estamos equipados com os recursos para calcular a forma básica de análise de correspondência, utilizando o que são conhecidas como coordenadas padrão, calculadas a partir de nossos vetores singulares à esquerda e à direita. Anteriormente, ponderávamos os resíduos indexados antes da realização do SVD. Para obter coordenadas que representam nossos resíduos indexados, precisamos agora desponderar as saídas de SVD, dividindo cada linha dos vetores singulares esquerdos pela raiz quadrada das massas da linha, e dividindo cada coluna dos vetores singulares direitos pela raiz quadrada das massas da coluna, obtendo-nos as coordenadas padrão das linhas e colunas para plotagem.

Coordenadas padrão da marca:

1ª dimensão 2ª dimensão 3ª dimensão
Cerveja borboleta -2.07 -2 -0,4
Município de Squishee -1.27 0.68 -1.21
Slurm 0,3 -1,27 -0,8
Fizzy Lifting Drink 0,65 0.86 -0.48
Brawndo 1.62 -0,21 -2.04

Atributo Coordenadas padrão:

1ª dimensão 2ª dimensão 3ª dimensão
Desagradável -0.96 -1.89 -1
Estética -0.76 0.92 >-1
Econômico 1.21 -0.09 -1

Utilizamos as duas dimensões com a maior variância capturada para plotagem, a primeira dimensão indo para o eixo X e a segunda dimensão no eixo Y, gerando nosso gráfico de análise de correspondência padrão.

Estabelecemos a base dos cálculos necessários para a análise de correspondência padrão. Na próxima seção, exploraremos os prós e contras de diferentes estilos de análise de correspondência e que melhor se adequa aos nossos propósitos de ajudar na análise das percepções da marca.

Tipos de análise de correspondência

Análise correspondência principal linha/coluna

A análise de correspondência padrão é fácil de calcular e resultados fortes podem ser obtidos a partir dela. No entanto, a correspondência padrão é uma má escolha para nossas necessidades; as distâncias entre as coordenadas da linha e da coluna são exageradas, e não há uma interpretação direta das relações entre as categorias de linha e coluna. O que queremos para interpretar relações entre coordenadas de linha (marca) e interpretar relações entre categorias de linha e coluna é a normalização principal de linha (ou, se nossas marcas estavam em nossas colunas, normalização principal de coluna).

Para a normalização do principal da linha, você deseja utilizar as coordenadas padrão calculadas acima para seus valores de coluna (atributo), mas deseja calcular as coordenadas principais para seus valores de linha (marca). O cálculo das coordenadas principais é tão simples quanto tomar as coordenadas padrão, e multiplicá-las por seus correspondentes valores singulares (d). Portanto, para nossas linhas, queremos apenas multiplicar nossas coordenadas de linha padrão por nossos valores singulares (d), mostrados na tabela abaixo. Para a normalização principal da coluna, nós simplesmente multiplicamos nossas colunas em vez de nossas linhas por nossos valores singulares (d).

1ª dimensão 2ª dimensão 3ª dimensão
Cerveja borboleta -0.55 -0.23 0
Município de Squishee -0.33 0.08 0
Slurm 0.08 -0.14 0
Fizzy Lifting Drink 0,17 0.1 0
Brawndo 0.43 -0.02 0

Substituindo em nossas coordenadas principais por nossas linhas (marcas), acabamos por:

Como dimensionamos por nossos valores singulares, nossas coordenadas principais para nossas linhas representam a distância entre os perfis de linha de nossa tabela original; pode-se interpretar as relações entre nossas coordenadas de linha em nosso gráfico de análise de correspondência por sua proximidade uns com os outros.

A distância entre nossas coordenadas de coluna, uma vez que são baseadas em coordenadas padrão, ainda são exageradas. Além disso, nossa escala por nossos valores singulares em apenas uma das duas categorias (linhas/colunas) nos deu uma forma de interpretar as relações entre as categorias de linha e coluna. Dado um valor de linha e um valor de coluna, por exemplo, Butterbeer (linha) e Tasty (coluna), quanto maior a sua distância à origem, mais forte é a sua associação com outros pontos no mapa. Além disso, quanto menor o ângulo entre os dois pontos (Butterbeer e Tasty), maior a correlação entre os dois.

A distância à origem combinada com o ângulo entre os dois pontos é o equivalente a tomar o produto pontual; o produto ponto entre uma linha e um valor de coluna mede a força da associação entre os dois. Na verdade, quando a primeira e a segunda dimensão explicam toda a variância nos dados (soma de 100%), o produto ponto é diretamente igual ao resíduo indexado das duas categorias. Aqui, o produto ponto seria a distância à origem dos dois pontos multiplicado pelo cosseno do ângulo entre eles; .59*2.12*cos(41) = .94. Levando em conta erros de arredondamento, é o mesmo que nosso valor residual indexado de 0,95. Assim, ângulos menores que 90 graus representam um resíduo indexado positivo e, portanto, uma associação positiva, e ângulos maiores que 90 graus representam uma associação negativa residual indexada ou negativa.

Análise de correspondência principal de linha escalonada

Analisando nosso gráfico acima para normalização principal de linhas, temos uma observação fácil – os pontos para nossas colunas (características) estão muito mais espalhados, e nossos pontos para nossas linhas (marcas) estão agrupados em torno da origem. Isso pode tornar a análise do nosso gráfico por olho muito difícil e não intuitiva, e às vezes impossível de ler as categorias de linha se todas elas estiverem sobrepostas. Felizmente, há uma maneira fácil de dimensionar nosso gráfico para trazer em nossas colunas, mantendo ainda a capacidade de utilizar o produto ponto (distância da origem e ângulo entre os pontos) para analisar as relações entre nossos pontos de linha e coluna, conhecida como normalização principal de linha escalada.

A normalização principal de linha escalonada toma a normalização principal da linha, e escala as coordenadas da coluna da mesma forma que escalamos o eixo x das coordenadas da linha – em outras palavras, nossas coordenadas de coluna são escalonadas pelo primeiro valor de nossos valores singulares (d). Nossos valores de linha permanecem iguais à normalização do principal da linha, mas agora nossas coordenadas de coluna são escalonadas para baixo por um fator constante.

1ª dimensão 2ª dimensão 3ª dimensão
Desagradável -0.2544 -0.501 -0.265
Estética -0.201 0.2438 -0,265
Econômico 0.321 -0,02 -0,265

Isso significa que nossas coordenadas de coluna são escalonadas para caber muito melhor com nossas coordenadas de linha, facilitando muito a análise de tendências. Como dimensionamos todas as nossas coordenadas de coluna pelo mesmo fator constante, contraímos a dispersão de nossas coordenadas de coluna no mapa, mas não fizemos nenhuma alteração em suas relatividades; ainda utilizamos o produto ponto para medir a força das associações. A única mudança é que quando nossa primeira e segunda dimensão cobrem toda a variância nos dados, em vez do residual indexado ser igual ao produto pontual das duas categorias, agora é igual ao produto pontual escalonado das duas categorias, que é o produto pontual escalonado por um valor constante do nosso primeiro valor singular (d). A interpretação do gráfico permanece a mesma que a normalização do principal da linha.

Análise de correspondência principal

Uma forma final de análise de correspondência que mencionaremos é a análise de correspondência principal, também conhecida como mapa simétrico, escalamento francês ou análise de correspondência canônica. Em vez de apenas multiplicar as linhas ou colunas padrão pelos valores singulares (d) como na análise de correspondência principal de linha/coluna, nós multiplicamos as duas pelos valores singulares. Assim, nossos valores de coluna padrão, multiplicados pelos valores singulares, se tornam:

1ª dimensão 2ª dimensão 3ª dimensão
Desagradável -0,2544 -0.215 0
Estética -0,201 0.105 0
Econômico 0.321 -0,01 0

Colocando-as em conjunto com nossos valores de linha calculados na análise de principal da linha, obtemos:

A análise de correspondência canônica escala as coordenadas de linha e coluna pelos valores singulares. Isso significa que podemos interpretar nossas relações entre nossas coordenadas de linha da mesma forma como fizemos na análise de correspondência principal da linha (com base na proximidade), E podemos interpretar nossas relações entre nossas coordenadas de coluna de forma semelhante à análise de correspondência principal da coluna; podemos analisar relações entre marcas e relações entre atributos. Também perdemos o clustering de linhas/colunas no centro do mapa a partir da análise principal de linha/coluna. No entanto, o que perdemos da análise de correspondência canônica, é uma forma de interpretar relações entre nossas marcas e atributos, algo muito útil nas percepções da marca.

Comparação lado a lado

Análise de correspondência padrão

O estilo mais fácil de análise de correspondência para computar, usando vetores singulares esquerdo e direito de SVD dividido por massas de linhas e colunas. As distâncias entre as coordenadas de linha e coluna são exageradas, e não há uma interpretação direta das relações entre as categorias de linha e coluna.

Análise correspondência normalização principal linha

Utiliza coordenadas padrão de cima, mas multiplica as coordenadas da linha pelos valores singulares para normalizar. As relações entre linhas (marcas) são baseadas na distância umas das outras. As distâncias da coluna (atributo) ainda são exageradas. As relações entre linhas e colunas podem ser interpretadas pelo produto pontual. Linhas (marcas) tendem a ser agarradas no centro.

Análise correspondência normalização principal linha escalonada

Toma a normalização principal da linha e escala as coordenadas de coluna por uma constante do primeiro valor singular. Mesmas interpretações extraídas da normalização principal da linha, substituindo o produto pontual pelo produto pontual escalonado. Ajuda a remover o agarramento de linhas no centro. Este é o estilo de análise de correspondência que preferimos.

Análise de correspondência de normalização principal (simétrico, mapa francês, canônico)

Outra forma popular de análise de correspondência usando coordenadas principais normalizadas nas linhas e colunas. As relações entre linhas (marcas) podem ser interpretadas pela distância entre si; o mesmo pode ser dito para colunas (atributos). Nenhuma interpretação pode ser desenhada para relações entre linhas e colunas.

Conclusão

Em conclusão, a análise de correspondência é utilizada para analisar as relações relativas entre e dentro de dois grupos; no nosso caso, esses grupos seriam marcas e atributos.

A análise de correspondência elimina uma distorção nos resultados de diferentes massas entre grupos, utilizando resíduos indexados. Para a normalização das percepções da marca para análise de correspondência, utilizamos a normalização do principal da linha (ou principal da coluna se as marcas são colocadas nas colunas), pois isso nos permite analisar as relações entre as diferentes marcas pela proximidade entre elas, e também permite analisar as relações entre marcas e atributos pela distância da origem combinada com o ângulo entre elas e a origem (o produto pontual), ao sacrifício de representar mal a relação entre atributos com distâncias exageradas entre eles e a origem (o produto pontual), no sacrifício de representar mal a relação entre atributos com distâncias exageradas entre nós (não importa). Utilizamos a normalização principal de linha/coluna escalonada para facilitar a análise de nosso gráfico sem nenhum custo. Queremos ter em mente que adicionamos a variância explicada a partir das etiquetas dos eixos X e Y (a primeira e a segunda dimensão) para visualizar a variância total capturada no mapa; quanto menor for esse número, mais inexplicada será a variância existente nos dados e mais enganosa será a plotagem.

Uma última coisa a lembrar é que a análise de correspondência só mostra relatividades uma vez que eliminamos o fator de massa de nossos dados; nosso gráfico não nos dirá nada sobre quais marcas têm as pontuações “mais altas” nos atributos. Depois de entender como criar e analisar os gráficos, a análise de correspondência é uma ferramenta poderosa que desconsidera os efeitos do dimensionamento da marca para fornecer insights poderosos e fáceis de interpretar sobre as relações entre as marcas e seus atributos aplicáveis.

Perguntas frequentes

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.