Análise de Cluster

O propósito da Análise de Cluster é buscar uma classificação de acordo com as relações naturais que a amostra apresenta, formando grupos de objetos (individuos, empresas, cidades ou outra unidade experimental) por similaridade.

A análise de clusters pode ser comparada a fatorial, no entendimento da natureza dos dados. A diferença reside em que AC agrupa objetos (observações, indivíduos, empresas geralmente dispostas nas linhas de um banco de dados) e AF agrupa variáveis (geralmente disposta nas colunas). Os objetos são agrupados de acordo com a semelhança em relação a algum critério pré-determinado. Segundo Hair et al (1997) o s agrupamentos (ou clusters) resultantes podem devem ter uma elevada homogeneidade interna (dentro dos grupos) e uma elevada heterogeneidade externa (entre os grupos).

AC é útil no desenvolvimento de novos produtos para encontrar perfis de consumidores. Por exemplo, um pesquisador pode acreditar que existam grupos diferentes de pessoas que prefiram carros esportivos.

A identificação de grupos de empresas com características afins, empresas com estratégias comuns poderiam ser agrupadas.

A AC poderá identificar o perfil de cada grupo (faixa etária, estado civil, características psicológicas, etc) que definirão se há demandas diferenciadas (segmentação do mercado). O perfil é definido pelas características que compõe o cluster, baseando-se no conceito de similaridade.

O conceito de similaridade é fundamental na análise de clusters. A similaridade entre - objetos é uma medida da correspondência ou afinidade entre os objetos a serem agrupados. A medida de similaridade entre objetos pode ser medida por medidas de correlação, medidas de distância e medidas de associação.

A medida mais utilizada são as de similaridade, em particular a distância euclidiana. Diferentes medidas conduzem a diferentes agrupamentos. É recomendável comparar os resultados com os padrões teóricos e o conhecimento técnico do problema. Ver manual do SPSS®.

A análise de agrupamentos tem algumas suposições com respeito a amostra. Segundo Hair et al (1997) raramente o pesquisador tem toda a população para realizar seu estudo. Geralmente uma amostra de dados é obtida para e os agrupamentos são formados. Uma importante suposição é a representatividade da amostra, observações atípicas devem ser analisadas previamente para não introduzir um viés na estimação da estrutura de agrupamento dos dados. Portanto, conforme concluem os autores, todos os esforços devem ser feitos para garantir a representatividade da amostra e que os resultados possam ser generalizáveis para a população de interesse.