Photo by sergio souza on Unsplash

De volta aos agrupamentos dos municípios: objetos celestes e mapas

Fernando Barbalho

--

Foi em agosto do fatídico ano 2020 que escrevi um texto aqui mesmo no Medium mostrando os achados de um modelo de agrupamentos dos municípios a partir de variáveis relacionadas ao PIB. Chegou o momento de voltar a visitar aquele modelo e fazer novas experiências. Aqui os relatos vão ser focados em achados que se interpretam facilmente no modo visual.

A ideia é detalhar os grupos em gráficos de distribuição e em mapas. Com a ajuda da inspiração astronômica do XKCD e de sua paleta black-silver, montamos os gráficos, resolvendo pelo menos do ponto de vista visual os problemas de distribuição das variáveis.

As galáxias, as nebulosas e os logaritmos

A jornada começa pelas estrelas. Os dados usados aqui apresentam um enorme problema de distribuição. Vamos comparar municípios tão díspares quanto Xapuri e São Paulo. Para poder ter algum sucesso na interpretação dos gráficos, pegamos emprestado do XKCD a ideia da representação das distâncias dos diversos corpos celestes a partir da Terra. Um gráfico enorme em escala logarítmica permite colocar na mesma figura a altura da girafa e as distâncias astronômicas até as nebulosas e galáxias longe muito longe daqui.

Role aos poucos a tela e faça o caminho inverso entre os objetos mais longínquos observados pelo telescópio Hubble e o chão em que pisamos. Tome cuidado para não cair.

Visão XKCD das distâncias no universo: https://xkcd.com/482/

As nebulosas dos componentes do PIB e PIB per Capita

As variáveis avaliadas aqui serão sempre os componente dos setores da economia: agropecuária, administração, indústria e serviços. Além disso analisamos também os dados de PIB per capita. Lembrando que todos os dados se referem a variáveis de municípios brasileiros.

Quando se faz a distribuição das variáveis em escala logarítmica percebe-se a formação de imagens que lembram as nebulosas descritas nos textos de astronomia.

Distribuição dos componentes do PIB pelos municípios em escala logarítmica (valores em R$ mil)

Na figura acima percebe-se que:

  • a variável administração apresenta uma grande concentração de pontos na faixa que vai entre 10.000 e 100.000, havendo em seguida uma grande dispersão até chegar perto de 100 Mi.
  • As outras variáveis também apresentam faixas de concentração, embora menos densas.
  • A variável que mais se dispersa é indústria, a que é responsável pelos menores valores é agropecuária e a que alcança os maiores valores é serviços.
Distribuição do PIB per capita pelos municípios em escala logarítmica (valores em R$ 1)

A análise do PIB per capita é sempre feita em gráfico separado dada a diferença de escala, já que se trata de um valor que é uma razão. Na figura logo acima percebe-se uma concentração que começa um pouco acima do marco de 5.000 reais e alcança o marco de 50.000 reais.

Essas características de dispersão são fundamentais para determinar os seis clusters formados. Na seção seguinte vemos como preenchemos os pontos das nebulosas com cores relacionadas a cada um dos clusters (agrupamentos).

Colorindo as nebulosas a partir dos clusters

A desigualdade brasileira expressada nos valores das variáveis acabam por ser a determinante dos seis clusters. De um modo geral os valores menores dos componentes de PIB e de PIB per capita são representados nos clusters 1, 2 e 3, enquanto que os valores maiores aparecem nos clusters 4, 5 e 6. Com essa característica é possível fazer as análises dos clusters sempre a partir de dois super agrupamentos. Isso permite uma análise visual mais limpa o que por sua vez ajuda a identificar melhor as características dos clusters.

Na figura acima percebe-se:

  • Os clusters 4, 5 e 6 distribuem-se em faixas de valores maiores do que os os demais
  • Os clusters 3 e 6 apresentam-se concentrados no setor agropecuário
  • O cluster 6 apresenta os valores mais elevados nos setores: administração, indústria e serviços

Já quando se trata de PIB per capita, percebe-se pela figura acima:

  • O cluster 1 é densamente situado nos valores mais baixos
  • O cluster 5, apesar de ser disperso nos componentes do PIB, destaca-se na análise de PIB per Capita por ocupar a faixa dos maiores valores

As medoides nos centros das seis dimensões

O algoritmo de clusterização utilizado para esse trabalho caracteriza-se pela possibilidade de identificar as chamados medoides. Esse nome estranho está associado ao ponto que fica no centro dos clusters formados nesse caso por seis dimensões: as cinco variáveis que analisamos aqui e o PIB total.

A ideia da medoide pode ser comparada com a média e a mediana na estatística descritiva, ou seja, a identificação de um elemento que melhor caracteriza um conjunto de dado. No caso do nosso estudo, as medoides localizam os municípios que do ponto de vista das variáveis analisadas melhor caracterizam os seis clusters.

Quando analisamos as medoides pelos setores econômicos, percebemos que:

  • Blumenal que representa o cluster 6 encontra-se bem distanciado das outros medoides com exceção do setor agropecuário. Nesse caso fica em terceiro lugar.
  • Assis Chateaubriand que caracteriza o cluster 5 lidera o setor agropecuário com grande diferença para os demais.
  • O setor administração é onde as medoides dos clusters 1 a 5 estão mais próximas entre si.

Já quando se analisa o PIB per Capita, percebe-se que:

  • Blumenal e Nova Veneza (medoide do cluster 4) encontram-se bem próximas
  • Santa Maria do Suaçuí, medoide do cluster 1 está completamente deslocada das demais, apresentando valor muito baixo.

De volta à Terra e às representações cartográficas

E na representação espacial cartográfica, quais os impactos dos achados sobre os clusters e suas características de distribuição pelos municípios? No texto de Agosto fizemos os primeiros experimentos com mapas. Agora vamos a mais um outro que mostra o impacto da análise de um cluster a partir de sua medoide.

Mas antes vamos pintar no mapa do Brasil os clusters com seus respectivos municípios.

O resultado do algoritmo que usei para identificar os clusters informa que o o grupo 1 é o mais coeso. Observa-se que essa coesão é também geográfica. Os estados do Nordeste concentram a maior parte dos municípios desse cluster. O norte de Minas Gerais também tem uma grande concentração de municípios com essa característica. Vale lembrar aqui que esse cluster tem os mais baixos valores das cinco variáveis, principalmente o PIB per capita, o que reforça a condição de má distribuição de renda e de pobreza que atinge essas regiões do Brasil.

O mapa mostra ainda o cinturão de riqueza no estado de São Paulo e a dispersão dos outros clusters principalmente nos estados do Sul e Sudeste. Vale observar ainda que o Centro Oeste tem seus poucos municípios bastantes associados ao cluster de alto PIB do setor agropecuário.

Vale lembrar que precisamos voltar às medoides. Já indiquei quais são esses municípios, mas não disse ainda onde eles estão. O mapa abaixo corrige esse lapso.

Os seis municípios medoides concentram-se nas regiões Sudeste e Sul. São dois municípios no Paraná, outros dois em Santa Catarina, um em São Paulo e mais um em Minas Gerais.

De um modo geral, dada a concentração dos municípios nas regiões Sul e Sudeste, era isso que se esperava principalmente para as medoides dos clusters 2 a 6. O cluster 1 tendo sua medoide em Minas Gerais também não surpreende já que Santa Maria do Suaçuí está no norte desse estado, portanto em área que predomina municípios desse cluster.

Existem várias análise com mapas que podem ser feitas usando como referência as medoides. Nesse momento vou destacar a do PIB per capita para o cluster 1. No mapa abaixo as cores em tons que se aproximam do azul são referentes a municípios com PIB per capita maior do que Santa Maria do Suaçuí. Já as cores com tons mais próximo de rosa são municípios com PIB menor do que a nossa referência. Para os dois sentidos cores mais mais fortes indicam distanciamento maior da referência.

O medoide do cluster e as cidades com valores de PIB próximo ao da medoide apresentam-se na faixa de transição entre as duas tonalidades de cores. Observa-se na legenda que essa faixa de transição está no meio do intervalo considerado. Visualmente pode-se observar que há um pequeno desequilíbrio nas tonalidades. Há aparentemente um pouco de mais cidades próximas do tom rosa do que do tom azul. Na verdade a distribuição para o cluster 1 é essa:

  • 1221 municípios com PIB per capita maior do que o do município medoide.
  • 1103 municípios com PIB per capita menor do que o do município medoide.

É interessante observar no mapa acima que até mesmo dentro do cluster o padrão geográfico se repete. Os municípios com menores valores estão concentrados justamente no Nordeste e norte de Minas. Já os pontos de maiores valores estão espalhados nas outras regiões.

Próximas jornadas interestrelares

Os achados apresentados parecem ser importantes para diversas pesquisas que envolvam principalmente os pontos relacionados a desigualdades. Dessa forma desdobramentos podem ir em direção a pesquisas relacionadas a federalismo e seus objetivos de redução de desigualdades. Pode ser interessante também para estudar políticas públicas que impactam efeitos da desigualdade ou mesmo suas causas.

Vale salientar ainda que a abordagem de clusters pode ser útil também para pesquisas com abordagens qualitativas. As medoides e as distâncias dos outros pontos dos clusters até as medoides podem ajudar a identificar cidades para pesquisas in loco mais aprofundadas em que as dimensões de produção econômica e distribuição de PIB sejam relevantes para seleção de municípios. Até mesmo a definição de cidades para projetos pilotos de políticas públicas podem se utilizar dessa abordagem.

No final espera-se que a elucidação das desigualdades possa contribuir para que as diferenças sócio-econômicas entre os municípios sejam cada vez menos medidas em unidades astronômicas.

Códigos e dados

Os códigos estão disponíveis no meu github. Dá uma olhada lá. Destaco o uso da biblioteca geobr sempre uma mão na roda na hora de elaborar mapas.

Os dados são os mesmos usados no outro texto. Trata-se da base de dados do PIB para municípios de 2017.

Agradecimentos

Agradeço ao Tiago Maranhão pelas dicas mais que precisas em visualização de dados e por ter me apresentado XKCD. Fica a recomendação de segui-lo lá no twitter.

Agradeço também à Mônica e ao Dante na escolha das cores.

--

--

Fernando Barbalho
Fernando Barbalho

Written by Fernando Barbalho

Doctor in Business Administration from UNB (2014). As data scientist, researches and implements products for transparency in the Brazilian public sector.

Responses (1)