Photo by sergio souza on Unsplash

De volta aos agrupamentos dos municípios: objetos celestes e mapas

Foi em agosto do fatídico ano 2020 que escrevi um texto aqui mesmo no Medium mostrando os achados de um modelo de agrupamentos dos municípios a partir de variáveis relacionadas ao PIB. Chegou o momento de voltar a visitar aquele modelo e fazer novas experiências. Aqui os relatos vão ser focados em achados que se interpretam facilmente no modo visual.

As galáxias, as nebulosas e os logaritmos

A jornada começa pelas estrelas. Os dados usados aqui apresentam um enorme problema de distribuição. Vamos comparar municípios tão díspares quanto Xapuri e São Paulo. Para poder ter algum sucesso na interpretação dos gráficos, pegamos emprestado do XKCD a ideia da representação das distâncias dos diversos corpos celestes a partir da Terra. Um gráfico enorme em escala logarítmica permite colocar na mesma figura a altura da girafa e as distâncias astronômicas até as nebulosas e galáxias longe muito longe daqui.

Visão XKCD das distâncias no universo: https://xkcd.com/482/

As nebulosas dos componentes do PIB e PIB per Capita

As variáveis avaliadas aqui serão sempre os componente dos setores da economia: agropecuária, administração, indústria e serviços. Além disso analisamos também os dados de PIB per capita. Lembrando que todos os dados se referem a variáveis de municípios brasileiros.

Distribuição dos componentes do PIB pelos municípios em escala logarítmica (valores em R$ mil)
  • As outras variáveis também apresentam faixas de concentração, embora menos densas.
  • A variável que mais se dispersa é indústria, a que é responsável pelos menores valores é agropecuária e a que alcança os maiores valores é serviços.
Distribuição do PIB per capita pelos municípios em escala logarítmica (valores em R$ 1)

Colorindo as nebulosas a partir dos clusters

A desigualdade brasileira expressada nos valores das variáveis acabam por ser a determinante dos seis clusters. De um modo geral os valores menores dos componentes de PIB e de PIB per capita são representados nos clusters 1, 2 e 3, enquanto que os valores maiores aparecem nos clusters 4, 5 e 6. Com essa característica é possível fazer as análises dos clusters sempre a partir de dois super agrupamentos. Isso permite uma análise visual mais limpa o que por sua vez ajuda a identificar melhor as características dos clusters.

  • Os clusters 3 e 6 apresentam-se concentrados no setor agropecuário
  • O cluster 6 apresenta os valores mais elevados nos setores: administração, indústria e serviços
  • O cluster 5, apesar de ser disperso nos componentes do PIB, destaca-se na análise de PIB per Capita por ocupar a faixa dos maiores valores

As medoides nos centros das seis dimensões

O algoritmo de clusterização utilizado para esse trabalho caracteriza-se pela possibilidade de identificar as chamados medoides. Esse nome estranho está associado ao ponto que fica no centro dos clusters formados nesse caso por seis dimensões: as cinco variáveis que analisamos aqui e o PIB total.

  • Assis Chateaubriand que caracteriza o cluster 5 lidera o setor agropecuário com grande diferença para os demais.
  • O setor administração é onde as medoides dos clusters 1 a 5 estão mais próximas entre si.
  • Santa Maria do Suaçuí, medoide do cluster 1 está completamente deslocada das demais, apresentando valor muito baixo.

De volta à Terra e às representações cartográficas

E na representação espacial cartográfica, quais os impactos dos achados sobre os clusters e suas características de distribuição pelos municípios? No texto de Agosto fizemos os primeiros experimentos com mapas. Agora vamos a mais um outro que mostra o impacto da análise de um cluster a partir de sua medoide.

  • 1103 municípios com PIB per capita menor do que o do município medoide.

Próximas jornadas interestrelares

Os achados apresentados parecem ser importantes para diversas pesquisas que envolvam principalmente os pontos relacionados a desigualdades. Dessa forma desdobramentos podem ir em direção a pesquisas relacionadas a federalismo e seus objetivos de redução de desigualdades. Pode ser interessante também para estudar políticas públicas que impactam efeitos da desigualdade ou mesmo suas causas.

Códigos e dados

Os códigos estão disponíveis no meu github. Dá uma olhada lá. Destaco o uso da biblioteca geobr sempre uma mão na roda na hora de elaborar mapas.

Agradecimentos

Agradeço ao Tiago Maranhão pelas dicas mais que precisas em visualização de dados e por ter me apresentado XKCD. Fica a recomendação de segui-lo lá no twitter.

Doctor in Business Administration from UNB (2014). As data scientist, researches and implements products for transparency in the Brazilian public sector.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store