Photo by The New York Public Library on Unsplash

Um acompanhamento das séries temporais de receitas administradas pela RFB

Semana passada fui instrutor na ENAP de um treinamento em introdução à Ciência de Dados para uma turma da Receita Federal do Brasil (RFB). Como era de se esperar, focamos sobre objetos de negócio dessa instituição. Baixamos dados abertos da série temporal de receitas administradas pela RFB arrecadadas em todos os municípios brasileiros, fizemos alguns tratamentos e descobrimos algumas possibilidades de clusters, que são o fio da meada dessa storytelling que foi o objetivo da aula final do treinamento. Eis aqui o que eu e a turma temos para contar.

O caos inicial da análise

A primeira figura que nos aparece quando se tenta fazer o acompanhamento das séries temporais de todos os municípios mostra um conjunto de três curvas, correspondendo a três municípios, que se destacam das demais séries. Nota-se que a discrepância é tão grande que o gráfico achata todo o conjunto dos outros mais de 5000 municípios brasileiros

Figura 1: Três curvas achatam as demais

Para ter a possibilidade de ver quais são as outras curvas, usamos a escala logarítmica. Feito isso pudemos arriscar que haveria a possibilidade de descobrir alguns grupos de municípios que evoluem juntos dentro de todo o período analisado.

Figura 2: Todos os municípios e suas séries temporais em log10

Que venham os agrupamentos

Com todas as séries temporais para os quinze anos disponíveis, foi feita uma análise de cluster usando o método de k-medoides pam. As distâncias entre os pontos foram calculadas com treze dimensões, uma para cada ano no intervalo de 2005 a 2017. A distância média dada pela informação de silhueta para quatro clusters foi de 0,96, demonstrando que há uma forte coesão dentro de cada agrupamento formado e baixo acoplamento entre os grupos. Aqui o gráfico que demonstra esses agrupamentos.

Figura 3: quatro agrupamentos ao longo da série temporal

As cores mostram os grupos formados. Observa-se aí a alta coesão da receita arrecadada pela RFB nos municípios que estão dentro de cada um dos grupos. Na Figura 3, é possível ver a participação do grupo 1 com a grande maioria dos municípios, sempre na faixa de menor arrecadação. Por outro lado, vê-se no grupo 4 o protagonismo de três municípios ao longo de todos os anos. Entre esses dois extremos, estão o grupo 3 com algo como uma dezena de municípios e o grupo 2 com um volume bem mais elevado, mas que não se aproxima da quantidade de elementos do grupo 1.

Vale salientar que a figura 3 está na escala logarítmica que gera uma “ilusão de ótica” do que realmente ocorre. Vamos ver novamente os quatro grupos agora na escala normal.

Figura 4: Os grupos na escala normal

Quando se tira a escala logarítmica percebe-se claramente o amplo protagonismo do grupo 4 em relação aos valores arrecadados. Há alguma presença do grupo 3, enquanto os grupos 1 e 2 ficam completamente comprimidos, praticamente sem qualquer relevância no quadro geral.

Uma síntese desses achados para toda a série temporal pode ser visto nas figuras 5 e 6.

Figura 5: Quantidade de municípios

Observa-se na Figura 5 o amplo domínio do grupo 4 em termos de número de elementos. São mais de 5.400 municípios. O grupo 2 conta com 83 municípios, o grupo 3 apenas 10 enquanto que apenas 3 municípios estão presentes no último conjunto.

Porém, quando se trata de arrecadação, tudo muda, como pode ser visto na Figura 6.

Figura 6: Total arrecadado em 13 anos para cada grupo

Quando se tem o dado do total arrecadado ao longo de 13 anos, fica muito claro o tamanho do protagonismo do grupo 4. Observa-se que os três municípios são responsáveis por uma arrecadação algumas vezes maior do que o conjunto de mais de 5400 municípios do grupo 1. Os outros dois grupos, também têm valores de arrecadação total bem inferior ao grupo 4. Os volumes totais para esses dois grupos são semelhantes, porém, deve-se atentar que o grupo 3 tem um 1/8 do número de municípios do grupo 2.

Fast facts dos quatro grupos

Abaixo uma sequência de alguns gráficos que mostram alguns fatos que resumem algumas informações sobre os quatro grupos. As imagens já devem falar por si.

Figura 7: Zoom nos municípios que formam o grupo 4
Figura 8: zoom nos municípios do grupo 3
Figura 9: Rápida análise dos municípios do grupo 3 separados individualmente
Figura 10: Dez municípios de maior arrecadação do grupo 2
Figura 11: Dez municípios de menor arrecadação do grupo 2
Figura 12: Distribuição da arrecadação anual por estado para o Grupo 1

Conclusão

Usando técnicas de aprendizagem estatística de agrupamentos conseguimos estratificar toda a arrecadação feita pela RFB acumulada ano a ano por município brasileiro. O resultado aponta claramente uma concentração em poucos municípios que se mantém durante todo período analisado.

O objetivo da história passa muito mais em contar através de gráficos como se pode analisar os dados da arrecadação da RFB. Trata-se assim de uma possibilidade quase parnasiana de ressignificação de dados abertos dessa instituição. A transformação de dados em gráficos após uma série de tratamentos típicos de ciência de dados traz algumas mensagens que eventualmente podem ser analisadas por gestores governamentais, pesquisadores e organizações da sociedade civil.

P.S : Todos os scripts que geraram as imagens dessa história estão disponíveis aqui.

P.S 2: Gostaria de agradecer à ENAP, RFB e a todos os alunos que participaram do curso pela oportunidade de mais essa jornada de descobrimentos de dados.

Doctor in Business Administration from UNB (2014). As data scientist, researches and implements products for transparency in the Brazilian public sector.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store