github twitter mastodon linkedin instagram 500px email
CEAP e Museu Nacional
Sep 20, 2018
14 minutes read

No relatório passado, começamos a analisar o uso da CEAP (Cota para Exercício da Atividade Parlamentar) pelos/as deputados/as. Iremos continuar investigando como os parlamentares têm usado esse auxílio.
Neste relatório, queremos responder a duas perguntas:

    1. Quais as datas (mes/ano) em que os deputados mais gastaram? Qual foi o tipo de despesa mais consumida?
    1. Quais os tipos de despesas com os deputados que, no total, foram maiores do que o investimento com o Museu Nacional nos úlitmos anos?

Para a primeira pergunta, esperamos que anos de eleição registrem gastos maiores, visto que, caso o deputado pretenda se reeleger, ele ou ela precisará divulgar mais suas atividades exercidas. Esperamos também que inícios de anos registrem os menos gastos, dada uma menor movimentação na Câmara dos Deputados. Esperamos também que as categorias com maiores gastos sejam a de passagens aéreas e de hospedagem de deputados. A nossa segunda pergunta tem como motivação um acontecimento recente: o incêndio no Museu Nacional (agos/2018). Nos dias seguintes ao fato, muito divulgou-se que um maior investimento público no museu poderia ter evitado tamanha tragédia. O Museu Nacional contava com um acervo muito rico, e quase todo ele foi perdido.
Diante deste contexto, esperamos que os gastos com os deputados sejam maiores que o investimento no museu.

Importando dados

Os dados da CEAP foram baixados por meio desta página. Estamos usando dados que vão de 2009 a este ano.
Já os dados sobre o investimetno da União no museu foram retirados de alguns veículos jornalísticos (link1, link2).

require(readr)
require(here)
require(tidyverse)

data_folder = here::here("data/ceap/year")
for(year in c(2009:2018)) {
  file_name = paste("Ano-", year, ".csv", sep="")
  path_to_data = paste(data_folder, file_name, sep="/")
  curr_data = read_delim(path_to_data, delim = ";", escape_double = FALSE, trim_ws = TRUE)
  
  if (!exists("raw_data")) {
    raw_data = curr_data
  } else {
    raw_data = rbind(raw_data, curr_data)
  }
}

investiment.mn = read_delim(here::here("data/investimento-mn.csv"), 
                            delim="\t", escape_double = FALSE, trim_ws = TRUE)
rm(curr_data)

Pré-processando

Os gastos da CEAP podem ser classificados em diversas categorias. Como há muitas categorias e algumas delas se parecem (ex: emissão de bilhete aéreo e passagens aéreas), vamos agrupar a semelhantes em um tipo comum, para facilitar nosso entendimento. A função definida abaixo faz isso.

unify_expenditure_type = function(data) {

  data$tipoDespesa = NA
  
  data$tipoDespesa[data$txtDescricao == "MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR"] = "Escritório"
  data$tipoDespesa[data$txtDescricao == "SERVIÇOS POSTAIS"] = "Serviços Postais"
  data$tipoDespesa[data$txtDescricao %in% c("LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES", "LOCAÇÃO OU FRETAMENTO DE AERONAVES", "LOCAÇÃO OU FRETAMENTO DE EMBARCAÇÕES", "LOCAÇÃO DE VEÍCULOS AUTOMOTORES OU FRETAMENTO DE EMBARCAÇÕES")] = "Locação de veículos"
  data$tipoDespesa[data$txtDescricao == "COMBUSTÍVEIS E LUBRIFICANTES."] = "Combustíveis"
  data$tipoDespesa[data$txtDescricao %in% c("PASSAGENS AÉREAS", "Emissão Bilhete Aéreo")] = "Passagens aéreas"
  data$tipoDespesa[data$txtDescricao == "TELEFONIA"] = "Telefonia"
  data$tipoDespesa[data$txtDescricao == "DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR."] = "Divulgação de atividade parlamentar"
  data$tipoDespesa[data$txtDescricao == "FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR"] = "Alimentação"
  data$tipoDespesa[data$txtDescricao == "HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL."] = "Hospedagem"
  data$tipoDespesa[data$txtDescricao == "SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO"] = "Locomoção"
  data$tipoDespesa[data$txtDescricao == "CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS."] = "Consultoria"
  data$tipoDespesa[data$txtDescricao == "ASSINATURA DE PUBLICAÇÕES"] = "Revistas/Jornais"
  data$tipoDespesa[data$txtDescricao == "SERVIÇO DE SEGURANÇA PRESTADO POR EMPRESA ESPECIALIZADA."] = "Segurança particular"
  data$tipoDespesa[data$txtDescricao == "PASSAGENS TERRESTRES, MARÍTIMAS OU FLUVIAIS"] = "Passagens (exceto aéreas)"
  data$tipoDespesa[data$txtDescricao == "PARTICIPAÇÃO EM CURSO, PALESTRA OU EVENTO SIMILAR"] = "Cursos e palestras"
  
  data = data %>% 
    select(-txtDescricao)
  
  return(data)
}

Também não precisaremos de algumas variáveis de nossos dados. Vamos fazer uma pequena limpeza e algunas ajustes, para facilitar nosso trabalho daqui pra frente.

require(tidyverse)

preprocess_data = function(raw_data, varsOfInterest) {
  data = raw_data %>%
  
    # Selecting just vars on interest
    select(varsOfInterest) %>%
  
    # Replacing commas for points
    mutate(valorLíquido = as.numeric(gsub(",", ".", vlrLiquido))) %>%
    
    # Renaming some vars
    mutate(nomeParlamentar = txNomeParlamentar, year = numAno, month = numMes) %>%
    select(-c(txNomeParlamentar, vlrLiquido, numAno, numMes)) %>%
  
    filter(!is.na(idecadastro)) %>%
    
    # Unify expenditures that are of similar categories with the aim of reduce number o categories
    unify_expenditure_type
  
  return(data)
}

varsOfInterest = c("txNomeParlamentar", "idecadastro", "sgPartido", "sgUF", 
                   "txtDescricao", "txtFornecedor", "vlrLiquido", "numAno", "numMes")
data_ceap = preprocess_data(raw_data, varsOfInterest)

Perguntas

1. Quais as datas (mes/ano) em que os deputados mais gastaram? Qual foi o tipo de despesa mais consumida?

Vamos agrupar os dados por mês e ano e somar o valor dos gastos em cada categoria de despesa:

require(viridisLite)
require(highcharter)

data_ceap_by_date = data_ceap %>%
  mutate(date = as.Date.character(paste(year, month, "01", sep="-")), "%Y-%m-%d") %>%
  group_by(date, tipoDespesa) %>%
  summarise(totalExpenditure = sum(valorLíquido)) %>%
  ungroup() %>%
  na.omit()

Em seguinda, já podemos visualizar o gráfico que pode nos ajudar a responde nossa primeira pergunta:

require(viridisLite)
require(highcharter)
require(lubridate)

colors = viridis(data_ceap_by_date %>% select(tipoDespesa) %>% distinct() %>% nrow())
colors = substr(colors, 0, 7)

title_text = "Use of CEAP by congressmen (by category of expenditure) over the last years"

tooltip = paste("<b>Year:</b> {point.date}.<br/>",
                "<b>Total Expenditure (R$):</b> {point.y}. <br/>",
                "<b>Type Expenditure:</b> {point.tipoDespesa}.")

highchart() %>%
  hc_add_series(data_ceap_by_date, "column", hcaes(x = date, y = totalExpenditure, group = tipoDespesa)) %>%
  hc_chart(zoomType = "xy") %>%
  hc_colors(colors) %>%
  hc_plotOptions(column = list(stacking = "normal"), series = list(marker = list(enabled = TRUE))) %>%
  hc_tooltip(headerFormat = "", pointFormat = tooltip) %>%
  hc_title(text = title_text, style = list(fontSize = "18px"), align = "left") %>%
  hc_yAxis(title = list(text = "Total Expenditure (R$)")) %>%
  hc_xAxis(type = 'datetime', labels = list(format = '{value:%Y-%m}'))

Uma das primeiras coisas que chamam atenção no gráfico é que há dois períodos de meses seguidos que registram gastos muito superior a todos os outros. Os anos de 2011 e 2012 são exemplos de um desses períodos. Nenhum desses anos representou ano de eleição para deputado federal. Então nossa hipótese primeira foi descartada. É preciso fazer uma pesquisa no contexto de uso desses gastos para entender o que pode ter motivado o crescimento e o descrimento exagerados do uso da CEAP.
Dentre as categorias com os maiores usos estão gastos com passagens aéreas (esperado), com telofonia e com combustível. Para 2009, 2011 e 2012, o primeiro mês é o que registra o menor total de gasto da Se dermos zoom nos outros anos, identificaremos o mesmo padrão. Então podemos dizer que os primeiros meses sempre são o de menor uso da CEAP.

2. Quais os tipos de despesas com os deputados que, no total, foram maiores do que o investimento com o Museu Nacional nos úlitmos anos?

Por causa do gráfico anterior, já conhecemos um pouco os nossos dados da CEAP. Vamos agora ver os dados de investimento da União no Museu Nacional.

require(highcharter)
    
tltip.title = c("Year:", "Investiment (R$): ")
tltip.vls = sprintf("{point.%s}", c("year", "investiment"))
tltip <- tooltip_table(tltip.title, tltip.vls)

COLOR_RED = "#d11141"

theme_set(theme_minimal())

hchart(investiment.mn, "spline", hcaes(x = year, y = investiment)) %>%
  hc_plotOptions(
    series  = list(
      marker = list(enabled = TRUE, 'x'),
      color = COLOR_RED)) %>%
  hc_title(text = "Investment in the National Museum over the last few years") %>%
  hc_yAxis(title = list(text = "Total investiment (R$)")) %>%
  hc_xAxis(title = list(text = "Year")) %>%
  hc_tooltip(table = TRUE, headerFormat = "", pointFormat = tltip)

Vemos que desde 2013 o investimento têm baixado, e os últimos três anos registram os menos investimentos desde 2001.

Sobre os dados da CEAP, vamos agora agrupá-los apenas por ano e obter o valor total gasto em cada categoria.

require(lubridate)
require(tidyverse)

 data_ceap_by_year =  data_ceap %>%
  group_by(year, tipoDespesa) %>%
  summarise(totalExpenditure = sum(valorLíquido)) %>%
  ungroup() %>%
  na.omit()
require(viridisLite)
require(highcharter)

max.year = max(data_ceap_by_year$year)
min.year = min(data_ceap_by_year$year)

investiment.mn.filter.year = investiment.mn %>%
  filter(year <= max.year & year >= min.year)

colors = viridis(data_ceap_by_year %>% select(tipoDespesa) %>% distinct() %>% nrow())
colors = substr(colors, 0, 7)

title_text = "Politicians' expenditures (by category) VS Investiment in National Museum"

tooltip = paste("<b>Year:</b> {point.x}.<br/>",
                "<b>Total Expenditure (R$):</b> {point.y}. <br/>",
                "<b>Type Expenditure:</b> {point.tipoDespesa}.")

highchart() %>%
  hc_add_series(data = data_ceap_by_year, 
                type = "spline", 
                dashStyle = "shortdot", 
                hcaes(x = year, y = totalExpenditure, group = tipoDespesa)) %>%
  hc_add_series(name = "Museu Nacional", 
                data = investiment.mn.filter.year, 
                type = "spline", 
                hcaes(x = year, y = investiment), 
                color = COLOR_RED,
                lineWidth = 4) %>%
  hc_chart(zoomType = "xy") %>%
  hc_colors(colors) %>%
  hc_plotOptions(spline = list(marker = list(symbol = "circle"))) %>%
  hc_tooltip(headerFormat = "", pointFormat = tooltip) %>%
  hc_title(text = title_text, style = list(fontSize = "18px"), align = "left") %>%
  hc_yAxis(title = list(text = "Total Expenditure (R$)")) %>%
  hc_xAxis(labels = list(enabled = TRUE),
           marker = list(enabled = TRUE),
           categories = 2009:2018)

As linhas pontilhadas represetam os gastos da CEAP por categoria, e alinha contínua vermelha representa o investimento no museu.
Já esperávemos que o investimento fosse menor. Mas acho que não esperávemos que fosse tão menor. A linha que representa o investimento no museu fica empurrada para o limite inferior do eixo y, tamanha é a diferença com o maior gasto total em uma categoria da CEAP (no ano de 2011, como estávamos esperando). Se tirarmos da seleção esses gastos (escritório, combustível, passagens aéreas e telefonia), ainda assim a linha irá parecer tocar o 0 no eixo y. Se formos tirando da seleção alguns gastos, iremos ver que o investimento no Museu Nacional só maior maior em 4 (de 15) tipos de despesas com deputados: cursos e paletras, passagens não aéreas, revistas e jornais e locomoção (até 2015). A disparidade é muito grande!


Back to posts


comments powered by Disqus