Como funciona o agregador de pesquisas do Pindograma


Entenda o que há de diferente no agregador do Pindograma
POR DANIEL FERREIRA • 07/09/2020

O princípio de um agregador de pesquisas eleitorais é simples: o consenso de várias pesquisas sobre as intenções de voto vale mais do que os resultados de uma única pesquisa. Em vez de se orientar por um único instituto – que pode ter vieses metodológicos ou produzir pesquisas de baixa qualidade – um agregador de pesquisas acumula o maior número de pesquisas eleitorais; coloca os resultados em um gráfico; e desenha uma linha de tendência que mostra, em média, o que dizem as diferentes pesquisas em conjunto.

Parece simples, mas o diabo está nos detalhes. Como selecionar as pesquisas que são mostradas no agregador? Devemos dar mais peso às pesquisas mais recentes, ou aos institutos com maior histórico de acertos? Devemos calibrar os vieses das empresas de pesquisa? Como exatamente calculamos a linha de tendência?

São perguntas que cada agregador de pesquisa no Brasil – seja o do Poder360, do JOTA, ou da Gazeta do Povo – respondem de forma diferente. No entanto, essas ferramentas têm uma série de limitações:

  • Âmbito restrito. O agregador da Gazeta do Povo cobriu apenas a última eleição presidencial e algumas eleições para governador daquele ano; já o JOTA se limitou à eleição presidencial de 2018.

  • Metodologia pouco transparente. Segundo o JOTA, o seu agregador aplica pesos às pesquisas com base no “número de dias para a eleição, tamanho da amostra da pesquisa, e histórico do instituto de pesquisa”. No entanto, não é claro como exatamente esses pesos são aplicados. Enquanto isso, o Poder360 diz que sua média móvel “considera os resultados de levantamentos… realizados num período de 60 dias (antes e após o ponto específico)” – mas não esclarece como essa média é calculada, caso ainda não tenhamos dias “após o ponto específico”.

  • Falta de critérios objetivos e transparentes na inclusão de pesquisas. Nenhum dos três agregadores de pesquisa explica os critérios que usaram para incluir ou não uma pesquisa nas suas médias. O JOTA e a Gazeta do Povo, por exemplo, deixaram de incluir o Vox Populi nas suas agregações. Já o Poder360 deixou de incluir cerca de 3.000 pesquisas na sua base de dados que o Pindograma conseguiu encontrar em seu levantamento.

Além desses pontos mais gerais, nenhum desses agregadores parece estar comprometido com a cobertura das eleições de 2020. Os esforços do JOTA e da Gazeta do Povo parecem ter se concentrado nas eleições presidenciais de 2018. Enquanto isso, a última pesquisa para prefeito de São Paulo publicada no agregador do Poder360 saiu em julho, embora já estejamos no começo de setembro.

Foi por isso que o Pindograma decidiu desenvolver seu próprio agregador de pesquisas – cuja metodologia é descrita a seguir.

Passo 1: Coleta de Dados

A forma pela qual o Pindograma consolidou sua base de pesquisas eleitorais está amplamente documentada em nosso artigo sobre como desenvolvemos nosso Ranking de Institutos de Pesquisa. Nós buscamos incluir todas as pesquisas eleitorais que constavam no registro de pesquisas do Tribunal Superior Eleitoral – o que resultou em um banco com cerca de 6.000 sondagens conduzidas entre 2012 e 2018. Algumas delas foram retiradas automaticamente de relatórios publicados pelos próprios institutos; e outras foram transcritas de milhares de sites de notícias pelo Brasil todo.

Para adicionar as pesquisas de 2020, aplicamos o mesmo processo. A única diferença foi que obtivemos dados do registro de pesquisas através de um scraper de HTML, já que o TSE não divulga dados do registro em formato aberto até o final das eleições. A cada dois dias, repetiremos esse processo para adicionar novas pesquisas ao agregador.

Por fim, aplicamos o seguinte filtro para adicionar pesquisas ao agregador: usamos pesquisas espontâneas antes da data-limite para registro de candidaturas, e pesquisas estimuladas depois dessa data. Pesquisas espontâneas são as que perguntam em quem o entrevistado votaria; e perguntas estimuladas são as que perguntam em quem o entrevistado votaria dada uma lista de candidatos. Assim, evitamos sobrecarregar o leitor com mais de um “cenário” para a eleição antes da definição de candidatos.

Passo 2: A Média

O coração de todo agregador de pesquisas é a média. Sem ela, tudo que vemos é uma série de pontos que confundem o leitor ou a leitora:

Mas essa média não pode ser calculada de qualquer maneira. Idealmente, ela não deve ser sensível demais a mudanças nas pesquisas – não queremos, por exemplo, a média de um candidato pulando de 50% para 60% de volta para 50% em menos de uma semana. No entanto, o agregador não pode ignorar mudanças súbitas no quadro eleitoral – principalmente quando ocorrem poucos dias antes de uma eleição.

O Pindograma pesou todas essas considerações ao planejar o seu agregador de pesquisas, e chegou à seguinte metodologia para implementá-lo:

1) Imputação de Médias Diárias

Idealmente, um agregador de pesquisas deveria informar como estão as intenções de voto hoje para o leitor. Mas pesquisas eleitorais não são publicadas todo dia. Ou seja, precisamos estimar as intenções de voto mesmo para os dias para os quais não temos pesquisas publicadas.

O primeiro passo é calcular a média simples de intenções de voto para os dias em que foram feitas pesquisas. Por exemplo, caso tenham sido publicadas duas pesquisas no mesmo dia – uma dando 50% dos votos ao candidato João, e outra dando 45% – João teria uma média simples de 47,5% das intenções de voto naquele dia. Assim, passamos a ter um único valor para as intenções de voto de cada dia.

O segundo passo é estimar as intenções de voto nos dias imediatamente seguintes a dias com pesquisas publicadas. Para isso, pegamos uma média das intenções de voto nos cinco dias anteriores. O terceiro passo é copiar essa média para todos os dias seguintes, até uma pesquisa nova ser publicada. Por exemplo, caso haja 15 dias entre a publicação de duas pesquisas em um pleito, nós assumimos que todos esses 15 dias terão o mesmo valor. A aplicação desses dois passos é mostrada no exemplo a seguir:

15/set 16/set 17/set 18/set 19/set 20/set 21/set 22/set 23/set
Sem Estimativas 50 42 43 41 60 54
Com Estimativas 50 42 43 41 60 47.2 47.2 47.2 54
2) Definição de Pesos Temporais

Em seguida, nós damos um peso para cada dia no nosso agregador. Esses pesos influenciam quais pesquisas afetam mais a média final do agregador. O Pindograma aplica três categorias de peso:

  • Peso por número de pesquisas. Se duas pesquisas foram publicadas em um único dia, esse dia recebe peso 2. Se forem três pesquisas, o dia recebe peso 3, e assim por diante. Para os dias cujos resultados são imputados segundo o procedimento descrito acima, o peso é a média dos pesos por número de pesquisa dos últimos cinco dias.

  • Peso temporal. Pesquisas mais atuais tendem a refletir melhor a realidade do que pesquisas passadas. Por isso, dias mais recentes recebem pesos maiores no agregador.

  • Peso por estimativa. Nossas estimativas de intenção de voto para os dias sem pesquisas publicadas valem pouco quando comparadas a uma pesquisa real. Por isso, damos um peso menor aos dias cujos resultados foram estimados.

O Pindograma experimentou dar pesos maiores a pesquisas com maior número de entrevistados e a pesquisas feitas por institutos com histórico melhor. Entretanto, essas intervenções surtiram pouco efeito em praticamente todos os pleitos que analisamos. Por isso, preferimos deixar de aplicar esses critérios, em nome da simplicidade do agregador.

3) Cálculo da Média Móvel

Por fim, calculamos a média do agregador de pesquisas através de uma média móvel ponderada:

  • Na maioria dos casos, a média móvel em um dado dia é a média de intenções de voto dos cinco dias anteriores.

  • Mas quando faltam quatro dias ou menos para a eleição, o número de dias usados para calcular a média móvel diminui. A quatro dias da eleição, é tomada a média das intenções de voto dos quatro dias anteriores; a três dias da eleição, é tomada a média das intenções de voto dos três dias anteriores; e assim por diante. Isso torna o agregador mais sensível a mudanças de última hora nas pesquisas eleitorais – muito frequentes nos pleitos brasileiros.

Para finalizar, a média de intenções de voto dos dias anteriores é ponderada de acordo com os pesos descritos acima. O algoritmo de aplicação dos pesos pode ser encontrado no código.

Resultados

Não há por que passar muito tempo descrevendo os resultados do agregador. Afinal, você pode acessá-lo aqui, e usá-lo para consultar pesquisas em centenas de pleitos pelo Brasil todo.

Dito isso, não pretendemos que nosso agregador se limite a algumas consultas pontuais. O Pindograma espera publicar várias reportagens em torno das corridas eleitorais de 2020 usando esses dados. E você, leitor, também pode usar o agregador para os seus projetos. Sinta-se à vontade para consultar os dados e o código, disponíveis na íntegra para qualquer pessoa. Aproveite para deixar um comentário ou uma contribuição.


Dados utilizados na matéria: Resultados de Pesquisas Eleitorais (Pindograma); Resultados de Pesquisas Eleitorais (Poder360).

Contribuíram com Dados: Pedro Fonseca, Maricélia Antonieto, Maria Clara Rodrigues, Raquel Fernandes, Natália Costard, Rodrigo Adinolfi, Fabrício Donnangelo, Yasmin Bom.

Para reproduzir os números citados, o código pode ser consultado aqui.

[Gostou do nosso conteúdo? Siga-nos no Twitter, no Facebook e no Instagram.]

foto do autor

Daniel Ferreira é editor do Pindograma.

Como funciona o agregador de pesquisas do Pindograma

Entenda o que há de diferente no agregador do Pindograma

POR DANIEL FERREIRA

07/09/2020

O princípio de um agregador de pesquisas eleitorais é simples: o consenso de várias pesquisas sobre as intenções de voto vale mais do que os resultados de uma única pesquisa. Em vez de se orientar por um único instituto – que pode ter vieses metodológicos ou produzir pesquisas de baixa qualidade – um agregador de pesquisas acumula o maior número de pesquisas eleitorais; coloca os resultados em um gráfico; e desenha uma linha de tendência que mostra, em média, o que dizem as diferentes pesquisas em conjunto.

Parece simples, mas o diabo está nos detalhes. Como selecionar as pesquisas que são mostradas no agregador? Devemos dar mais peso às pesquisas mais recentes, ou aos institutos com maior histórico de acertos? Devemos calibrar os vieses das empresas de pesquisa? Como exatamente calculamos a linha de tendência?

São perguntas que cada agregador de pesquisa no Brasil – seja o do Poder360, do JOTA, ou da Gazeta do Povo – respondem de forma diferente. No entanto, essas ferramentas têm uma série de limitações:

  • Âmbito restrito. O agregador da Gazeta do Povo cobriu apenas a última eleição presidencial e algumas eleições para governador daquele ano; já o JOTA se limitou à eleição presidencial de 2018.

  • Metodologia pouco transparente. Segundo o JOTA, o seu agregador aplica pesos às pesquisas com base no “número de dias para a eleição, tamanho da amostra da pesquisa, e histórico do instituto de pesquisa”. No entanto, não é claro como exatamente esses pesos são aplicados. Enquanto isso, o Poder360 diz que sua média móvel “considera os resultados de levantamentos… realizados num período de 60 dias (antes e após o ponto específico)” – mas não esclarece como essa média é calculada, caso ainda não tenhamos dias “após o ponto específico”.

  • Falta de critérios objetivos e transparentes na inclusão de pesquisas. Nenhum dos três agregadores de pesquisa explica os critérios que usaram para incluir ou não uma pesquisa nas suas médias. O JOTA e a Gazeta do Povo, por exemplo, deixaram de incluir o Vox Populi nas suas agregações. Já o Poder360 deixou de incluir cerca de 3.000 pesquisas na sua base de dados que o Pindograma conseguiu encontrar em seu levantamento.

Além desses pontos mais gerais, nenhum desses agregadores parece estar comprometido com a cobertura das eleições de 2020. Os esforços do JOTA e da Gazeta do Povo parecem ter se concentrado nas eleições presidenciais de 2018. Enquanto isso, a última pesquisa para prefeito de São Paulo publicada no agregador do Poder360 saiu em julho, embora já estejamos no começo de setembro.

Foi por isso que o Pindograma decidiu desenvolver seu próprio agregador de pesquisas – cuja metodologia é descrita a seguir.

Passo 1: Coleta de Dados

A forma pela qual o Pindograma consolidou sua base de pesquisas eleitorais está amplamente documentada em nosso artigo sobre como desenvolvemos nosso Ranking de Institutos de Pesquisa. Nós buscamos incluir todas as pesquisas eleitorais que constavam no registro de pesquisas do Tribunal Superior Eleitoral – o que resultou em um banco com cerca de 6.000 sondagens conduzidas entre 2012 e 2018. Algumas delas foram retiradas automaticamente de relatórios publicados pelos próprios institutos; e outras foram transcritas de milhares de sites de notícias pelo Brasil todo.

Para adicionar as pesquisas de 2020, aplicamos o mesmo processo. A única diferença foi que obtivemos dados do registro de pesquisas através de um scraper de HTML, já que o TSE não divulga dados do registro em formato aberto até o final das eleições. A cada dois dias, repetiremos esse processo para adicionar novas pesquisas ao agregador.

Por fim, aplicamos o seguinte filtro para adicionar pesquisas ao agregador: usamos pesquisas espontâneas antes da data-limite para registro de candidaturas, e pesquisas estimuladas depois dessa data. Pesquisas espontâneas são as que perguntam em quem o entrevistado votaria; e perguntas estimuladas são as que perguntam em quem o entrevistado votaria dada uma lista de candidatos. Assim, evitamos sobrecarregar o leitor com mais de um “cenário” para a eleição antes da definição de candidatos.

Passo 2: A Média

O coração de todo agregador de pesquisas é a média. Sem ela, tudo que vemos é uma série de pontos que confundem o leitor ou a leitora:

Mas essa média não pode ser calculada de qualquer maneira. Idealmente, ela não deve ser sensível demais a mudanças nas pesquisas – não queremos, por exemplo, a média de um candidato pulando de 50% para 60% de volta para 50% em menos de uma semana. No entanto, o agregador não pode ignorar mudanças súbitas no quadro eleitoral – principalmente quando ocorrem poucos dias antes de uma eleição.

O Pindograma pesou todas essas considerações ao planejar o seu agregador de pesquisas, e chegou à seguinte metodologia para implementá-lo:

1) Imputação de Médias Diárias

Idealmente, um agregador de pesquisas deveria informar como estão as intenções de voto hoje para o leitor. Mas pesquisas eleitorais não são publicadas todo dia. Ou seja, precisamos estimar as intenções de voto mesmo para os dias para os quais não temos pesquisas publicadas.

O primeiro passo é calcular a média simples de intenções de voto para os dias em que foram feitas pesquisas. Por exemplo, caso tenham sido publicadas duas pesquisas no mesmo dia – uma dando 50% dos votos ao candidato João, e outra dando 45% – João teria uma média simples de 47,5% das intenções de voto naquele dia. Assim, passamos a ter um único valor para as intenções de voto de cada dia.

O segundo passo é estimar as intenções de voto nos dias imediatamente seguintes a dias com pesquisas publicadas. Para isso, pegamos uma média das intenções de voto nos cinco dias anteriores. O terceiro passo é copiar essa média para todos os dias seguintes, até uma pesquisa nova ser publicada. Por exemplo, caso haja 15 dias entre a publicação de duas pesquisas em um pleito, nós assumimos que todos esses 15 dias terão o mesmo valor. A aplicação desses dois passos é mostrada no exemplo a seguir:

15/set 16/set 17/set 18/set 19/set 20/set 21/set 22/set 23/set
Sem Estimativas 50 42 43 41 60 54
Com Estimativas 50 42 43 41 60 47.2 47.2 47.2 54
2) Definição de Pesos Temporais

Em seguida, nós damos um peso para cada dia no nosso agregador. Esses pesos influenciam quais pesquisas afetam mais a média final do agregador. O Pindograma aplica três categorias de peso:

  • Peso por número de pesquisas. Se duas pesquisas foram publicadas em um único dia, esse dia recebe peso 2. Se forem três pesquisas, o dia recebe peso 3, e assim por diante. Para os dias cujos resultados são imputados segundo o procedimento descrito acima, o peso é a média dos pesos por número de pesquisa dos últimos cinco dias.

  • Peso temporal. Pesquisas mais atuais tendem a refletir melhor a realidade do que pesquisas passadas. Por isso, dias mais recentes recebem pesos maiores no agregador.

  • Peso por estimativa. Nossas estimativas de intenção de voto para os dias sem pesquisas publicadas valem pouco quando comparadas a uma pesquisa real. Por isso, damos um peso menor aos dias cujos resultados foram estimados.

O Pindograma experimentou dar pesos maiores a pesquisas com maior número de entrevistados e a pesquisas feitas por institutos com histórico melhor. Entretanto, essas intervenções surtiram pouco efeito em praticamente todos os pleitos que analisamos. Por isso, preferimos deixar de aplicar esses critérios, em nome da simplicidade do agregador.

3) Cálculo da Média Móvel

Por fim, calculamos a média do agregador de pesquisas através de uma média móvel ponderada:

  • Na maioria dos casos, a média móvel em um dado dia é a média de intenções de voto dos cinco dias anteriores.

  • Mas quando faltam quatro dias ou menos para a eleição, o número de dias usados para calcular a média móvel diminui. A quatro dias da eleição, é tomada a média das intenções de voto dos quatro dias anteriores; a três dias da eleição, é tomada a média das intenções de voto dos três dias anteriores; e assim por diante. Isso torna o agregador mais sensível a mudanças de última hora nas pesquisas eleitorais – muito frequentes nos pleitos brasileiros.

Para finalizar, a média de intenções de voto dos dias anteriores é ponderada de acordo com os pesos descritos acima. O algoritmo de aplicação dos pesos pode ser encontrado no código.

Resultados

Não há por que passar muito tempo descrevendo os resultados do agregador. Afinal, você pode acessá-lo aqui, e usá-lo para consultar pesquisas em centenas de pleitos pelo Brasil todo.

Dito isso, não pretendemos que nosso agregador se limite a algumas consultas pontuais. O Pindograma espera publicar várias reportagens em torno das corridas eleitorais de 2020 usando esses dados. E você, leitor, também pode usar o agregador para os seus projetos. Sinta-se à vontade para consultar os dados e o código, disponíveis na íntegra para qualquer pessoa. Aproveite para deixar um comentário ou uma contribuição.


Dados utilizados na matéria: Resultados de Pesquisas Eleitorais (Pindograma); Resultados de Pesquisas Eleitorais (Poder360).

Contribuíram com Dados: Pedro Fonseca, Maricélia Antonieto, Maria Clara Rodrigues, Raquel Fernandes, Natália Costard, Rodrigo Adinolfi, Fabrício Donnangelo, Yasmin Bom.

Para reproduzir os números citados, o código pode ser consultado aqui.

[Gostou do nosso conteúdo? Siga-nos no Twitter, no Facebook e no Instagram.]

foto do autor

Daniel Ferreira

é editor do Pindograma.

newsletter

Para receber notificações de novas matérias,

digite seu email:

(e aperte enter!)