Widget Image
SIGA-NOS

Tamanho da amostra e margem de erro

A pesquisa política vem ocupando uma posição de destaque cada vez maior nas campanhas eleitorais. Candidatos, empresas, associações e sobretudo veículos de comunicação social, contratam pesquisas de institutos especializados e as divulgam. A opinião pública é então bombardeada com novas pesquisas (de periodicidade crescente a medida em que a campanha avança), fazendo com que, termos como amostra, amostragem, tamanho de amostra, margem de erro, grau de confiança, cruzamentos de dados e outros, passem a ser usados na linguagem corrente, muitas vezes sem atentar para o seu significado preciso.

O uso impreciso e equivocado destes conceitos não é matéria menor. A verdadeira questão não é semântica e sim estratégica e econômica. O desconhecimento do significado preciso destes conceitos pode induzir a erro na interpretação dos dados que, por sua vez, induzem a erros estratégicos e pode acarretar despesas grandes e desnecessárias. Tamanho de amostra e margem de erro são dois exemplos de conceitos comumente usados nas campanhas e podem ter efeitos estratégicos e econômicos desastrosos se não forem corretamente entendidos.

Tamanho de amostra

Para o público em geral, quanto maior for a amostra, maior é a precisão dos dados e a confiança na veracidade dos resultados

Há uma concepção intuitiva sobre tamanho de amostra que é geral. Para a maioria, quanto maior for a amostra, maior é a precisão dos dados e a confiança na veracidade dos resultados. Esta concepção é correta, desde que o processo de extração da amostra tenha sido realizado, respeitando os procedimentos estatísticos e probabilísticos descritos em textos anteriores, que asseguram a sua representatividade.

A mera quantidade não agrega nada em matéria de confiabilidade dos resultados. Assim, uma amostra de 200 casos, extraída de forma aleatória, produz resultados incomparavelmente mais confiáveis do que uma “amostra” de 2000 casos, selecionada sem a garantia da sua representatividade. Neste último caso, os resultados não possuem confiabilidade (e, se forem usados, induzirão a erros estratégicos) e a despesa feita terá sido um desperdício. No mundo real da política, entretanto, ainda há muitos que confiam mais nos números do que na forma como eles foram obtidos.

Na realidade, o tamanho da amostra é determinado pela resposta dada a duas perguntas:

  • Qual a margem de erro com a qual a campanha aceita trabalhar?
  • Quanto a campanha está disposta a gastar com a pesquisa?

É óbvio que, no nível do desejo, o candidato desejará sempre a menor margem de erro e o menor gasto possível. Como em muitas outras áreas da estatística, entretanto, não é possível obter as duas simultaneamente. Em termos mais técnicos, não é possível maximizar as duas curvas ao mesmo tempo. São curvas cuja variação conjunta é negativa, isto é, quanto menor a margem de erro mais cara a pesquisa, e inversamente.

O custo da diminuição da margem de erro é elevado. Isto ocorre porque, para diminuir a margem de erro precisamos aumentar o tamanho da amostra. Ao aumentarmos o tamanho da amostra (sempre insistindo que se trata aqui de amostra extraída probabilisticamente, portanto representativa do universo) inevitavelmente aumentamos o custo da pesquisa.

Para diminuir a margem de erro precisamos aumentar o tamanho da amostra.

Um exemplo pode facilitar bastante a compreensão desta questão:

Se fixarmos em 100 o tamanho de uma amostra, escolhida da forma aleatória correta, vamos trabalhar com uma margem de erro de 9,8 pontos percentuais. Para reduzirmos esta margem de 9,8 para 4,0 pontos percentuais, precisaremos aumentar o tamanho da amostra de 100 casos para 600 casos. Assim, o acréscimo de 500 casos resultou numa redução de 5,8 pontos percentuais na margem de erro. Se quisermos reduzir ainda mais a margem de erro, para, digamos, 3.1 pp, precisaremos aumentar o tamanho da amostra de 100 casos para 1.000. Assim, o acréscimo de 900 casos resultou numa redução de 6,7 pp. na margem de erro.

Atente-se, porém, para o fato de que, reduzir de 9,8 para 4,0 pp (redução de 5.8 pp) implicou num acréscimo de 500 novos casos. Já para reduzir de 4,0 pp para 3,1pp (redução de 0.9 pp) tivemos que acrescentar aos 600 casos, mais 400. Em outras palavras, os primeiros 500 novos casos reduziram o erro em 5,8 pp, já os 400 adicionais somente em 0,9 pp, e, se quisermos reduzir de 3,1 pp para 2,0 pp, a margem de erro, seria necessário elevar o número da amostra para 2.000 casos.

Assim, de 100 casos para 600 (+500) reduziu-se o erro em 5.8pp; de 600 para 1.000 (+400) reduziu-se em 0.9pp; de 1.000 para 2.000 a redução do erro é de 1pp; a partir deste tamanho de amostra, a relação existente entre redução do erro e aumento de amostra torna-se cada vez onerosa: para cada fração de redução será necessário aumentar o número de casos exponencialmente, e, em consequência, levando a pesquisa a custos proibitivos.

Dependendo da informação, pode-se trabalhar com uma margem de erro maior.

Viu-se também que a partir de um certo tamanho de amostra (1.000 casos) para obter-se ganhos mínimos na redução do erro é preciso fazer incrementos crescentes no número de casos incluído na amostra. Assim, de uma amostra de 100 casos para uma de 1.000 casos conseguimos com o acréscimo de 900 casos diminuir a margem de erro em 6.7pp (9,8 – 3.1= 6,7pp).

Entretanto os próximos 1.000 casos, que elevariam a amostra de 1.000 para 2.000 casos, reduzem a margem de erro em apenas 1pp. Para uma redução de aproximadamente um sétimo (1/6,7pp) foi necessário aumentar em 100% o tamanho da amostra, e em no mínimo 60 a 70% o custo da pesquisa. Portanto, a redução da margem de erro, a partir deste tamanho de amostra até o limite do erro zero (situação em que não se faz mais amostra e trabalha-se com o universo) as frações de redução do erro vão corresponder a amostras de tamanho crescente, que cobrem o espaço existente entre 2.000 casos e, por exemplo, 170 milhões de casos, que corresponderia à população do Brasil.

É óbvio portanto que, o justificado desejo de trabalhar com margens mínimas de erro terá sempre que levar em conta que estes ganhos terão que ser obtidos com aumentos expressivos no tamanho da amostra, e, por consequência, no custo da pesquisa. Por isso, margem de erro e tamanho de amostra são decisões tomadas pela campanha. Há certos tipos de informação, em relação às quais pode-se trabalhar com uma margem de erro maior. Há outras que exigirão margens menores.

Como regra geral, pode-se começar a campanha trabalhando com amostras de 600 casos (4.0 pp de margem de erro), e, na medida em que a campanha avança e uma maior precisão é necessária, elevar o número de casos para 1.000, e trabalhar com uma margem de erro de 3.1pp. Numa eleição muito apertada, havendo recursos, pode-se elevar a amostra para 2.000 casos e trabalhar com 2.1pp de margem de erro. Avançar mais que isso é problemático e discutível. A relação custo/benefício envolvida em novos aumentos no tamanho da amostra dificilmente será favorável.

O tamanho de amostra e a margem de erro na análise dos dados

A análise e interpretação dos resultados não são feitas de maneira mecânica

É absolutamente fundamental entender que a margem de erro foi calculada para o total da amostra, não para subconjuntos dela. Exemplificando: se você está trabalhando com uma amostra de 1.000 casos (3,1pp de margem de erro) ao analisar a resposta à pergunta sobre intenção de voto, entre dois hipotéticos candidatos, com os seguintes resultados:

Candidato A – 45%;
Candidato B – 41%;
Indecisos – 14%

Sua conclusão será que os dois candidatos se encontram em situação de um empate estatístico. Se a margem de erro é de 3.1pp, o candidato A pode estar com 48,1% (margem superior) num limite, e 41,9% (margem inferior) no outro, enquanto o candidato B pode estar com 44,1% (margem superior) num limite e 37,9% (margem inferior) no outro.

Se, na realidade, o candidato A estiver na margem inferior do erro, e o candidato B na margem superior, quem está na frente é o candidato B e não o A como indicariam os resultados da pesquisa. A pesquisa não tem como resolver esta dúvida, porque a margem de erro adotada abrange as duas possibilidades extremas, e as várias intermediárias entre elas. Se, entretanto, estivéssemos trabalhando com uma margem de erro de 1,5pp, poder-se-ia afirmar que o candidato A estava na frente, já que, mesmo que estivesse na sua margem inferior – 43,5% – ainda estaria à frente de seu adversário, estando ele na sua margem superior 42,5%.

Esta é a forma padrão de uso da margem de erro para avaliar os resultados. Sempre que a diferença entre dois candidatos, dois atributos, duas alternativas de resposta, etc, for de tal magnitude que não possa ser abrangida pela variação, para cima ou para baixo, da margem de erro, aceita-se o resultado como expressão da realidade.

Atenção

É muito importante alertar que esta descrição do procedimento de análise de dados é deliberadamente simplificada, porque pretende ser didática. A análise e interpretação dos resultados não são feitas de maneira tão “mecânica”. Sem afastar-se dos dados, um analista qualificado tem condições de libertar-se da “tirania” da margem de erro. Há situações em que ele despreza o “interdito” da margem de erro, porque a visão de conjunto dos resultados, a análise contextual da pesquisa, dá-lhe segurança suficiente para afirmar uma conclusão mesmo que se situe dentro daquela margem.

A soma dos percentuais das alternativas fecha sempre em 100%, o que equivale a dizer que a totalidade da amostra se distribuiu entre elas

A análise mais simples limita-se a comparar as distribuições das frequências, pergunta a pergunta, identificando, por exemplo: quem está na frente, qual o problema do Estado que os entrevistados consideram mais importante, qual, dentre os atributos listados para o cargo, é julgado mais/menos importante, qual o grau de rejeição dos diferentes candidatos, qual partido tem mais simpatizantes, etc.

Em todos estes casos, e nos demais a eles análogos, trabalha-se com uma tabela simples, onde aparecem as alternativas que foram oferecidas aos entrevistados, com os valores percentuais relativos a cada uma delas. A soma dos percentuais das alternativas fecha sempre em 100%, o que equivale a dizer que a totalidade da amostra se distribuiu entre elas. É para estes casos, em que se trabalha com a totalidade da amostra, que a margem de erro foi adotada.

O problema é que não se vai muito longe, em termos de análise e interpretação dos dados, trabalhando com estas distribuições tão simples. Precisamos saber qual a influência de uma variável sobre as outras. Por exemplo, precisamos saber qual a diferença que a variável sexo (idade, renda, educação, preferência partidária, etc.) produz nos resultados.

Pesquisas políticas são indispensáveis para definições estratégicas, porque permitem dividir o eleitorado em categorias diferentes entre si, e descobrir a variação que elas produzem nos resultados. Retornando ao exemplo anterior não basta saber que o candidato A está com 45% da preferência de voto e o candidato B está com 41%. Desejamos também saber se esta diferença se mantém igual em ambos os sexos. Para isso é necessário “cruzar” as variáveis intenção de voto e sexo, dispondo os resultados numa “tabulação cruzada”, como a abaixo.

Homens Mulheres Total amostra
Candidato A 55% 35% 45%
Candidato B 35% 47% 41%
Indecisos 10% 18% 14%
Total 100% 100% 100%

A tabela acrescenta uma informação importante, que somente pode ser obtida mediante o cruzamento das duas variáveis. Por ela ficamos sabendo que os 45% de intenção de voto do candidato A provém, na sua maioria, de homens, enquanto que os 41% do candidato B provêm na maioria de mulheres.

O candidato A está 10pp abaixo da sua “média amostral” (resultado obtido no total da amostra) entre as mulheres e 10pp acima entre os homens. A situação do candidato B é inversa. Ele está 6pp acima de sua “média amostral” entre as mulheres, e 6pp abaixo entre os homens. Finalmente, há mais indecisos entre as mulheres que entre os homens.

A análise da pesquisa produz tabulações cruzadas para todas as outras variáveis que interessam ao foco estratégico

Comparando-se a informação que obtivéramos com a distribuição simples, com esta informação, vê-se o quanto se avança na interpretação dos dados, com os cruzamentos. O candidato A ficou sabendo que precisa orientar a sua campanha no sentido de buscar o voto feminino. Já o candidato B, se tivesse acesso aos mesmos dados, saberia que precisa atingir mais o eleitorado masculino.

A análise da pesquisa vai produzindo tabulações cruzadas como esta, para todas as outras variáveis que interessam ao foco estratégico, como: idade, renda, educação, firmeza da decisão de voto atual, segunda intenção de voto, atributos do cargo, problemas do estado/país/cidade, rejeição, opiniões sobre questões centrais da campanha, reação favorável/desfavorável aos projetos que defende, etc.

Não somente estas variáveis serão “cruzadas” com sexo, idade, renda, escolaridade, região geográfica – variáveis demográficas e sociais – como também todas poderão ser cruzadas entre si. Assim, cruzamos rejeição com opinião sobre um tema determinado, ou opinião em um tema com opinião sobre outro tema. A análise da pesquisa, para fins estratégicos, resulta da seleção inteligente de variáveis a serem cruzadas, e da interpretação dos resultados que elas ensejam.

Qual é, entretanto, a relação da análise com a questão do tamanho da amostra e da margem de erro?

Se a pesquisa vai trabalhar com cruzamentos entre variáveis que possuem várias categorias, é necessário aumentar o tamanho da amostra

O problema está no fato de que, como se explicou antes, aquela margem de erro vale para a totalidade da amostra. Quando fazemos um cruzamento, dividimos a totalidade da amostra em subconjuntos necessariamente inferiores em número ao total da amostra. Em consequência, a margem de erro para cada subconjunto será sempre muito maior do que a margem de erro para a totalidade da amostra. Voltando ao exemplo apresentado: a totalidade da amostra é de 1.000 entrevistados. Entretanto, os homens perfazem 52% dos entrevistados (isto é, 520 casos) e as mulheres 48% (isto é, 480 casos). A margem de erro para 520 ou 480 casos será obviamente bem maior que a margem de erro para 1.000 casos.

Esta é a situação para uma variável que possui apenas duas categorias (homens/mulheres). Imagine-se a situação de uma variável como problemas da cidade/estado/país, ou regiões em que se divide o estado, que podem chegar facilmente a 10 categorias (subconjuntos). Nestes casos, como não há porque supor que os casos se distribuam em valores iguais por categoria, podemos ter que trabalhar numa situação como a seguinte:

  • Categoria 1 – 200 casos
  • Categoria 2 – 40 casos
  • Categoria 3 – 100 casos
  • Categoria 4 – 20 casos
  • Categoria 5 – 30 casos
  • Categoria 6 – 270 casos
  • Categoria 7 – 80 casos
  • Categoria 8 – 120 casos
  • Categoria 9 – 50 casos
  • Categoria 10 – 90 casos

Qualquer resultado que desejarmos extrair de uma tabela que envolva o cruzamento desta variável com outra – sexo, por exemplo – será muito pouco confiável, pelo número reduzido de casos incluídos nas respectivas categorias. Por esta razão recomenda-se que, se a pesquisa vai trabalhar com cruzamentos entre variáveis que possuem várias categorias, é necessário aumentar o tamanho da amostra.

Mesmo com amostras maiores, resultados obtidos com tabelas cruzadas, baseiam-se em valores relativamente pequenos. Por esta razão, ao fazer o questionário, preferencialmente deve-se procurar trabalhar com variáveis que possam ser divididas em 2, 3 ou 4 categorias (subconjuntos) para que cada uma delas possua um número de casos no mínimo dos mínimos superior a 50.

Elaboração do questionário e interpretação dos resultados devem, sempre que possível, ser entregues à mesma pessoa, porque, ao fazer o questionário, ela terá sempre em mente as exigências estatísticas para interpretar adequadamente seus resultados. Ao ler os resultados de uma pesquisa olhe sempre “a base”, isto é, o número de casos sobre os quais as conclusões são apresentadas. Lembre-se sempre que a margem de erro que os institutos anunciam refere-se apenas àquelas distribuições simples da totalidade da amostra. Qualquer subdivisão da amostra vai significar, necessariamente, aumentos expressivos na margem de erro.

Com as informações apresentadas neste texto você terá condições de ler as pesquisas com maior senso crítico e poderá discutir com os especialistas que venha a contratar, qual é o desenho amostral adequado para as pesquisas da sua campanha.