A Estatística das Sondagens

Quando era pequeno ficava surpreendido por nas sondagens que mostravam na televisão dizerem que tinham, por exemplo, 98% de certezas – “Como é que eles sabem que têm essa certeza?” questionava-me eu,  “Para saberem isso teriam que comparar a amostragem usada com a população total”, pensava eu.

Antes de responder a essa questão, vou dar um pequeno “passeio” sobre alguns conceitos importantes da Matemática envolvida.

Primeiro, é comum haver alguma confusão entre probabilidades e estatísticas. De modo simplificador, a estatística obtém-se através de uma amostragem, enquanto que a probabilidade pode ser calculada simplesmente conhecendo o problema. Por exemplo, se quisermos saber a probabilidade de sair o número 1 no lançamento de um dado de 6 faces numeradas, basta pensarmos nos casos possíveis e favoráveis (como explicado no artigo de como calcular a probabilidade de ganhar o euromilhões): imediatamente chegamos ao resultado 1/6. Contudo, se nos disserem que o dado está viciado e nos pedirem para estimar a probabilidade de sair o número 1, como é que fazemos? Recorremos à estatística: lançamos várias vezes o dado e contamos o número de vezes que sai cada um dos números. Se o dado não estivesse viciado, os números deveriam sair mais ou menos o mesmo número de vezes cada um, contando que lançássemos o dado um número suficiente de vezes.

Com isto, chegámos à chamada Lei dos Grandes Números, que é uma das leis fundamentais nesta área da Matemática: se numa experiência há um dado evento que tem uma probabilidade determinada de ocorrer, se repetirmos a experiência várias vezes, a frequência com que o evento irá ocorrer irá tender para essa probabilidade. (A frequência é o número de vezes que o evento ocorreu a dividir pelo número de vezes que se fez a experiência.)

Jakob_Bernoulli

 Jakob Bernoulli (1654-1705) foi o primeiro matemático a descrever a Lei dos Grandes Números. Chamou-lhe “Teorema Dourado”.

Um outro resultado importante da teoria de probabilidades é também ele muito intuitivo, principalmente para aqueles que já fizeram algum tipo de trabalho que envolvesse medidas. Se a medida em causa é importante, então para nos assegurarmos que não cometemos um erro, é natural repetir a medição. A obtenção do mesmo resultado várias vezes dá-nos uma crescente confiança nesse resultado. Se por algum motivo se obtiverem vários resultados diferentes, intuitivamente escolhemos a média. A nível industrial, muitos produtos vêm com a indicação da sua média, bem como da margem de erro (que pode ser estimada através das medidas que fugiram à média).

Se fizermos um histograma, ou seja, se contarmos o número de vezes que ocorreu cada medida (num dado intervalo, por exemplo), obtemos um gráfico deste género:

DistGaussiana_Hist

Para concretizar, imaginem que vos foi dada a tarefa de verificar se um dado vendedor de água não está a enganar os seus clientes, ao vender garrafões de supostamente 5 litros de água com apenas 4.9 litros de água. Primeiro têm que obter uma amostragem aceitável, digamos 100 garrafões. Depois medem a quantidade de água que cada garrafão tinha. Finalmente, fazem o gráfico (histograma): no eixo horizontal colocam, por exemplo: 4.7, 4.8, 4.9, 5.0, 5.1, 5.2, e depois metem uma coluna vertical cuja altura significa o número de vezes que encontraram um garrafão com essa quantidade de água. Se a coluna mais alta aparecer nos 4.9 em vez de nos 5.0, há razões para acreditar que o vendedor de água está de facto a enganar os seus clientes. Caso não esteja a enganar, o histograma deveria ser semelhante ao da figura de cima, centrado nos 5 litros. Quanto mais vezes a experiência fosse repetida, e menores se fizessem as classes (ou seja, as divisões da escala, no caso de cima a escala era 0.1), então as colunas deveriam aproximar-se da curva que se vê na imagem de cima. Esta curva é chamada distribuição Normal, ou distribuição de Gauss.

E com isto chegámos ao resultado que eu falava, e que é provavelmente um dos fundamentos mais importantes em Estatística: o Teorema do Limite Central.

Reformulando em linguagem um pouco mais técnica, este teorema diz-nos que a soma de várias variáveis independentes e identicamente distribuídas (ou seja, as medidas têm que ser naturalmente da mesma “coisa” e não podem depender umas das outras) tem uma distribuição (cuja representação gráfica pode ser um histograma) que se aproxima da distribuição Normal. A aproximação é tanto melhor quanto maior for o número de variáveis consideradas. (No caso do exemplo, trata-se de aumentar o número de garrafões.) Este teorema foi postulado e posteriormente provado pelos matemáticos Moivre, Laplace e Lyapunov.

johann_carl_friedrich_gauss

 Carl Friedrich Gauss (1777-1855) foi um grandioso matemático e físico. As contribuições estendem-se desde a geometria diferencial à geofísica, passando pela teoria de números (provou, por exemplo, o “teorema de ouro” deixado por Euler), estatística, electrostática, astronomia, óptica… Qualquer estudante universitário das áreas de ciências e engenharias já terá certamente usado o Método dos Mínimos Desvios Quadráticos que foi criado por Gauss quando este tinha 18 anos (embora Legendre tenha chegado ao mesmo resultado independentemente, pela mesma altura). É referido como o “Príncipe da Matemática”.

A distribuição Normal depende apenas de dois parâmetros, a média e a variância. A média é o valor no eixo horizontal que corresponde ao centro da curva, ao seu ponto mais alto. A variância qualifica o quanto os valores variam em relação à média, ou seja, quanto maior for a abertura da curva, maior é a variância, porque isso significa que houve uma maior proporção de “dados” longe da média. Tudo o resto é sempre igual – a forma é sempre a mesma!

Voltando à questão inicial, quando se faz uma sondagem, tem-se em mente todos estes conceitos. Não é possível calcular as probabilidades, contudo sabe-se através da Lei dos Grandes Números que quanto maior for a amostragem, a frequência converge para um dado valor – aquele que corresponde ao de toda a população. Esta convergência não é mais que o facto de que o tal histograma se aproxima da curva da distribuição Normal à medida que se aumenta a amostragem. Se quisermos analisar, por exemplo, a estatura média da população adulta masculina mundial, poderemos considerar uma amostragem de alguns milhares de sujeitos. Há porém um aspecto muito importante para que esta amostragem seja adequada: deverá ser aleatória. Por exemplo, se a amostragem não for bem distribuída entre países, tal irá adulterar os resultados. Uma amostragem só com portugueses, por exemplo, iria obviamente dar um valor inferior à média mundial. A forma mais simples de garantir aleatoriedade é normalmente aumentar a amostragem, bem como tentar obtê-la “pesada” com as proporções adequadas. No caso da amostragem para estimar a estatura média global, naturalmente que se teria que ter um maior número de chineses do que de portugueses, por exemplo: de preferência a razão entre o número de chineses e portugueses presentes na amostra deveria ser mais ou menos igual à razão entre a população chinesa masculina adulta e a população portuguesa masculina adulta.

Uma vez garantida a aleatoriedade, tem que se verificar que a amostra segue aproximadamente uma distribuição Normal. Na suposição de que a distribuição de toda a população é também Normal, é possível estimar qual a probabilidade de se estar a cometer um erro ao se usar aquela amostra para caracterizar toda a população. É daqui que surgem os referidos 98%, por exemplo. (O cálculo também pode ser feito ao contrário, isto é, a dimensão da amostra é-nos imposta pelo nível de confiança que queremos obter no resultado.)

2 comentários

4 pings

  1. Muito bom este artigo. Explica de forma muito simples e resumida como funcionam as sondagens.

    Sou estudante de economia, por isso tenho conhecimento do assunto, e adorei a forma como explicou a distribuição normal, e como se conseguem amostras significativas.
    É de tal forma simples que penso ser possível para qualquer leigo compreender este ponto importante para a estatística, e no meu caso a Econometria.

      • Marinho Lopes on 27/06/2014 at 00:12
      • Responder

      Obrigado. 🙂 O objectivo era de facto explicar de forma a que um leigo pudesse compreender, ainda que talvez este tenha que ler com “calma” o texto, pois nem tudo é tão claro quanto possa parecer para quem já sabia tudo isto…

      De qualquer forma, se alguém tiver dúvidas que as coloque em comentário. 🙂

  1. […] com que de facto a moeda caiu da mão esquerda ou da mão direita. Como expliquei no artigo sobre a Estatística das Sondagens, a Lei dos Grandes Números garante que a frequência com que um dado evento acontece tende para a […]

  2. […] que um dado evento ocorre tende para a probabilidade do mesmo ocorrer (ver mais detalhes no artigo A Estatística das Sondagens). Por exemplo, qual a probabilidade de sair coroa no lançamento da moeda? Intuitivamente, sabendo […]

  3. […] primeiro entender o que significa “normal” em Matemática. Remeto o leitor para o artigo A Estatística das Sondagens, onde explico o que é a distribuição Normal (também conhecida por distribuição de Gauss). Um […]

  4. […] decerto que você irá acabar por ficar a perder (ver A Lei dos Grandes Números no artigo sobre A Estatística das Sondagens). Se o jogo for a dinheiro, não parecerá muito tentador experimentar… Se lhe oferecerem a […]

Deixe um comentário

O seu endereço de email não será publicado.

Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.