Por que falham as sondagens?

Imaginemos que queríamos saber a proporção das diferentes marcas de automóveis em Portugal. A forma mais precisa seria aceder à base de dados completa com a identificação dos cerca de 7 milhões de veículos no país. Esse acesso dava-nos os valores exatos sem margem de erro nem enviesamentos.

Agora imagine que o Estado português não permitia o acesso a essa base de dados, mas apenas a uma amostra aleatória de 1000 veículos. Passaríamos de uma base de dados de 7 milhões para apenas mil. Seria, ainda assim, possível ter uma boa estimativa? Na verdade, sim (algo que pode surpreender quem nunca estudou estatística). Com uma amostra aleatória de mil registos da base de dados conseguiríamos saber, com uma margem de erro máxima de cerca de 3 pontos percentuais, a % de automóveis portugueses de cada marca em Portugal. Curiosamente, esta estimativa teria praticamente a mesma margem de erro quer o parque automóvel fosse constituído por 100 mil carros ou 10 milhões (outra coisa que pode surpreender quem nunca estudou estatística). Mais do que a dimensão da população, essencial é que a amostra seja mesmo aleatória.

Agora imagine que o Estado português nem sequer aceitava fornecer os dados para mil veículos aleatórios. Neste caso teríamos de ser nós a recolher essa amostra de 1000 automóveis. Poderíamos ir para junto de uma estrada recolher as marcas dos primeiros 1000 veículos que passassem. Será que isso daria uma estimativa tão boa como obter a marca de 1000........

© Sapo