Já reparou que o algarismo 1 parece apresentar-se como primeiro dígito mais vezes que todos os outros algarismos? Isto é, quando se depara com um dado número qualquer, parece que o 1 tem uma maior probabilidade de aparecer na primeira “posição” do lado esquerdo do número. Por exemplo, o 1 é o primeiro dígito dos seguintes números:
- População portuguesa actual: 10.302.281*
- Produto interno bruto médio no mundo: $ 17.300**
- Número de ouro: 1.61803… (dízima infinita não-periódica)
É claro que estes exemplos não provam nada: você de certo que consegue pensar em imensos contra-exemplos. De facto, a primeira vez em que reparei neste padrão aparente pensei que estaria apenas a iludir-me com a tendência tão humana de encontrar padrões inexistentes fruto de uma negligência dos contra-exemplos. Infelizmente, nessa altura cometi o erro de não tentar aprofundar o assunto. O padrão de facto existe!
Este padrão tem um nome, trata-se da lei do primeiro dígito, ou lei de Benford (ou Newcomb-Benford), em homenagem aos cientistas que descobriram a “lei”: o físico norte-americano Frank Benford (1883 – 1948) e o matemático canadiense Simon Newcomb (1835 – 1909).
A lei é um pouco mais genérica que aquilo que descrevi em cima. Ela diz-nos que em muitas distribuições de números o primeiro dígito tem tendência a ser um algarismo pequeno (1, 2, 3, 4, …). Em geral esperar-se-ia que todos os algarismos tivessem a mesma probabilidade de aparecer na primeira posição, isto é, cerca de uma vez em cada nove, 11,1%, mas o que acontece é que o 1 aparece mais frequentemente que os outros, cerca de 30%, enquanto que o 9 aparece apenas em cerca de 5% das vezes.
De forma a avaliar a presença ou não deste padrão, devemos restringir-nos a um dado tipo de números. Como nos foi dito na escola primária: “não misturemos batatas com bananas”. Estudos estatísticos observaram a lei do primeiro dígito em diferentes tipos de dados: em números de habitantes, valores da bolsa, preços de casas, comprimentos de rios e até em constantes fundamentais da Física e da Matemática!
É claro que há excepções óbvias à lei. Consegue pensar numa? Os números de telefone e telemóvel, por exemplo, não seguem a lei, pois existe um número pré-definido como sendo o primeiro. O mesmo acontece para outros tipos de dados numéricos que se distribuem num certo intervalo. Na verdade, a lei tem tendência a verificar-se em dados que se distribuam em várias ordens de grandeza. (A ordem de grandeza de um número corresponde à potência de 10 associada ao número. Por outras palavras, os números de 1 a 9 têm ordem zero; os números de 10 a 99 têm ordem um; os números de 100 a 999 têm ordem dois; etc.) Assim, a lei observa-se melhor quando os números têm a “liberdade” de ser muito díspares.
Porque é que lhe chamamos “lei” quando parece ser uma mera observação estatística? Porque Newcomb definiu uma lei matemática:
P(d) é a probabilidade de encontrar o dígito ‘d’ (d=1, 2, 3, 4…) na primeira posição.
Por que razão o comprimento de rios, por exemplo, segue aproximadamente esta lei? Acontece que na maioria dos casos esta lei é consequência de uma outra, a Lei de Zipf. Observa-se que imensas “quantidades” tendem a seguir uma distribuição em lei de potência. (Recorde o conceito de “distribuição” no artigo sobre a Estatística das Sondagens.) Aplicando isto ao exemplo do comprimento dos rios, que segue a Lei de Zipf, temos que rios muito compridos são raros, rios médios ocorrem com alguma frequência e rios pequenos são muito frequentes. Traduzindo isto em números, temos a tal lei de potência, a qual conduz à Lei de Benford.
Em termos gráficos, dados numéricos que sigam a lei de Benford tendem a seguir um género de distribuição normal, mas numa escala logarítmica (o que faz com que efectivamente seja muito diferente de uma distribuição normal):
Numa escala linear, a distância entre números consecutivos é igual. Por exemplo, uma régua tem uma escala linear e por isso a distância entre 1 e 2 é igual à distância entre 4 e 5. Numa escala logarítmica, como aquela representada no eixo horizontal da figura de cima, a distância entre o 1 e o 2 é maior que a distância entre o 2 e o 3, sendo que as distâncias se repetem em múltiplos de 10 (a distância entre o 1 e o 2 é igual à distância entre o 10 e o 20).
A curva no gráfico de cima representa uma distribuição, ou, se preferirem, um histograma. As áreas a vermelho são regiões de dados numéricos cujos números começam com 1, enquanto que as áreas a azul correspondem a números cujo primeiro dígito é o 8. Maior área significa um maior frequência de encontrar estes números. Assim, é fácil de constatar que nesta distribuição os 1s aparecem mais frequentemente como primeiros dígitos que o 8, ou que quaisquer outros algarismos.
Será que isto tem alguma aplicação prática? Claro que sim! Se soubermos que um certo tipo de dado numérico deve seguir a Lei de Benford, então isso permite-nos determinar se uma dada lista de números desse tipo estará, ou não, potencialmente incorrecta. A lei é usada, por exemplo, em contabilidade para detectar eventuais fraudes. Porém, se o “gatuno” souber disto poderá manipular os dados numéricos de forma a que sigam a lei matemática. Por outro lado, é possível a ocorrência de anomalias estatísticas que não resultem de fraude. Isto significa, portanto, que a Lei de Benford só por si não é suficiente para detectar fraude, mas consegue em certos casos alertar para potenciais fraudes. Por exemplo, com base apenas nesta lei é possível desconfiar que a Grécia terá falsificado os dados sobre a sua economia de forma a conseguir entrar na União Europeia em 1981***.
Em geral, no que toca a detectar fraudes, não nos temos que limitar à Lei do primeiro dígito. Se soubermos que uma lista de números deve seguir uma certa distribuição, então basta verificar que é de facto isso que acontece. Quanto maior for a lista de números, mais fácil será de determinar se existem, ou não, anomalias.
“Eu posso justificar as minhas despesas, mas não com factos e números.”
* Worldometer.
** Indexmundi.
*** “Greece was lying about its budget numbers” @Forbes
3 comentários
“De facto, a primeira vez em que reparei neste padrão aparente pensei que estaria apenas a iludir-me com a tendência tão humana de encontrar padrões inexistentes fruto de uma negligência dos contra-exemplos. Infelizmente, nessa altura cometi o erro de não tentar aprofundar o assunto. O padrão de facto existe!
Este padrão tem um nome, trata-se da lei do primeiro dígito, ou lei de Benford (ou Newcomb-Benford), em homenagem aos cientistas que descobriram a “lei”:”
Ou seja, se tivesses nascido 150 anos mais cedo… estavamos na presença da Lei de Lopes 😉
Author
Nah, eu só constatei, não demonstrei nada. 🙂 É possível que já muita gente tivesse reparado no padrão antes de Benford e Newcomb.
Na verdade o problema ainda não está completamente resolvido, portanto ainda daria para adicionarmos os nossos nomes: nos casos em que os dados devem seguir a Lei de Zipf, é bastante claro o porquê de termos a Lei de Benford. Quando a Lei de Zipf não se aplica torna-se difícil de compreender a razão de termos tal padrão.
Realmente incrível, desconhecia a lei