Outra vez 1?!

Já reparou que o algarismo 1 parece apresentar-se como primeiro dígito mais vezes que todos os outros algarismos? Isto é, quando se depara com um dado número qualquer, parece que o 1 tem uma maior probabilidade de aparecer na primeira “posição” do lado esquerdo do número. Por exemplo, o 1 é o primeiro dígito dos seguintes números:

População portuguesa actual: 10.302.281*
Produto interno bruto médio no mundo: $ 17.300**
Número de ouro: 1.61803… (dízima infinita não-periódica)

É claro que estes exemplos não provam nada: você de certo que consegue pensar em imensos contra-exemplos. De facto, a primeira vez em que reparei neste padrão aparente pensei que estaria apenas a iludir-me com a tendência tão humana de encontrar padrões inexistentes fruto de uma negligência dos contra-exemplos. Infelizmente, nessa altura cometi o erro de não tentar aprofundar o assunto. O padrão de facto existe!

Este padrão tem um nome, trata-se da lei do primeiro dígito, ou lei de Benford (ou Newcomb-Benford), em homenagem aos cientistas que descobriram a “lei”: o físico norte-americano Frank Benford (1883 – 1948) e o matemático canadiense Simon Newcomb (1835 – 1909).

A lei é um pouco mais genérica que aquilo que descrevi em cima. Ela diz-nos que em muitas distribuições de números o primeiro dígito tem tendência a ser um algarismo pequeno (1, 2, 3, 4, …). Em geral esperar-se-ia que todos os algarismos tivessem a mesma probabilidade de aparecer na primeira posição, isto é, cerca de uma vez em cada nove, 11,1%, mas o que acontece é que o 1 aparece mais frequentemente que os outros, cerca de 30%, enquanto que o 9 aparece apenas em cerca de 5% das vezes.

De forma a avaliar a presença ou não deste padrão, devemos restringir-nos a um dado tipo de números. Como nos foi dito na escola primária: “não misturemos batatas com bananas”. Estudos estatísticos observaram a lei do primeiro dígito em diferentes tipos de dados: em números de habitantes, valores da bolsa, preços de casas, comprimentos de rios e até em constantes fundamentais da Física e da Matemática!

É claro que há excepções óbvias à lei. Consegue pensar numa? Os números de telefone e telemóvel, por exemplo, não seguem a lei, pois existe um número pré-definido como sendo o primeiro. O mesmo acontece para outros tipos de dados numéricos que se distribuem num certo intervalo. Na verdade, a lei tem tendência a verificar-se em dados que se distribuam em várias ordens de grandeza. (A ordem de grandeza de um número corresponde à potência de 10 associada ao número. Por outras palavras, os números de 1 a 9 têm ordem zero; os números de 10 a 99 têm ordem um; os números de 100 a 999 têm ordem dois; etc.) Assim, a lei observa-se melhor quando os números têm a “liberdade” de ser muito díspares.

Porque é que lhe chamamos “lei” quando parece ser uma mera observação estatística? Porque Newcomb definiu uma lei matemática:

$P(d) = log_{10} (1+\frac{1}{d})$

P(d) é a probabilidade de encontrar o dígito ‘d’ (d=1, 2, 3, 4…) na primeira posição.

Por que razão o comprimento de rios, por exemplo, segue aproximadamente esta lei? Acontece que na maioria dos casos esta lei é consequência de uma outra, a Lei de Zipf. Observa-se que imensas “quantidades” tendem a seguir uma distribuição em lei de potência. (Recorde o conceito de “distribuição” no artigo sobre a Estatística das Sondagens.) Aplicando isto ao exemplo do comprimento dos rios, que segue a Lei de Zipf, temos que rios muito compridos são raros, rios médios ocorrem com alguma frequência e rios pequenos são muito frequentes. Traduzindo isto em números, temos a tal lei de potência, a qual conduz à Lei de Benford.

Em termos gráficos, dados numéricos que sigam a lei de Benford tendem a seguir um género de distribuição normal, mas numa escala logarítmica (o que faz com que efectivamente seja muito diferente de uma distribuição normal):

Numa escala linear, a distância entre números consecutivos é igual. Por exemplo, uma régua tem uma escala linear e por isso a distância entre 1 e 2 é igual à distância entre 4 e 5. Numa escala logarítmica, como aquela representada no eixo horizontal da figura de cima, a distância entre o 1 e o 2 é maior que a distância entre o 2 e o 3, sendo que as distâncias se repetem em múltiplos de 10 (a distância entre o 1 e o 2 é igual à distância entre o 10 e o 20).

A curva no gráfico de cima representa uma distribuição, ou, se preferirem, um histograma. As áreas a vermelho são regiões de dados numéricos cujos números começam com 1, enquanto que as áreas a azul correspondem a números cujo primeiro dígito é o 8. Maior área significa um maior frequência de encontrar estes números. Assim, é fácil de constatar que nesta distribuição os 1s aparecem mais frequentemente como primeiros dígitos que o 8, ou que quaisquer outros algarismos.

Será que isto tem alguma aplicação prática? Claro que sim! Se soubermos que um certo tipo de dado numérico deve seguir a Lei de Benford, então isso permite-nos determinar se uma dada lista de números desse tipo estará, ou não, potencialmente incorrecta. A lei é usada, por exemplo, em contabilidade para detectar eventuais fraudes. Porém, se o “gatuno” souber disto poderá manipular os dados numéricos de forma a que sigam a lei matemática. Por outro lado, é possível a ocorrência de anomalias estatísticas que não resultem de fraude. Isto significa, portanto, que a Lei de Benford só por si não é suficiente para detectar fraude, mas consegue em certos casos alertar para potenciais fraudes. Por exemplo, com base apenas nesta lei é possível desconfiar que a Grécia terá falsificado os dados sobre a sua economia de forma a conseguir entrar na União Europeia em 1981***.

Em geral, no que toca a detectar fraudes, não nos temos que limitar à Lei do primeiro dígito. Se soubermos que uma lista de números deve seguir uma certa distribuição, então basta verificar que é de facto isso que acontece. Quanto maior for a lista de números, mais fácil será de determinar se existem, ou não, anomalias.

“Eu posso justificar as minhas despesas, mas não com factos e números.”

* Worldometer.
** Indexmundi.
*** “Greece was lying about its budget numbers” @Forbes

3 comentários

- Carlos Oliveira on 02/05/2018 at 22:08
- #
- Responder
“De facto, a primeira vez em que reparei neste padrão aparente pensei que estaria apenas a iludir-me com a tendência tão humana de encontrar padrões inexistentes fruto de uma negligência dos contra-exemplos. Infelizmente, nessa altura cometi o erro de não tentar aprofundar o assunto. O padrão de facto existe!
Este padrão tem um nome, trata-se da lei do primeiro dígito, ou lei de Benford (ou Newcomb-Benford), em homenagem aos cientistas que descobriram a “lei”:”

Ou seja, se tivesses nascido 150 anos mais cedo… estavamos na presença da Lei de Lopes
1. - Marinho Lopes on 02/05/2018 at 23:44
    Author
  - #
  - Responder
  Nah, eu só constatei, não demonstrei nada. É possível que já muita gente tivesse reparado no padrão antes de Benford e Newcomb.
  Na verdade o problema ainda não está completamente resolvido, portanto ainda daria para adicionarmos os nossos nomes: nos casos em que os dados devem seguir a Lei de Zipf, é bastante claro o porquê de termos a Lei de Benford. Quando a Lei de Zipf não se aplica torna-se difícil de compreender a razão de termos tal padrão.
- Archippus on 02/05/2018 at 20:05
- #
- Responder
Realmente incrível, desconhecia a lei

Outra vez 1?!

Related

Marinho Lopes

3 comentários

Deixe um comentário Cancelar resposta

1º Lugar em Ciência!

Fase da Lua

Últimos comentários

Categorias

Meta

Créditos

Outra vez 1?!

Partilhe o conhecimento!

Related

Marinho Lopes

3 comentários

Deixe um comentário Cancelar resposta

1º Lugar em Ciência!

Fase da Lua

Últimos comentários

Categorias

Etiquetas

Meta

Créditos