Lei de Zipf Misteriosa – 23/11/2021 – Marcelo Viana

Por volta de 1935, o lingüista americano George Zipf observou que, ao citar palavras em ordem decrescente de uso em diferentes contextos, a frequência da primeira palavra da lista era (aproximadamente) 2 vezes maior do que a da segunda palavra, 3 vezes maior do que a do terceiro e assim por diante.

Por exemplo, as três palavras mais comumente usadas em inglês são o artigo “the”, a preposição “of” e a conjunção “and”, com “the” aparecendo 1,92 vezes mais que “of” e 2,42 vezes mais que “e” .

Na verdade, esse comportamento incomum já foi apontado pelo estenógrafo francês Jean-Baptist Issop (1868-1950) e pelo físico alemão Felix Auerbach, e isso também não é um privilégio do inglês: vale para todas as línguas conhecidas, inclusive as artificiais. línguas como o esperanto.

Além disso, não se limita ao campo da linguística: o mesmo tipo de distribuição ocorre em listas de dados de fontes diferentes. Uma das situações mais estudadas, já apontada por Auerbach em 1913, diz respeito ao tamanho das cidades.

Por exemplo, quando enumeramos as cidades brasileiras em ordem decrescente de sua população, notamos que a maior (São Paulo) é 1,92 vezes maior que a segunda (Rio de Janeiro) e 2,42 vezes maior que a terceira (Brasília).

A primeira tentativa de explicar matematicamente esse fenômeno se deve ao próprio Zipf, que está muito curioso. Ele presumiu que tanto o falante quanto o ouvinte queriam investir o mínimo possível na comunicação e concluiu com argumentos estatísticos que isso levaria a uma distribuição de frequência legalmente prescrita. Mas não está claro como essa ideia poderia ser estendida a outros exemplos da lei de Zipf fora da linguística.

Ao longo dos anos, outras possíveis explicações científicas foram propostas, mas a validade da lei de Zipf permanece um mistério. Isso se deve em parte ao fato de que, ao contrário da maioria das afirmações matemáticas, esta lei é apenas aproximadamente correta: frequência de palavras na linguagem, população urbana e outros dados semelhantes têm comportamentos complexos, que a lei de Zipf reflete apenas aproximadamente.

LINK PRESENTE: Você gostou deste texto? O assinante pode postar cinco visualizações gratuitas de qualquer link por dia. Basta clicar no F azul abaixo.

Leave a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Scroll to Top