Por Tâmata Tarcila Soares de Sousa
Estudante de Medicina da UFPB (III período), monitora de Pesquisa Aplicada à Medicina (MCO2)
O Teorema de Chebyshev, conhecido também como "Desigualdade de Tchebycheff", fornece meios de compreender precisamente como a variância mede a variabilidade em relação ao valor esperado de uma variável aleatória.
Esse teorema permite fazer afirmações acerca da proporção de valores de dados devem estar contidos em um número específico de desvios-padrão da média. É um teorema aplicável a qualuqer conjunto de dados e pode ser usado para estabelecer o número mínimo de valores de dados que estarão dentro de certo número de desvios-padrão da média.
Quando se sabe que os dados têm aproximadamente a forma de sino (distribuição aproximadamente normal), pode-se até prever mais elementos. Por exemplo, a regra empírica permite concluir somente que pelo menos 75% dos valores de dados estarão nesse intervalo.
Para entender esse teorema precisam-se de alguns conteúdos, como expectância e variância de X. Se conhecermos a distribuição de probabilidade de uma variável aleatória X, poderemos nesse caso calcular E(X) e V(X), se existirem.
Contudo, a recíproca não é verdadeira. Isto é, do conhecimento de E(X) e V(X) não poderemos reconstruir a distribuição de probabilidades de X e, consequentemente, calcular quantidades tais como P [X - E(X) ≤ C].
Não obstante, verifica-se que muito embora não possamos calcular tais probabilidades [a partir do conhecimento de E(X) e V(X)], poderemos estabelecer um limite superior (ou inferior) muito útil para essas probabilidades. Esse resultado está contido no que é conhecido como Desigualdade de Tchebyshev.
Não se faz nenhuma restrição sobre a distribuição de X, exceto que ela possua variância finita. Esta desigualdade é o ponto de partida para vários desenvolvimentos teóricos. Para a maioria das distribuições que ocorrem na prática, existem limites muito mais rigorosos para P [X - E(X) ≤ C] do que o dado pela desigualdade de Chebyshev, entretanto, os limites estabelecidos pela desigualdade não podem ser melhorados.
Dessa maneira observa-se que a Desigualdade de Chebyshev fornece um limite inferior para que a probabilidade de um valor de uma variável aleatória com variância finita esteja dentro de certa distância da média; da mesma forma nos fornece um limite superior. O teorema se aplica até mesmo quando a distribuição não é normal, e coloca limites sobre os dados que não estão na média.
Nesse caso, valores extremos são considerados pontos fora da curva. Um ponto fora da curva pode ser um valor que foi incorretamente registrado. Esses valores devem ser verificados quanto à precisão para determinar se pertencem mesmo àquele conjunto de dados.
Por exemplo, supondo-se que os artigos publicados em um site tenham em média 1000 caracteres, com desvio padrão de 200 caracteres, a partir da Desigualdade Chebyshev , pode-se deduzir que, pelo menos, 75% dos valores estão entre 600 e 1400 caracteres (k = 2).
Referências
ANDERSON, D. R. Estatística aplicada à Administração e Economia. São Paulo: Thompson Learning, 2007.
MEYER, P. L. Probabilidade: Aplicações à Estatística. 2.ed. São Paulo: Livros Técnicos e Científicos Ed., 1983.
STONE, H. P. Introdução à Teoria da Probabilidade. Rio de Janeiro: Interciência, 1978.
Crédito da imagem: a figura desta postagem foi retirada de: http://fotolog.terra.com.br/memory:33