Quarteto de Anscombe

Por que você deve sempre visualizar seus dados

Quarteto de Anscombe: Visualizando os gráficos de dispersão abaixo, você imaginaria que os quatro resultam em estatísticas descritivas praticamente idênticas?

Nem eu! 🤪

Por isso, resolvi buscar os dados, plotá-los e visualizar algumas estatísticas.

Para saber mais, continue lendo este artigo e se tiver algum comentário ou sugestão, deixe lá no final, na caixa de mensagens 😁

Vamos lá!

Se você quiser, pode acompanhar o notebook no repositório no Github abaixo:

Acesse o notebook aqui!

O quarteto de Anscombe foi construído por um estatístico inglês chamado… Francis Anscombe 😛

Basicamente, o conjunto de dados possui algumas características que podem “enganar” uma regressão linear.

O estudo também é muito discutido quando falamos sobre a importância da visualização de dados. Somente quando são plotados que notamos uma grande diferença. Na verdade, notamos que os dados possuem comportamentos totalmente diferentes.

Obs: O objetivo deste artigo não é falar sobre Regressão Linear e/ou como interpretar os modelos. Se você quiser saber mais, recomendo muito esta playlist no Youtube (em inglês): Simple Linear Regression.

O livro da série “Use a cabeça” – Análise de Dados aborda regressão linear de forma bastante didática (na verdade, o livro todo tem vários exemplos e conceitos introdutórios bem simples de entender). Você pode adquirir o livro no site da Amazon clicando aqui.

Voltando ao Quarteto de Anscombe, a biblioteca Seaborn possui o método que nos permite visualizar e estudar estes dados.

Vamos importar o dataset e atribuí-lo na variável “df”:

Com 44 linhas e 3 colunas, o dataset é bem simples e os números não diferem muito entre si.

Temos 4 “datasets” diferentes, que vai do I até o IV. O menor valor do nosso eixo X é 4 e o máximo 19. Para os valores Y, o range não chega a 10 (mínimo 3.1 e máximo de 12.74).

Para visualizarmos algumas estatísticas, criei uma função que resulta em uma regressão simples para cada um dos valores na variável (coluna) dataset.

Quer melhorar seu histograma utilizando a biblioteca Seaborn? Clique aqui e leia o artigo completo:

Data Viz – Como melhorar seu histograma com Seaborn

@Author: Dai

Agora, vamos usar a função em nosso Anscombe’s dataset, armazenar cada um dos resultados e compará-los:

Como podemos ver no DataFrame acima (DataFrame “aux”), os valores de B0 e B1 diferenciam muito pouco em cada um dos testes. Se formos considerar o arredondamento então, é praticamente nada.

Analisando somente a estatística básica, como média, variância e os resultados da regressão linear, como o intercepto e coeficiente de determinação, não vemos praticamente nenhuma diferença.

Mas quando plotamos os dados…

Analisando os plot’s, vemos que o modelo 01 se ajusta muito bem a um modelo de regressão linear.

O comportamento dos dados do modelo 02 se mostra não linear e a diferença fica ainda mais clara no último plot com dados que uma regressão linear não poderia explicar.

Claro que os dados se tratam de um estudo e na vida real, é praticamente impossível nos depararmos com uma situação exatamente igual a esta. Embora possa parecer simples, o quarteto de Anscombe’s é muito interessante para percebermos a importância da visualização de dados e como, matematicamente, nossos modelos podem se enganar.

Se estiver algum comentário, não se esqueça de deixar nos comentários aqui abaixo 👇 👇

Space Data

Quarteto de Anscombe – Porque você deve sempre visualizar seus dados

Por que você deve sempre visualizar seus dados