Quatro formas de visualizar seu DataFrame no Pandas

Visualizar os dados faz parte do projeto inteiro de Data Science.

Seja para conhecer os dados, para verificar se a alteração foi feita corretamente ou para relembrar as variáveis, sempre utilizamos as funções de visualização.

Neste artigo vamos explorar os três métodos mais utilizados na biblioteca Pandas: head, tail e sample.

O dataset utilizado está neste link: Clique aqui

Visualize o notebook no GitHub

Cadastre-se

Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!

Importação das bibliotecas e do Dataset

Vamos importar o pandas e a biblioteca para aplicar as funcões durante o artigo:

DataFrame.head( )

A função head( ) é a mais utilizada e provavelmente, uma das primeiras que você aprende durante os cursos.

O único parâmetro que ela leva é o número de registros no resultado. Por default, ela traz 5, ou seja, se você não informar a quantidade, ela sempre irá mostrar os 5 primeiros registros, sempre em ordem ascendente (na ordem que do arquivo original)

a sintaxe é: dataframe.head( )

Na nossa importação, gravados o DataFrame na variável df, logo, utilizaremos df.head( ) para mostrar os cinco primeiros valores:

Você pode alterar a quantidade de registros, inserindo o número dentro dos parênteses:

Quer juntar vários arquivos Excel ou CSV de forma muito rápida utilizando Python?

Confira o artigo: Como unificar artigos no Python

@Author: Dai

DataFrame.tail( )

Essa função é bastante parecida com a head( ), porém, ao invés de mostrar os cinco primeiros registros, ela traz os cinco últimos.

Também por default, a visualização será dos 5 últimos registros.

Como é feito na funcão head( ), você pode inserir a quantidade de registros que quer mostrar dentro da funcão tail ( ):

Sample( )

A funcao sample traz uma amostra aleatória de dados.

Por default, a quantidade de registro é apenas um:

Você pode alterar a quantidade de registros aleatórios, basta informar como parâmetro:

Note que se você rodar novamente este snippet, ele irá trazer outros dados:

Parâmetro frac da função sample( )

Você pode informar o percentual do DataFrame que você deseja visualizar de forma aleatória.
Para isso, basta colocar o parâmetro “frac”

Neste exemplo, vamos visualizar 5% do DataFrame colocando frac = 0.05 :

Fixando o resultado com o parâmetro random_state

Se você quiser fixar o resultado, ou seja, sempre que rodar o snippet, visualizar sempre os mesmos registros, basta colocar o parâmetro random_state.

Vamos pedir 3 registros e inserir o número 3 como randon_state (este valor deve ser inteiro. Neste artigo informamos o número 3, mas você pode colocar 4, 5, 6, 30, 300, etc).

Tente carregar novamente esse método e o resultado sempre será o mesmo.

Transpondo o DataFrame

Esse método é bastante útil principalmente quando seu DataFrame possui muitas colunas.

Inserindo a letra ‘T’ no final da sua funcao, seja head, tail ou sample, o resultado será transposto, isto é, as colunas irão virar linhas e vice-versa:

df.sample(3, random_state = 3).T

Note que os países: Kuwait, Iceland e Brazil que estavam como linhas, se transformaram em colunas.

Conclusão

Apesar de métodos simples, estas três funções são muito úteis, principalmente, durante o processo de análise exploratória de dados.

Particularmente, gosto bastante da função sample ( ) pois não te deixa “viciado”, visualizando sempre os primeiros registros do seu DataFrame.

A funcao sample ainda permite inserir outros parâmetros.
Recomendo conferir a documentacão do Pandas para maiores informacoes:

DataFrame.head( )

DataFrame.tail( )

DataFrame.sample( )

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Tags:Pandas

Space Data