Visualizar os dados faz parte do projeto inteiro de Data Science.
Seja para conhecer os dados, para verificar se a alteração foi feita corretamente ou para relembrar as variáveis, sempre utilizamos as funções de visualização.
Neste artigo vamos explorar os três métodos mais utilizados na biblioteca Pandas: head, tail e sample.
O dataset utilizado está neste link: Clique aqui
Cadastre-se
Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!
Importação das bibliotecas e do Dataset
Vamos importar o pandas e a biblioteca para aplicar as funcões durante o artigo:
DataFrame.head( )
A função head( ) é a mais utilizada e provavelmente, uma das primeiras que você aprende durante os cursos.
O único parâmetro que ela leva é o número de registros no resultado. Por default, ela traz 5, ou seja, se você não informar a quantidade, ela sempre irá mostrar os 5 primeiros registros, sempre em ordem ascendente (na ordem que do arquivo original)
a sintaxe é: dataframe.head( )
Na nossa importação, gravados o DataFrame na variável df, logo, utilizaremos df.head( ) para mostrar os cinco primeiros valores:
Você pode alterar a quantidade de registros, inserindo o número dentro dos parênteses:
Quer juntar vários arquivos Excel ou CSV de forma muito rápida utilizando Python?
Confira o artigo: Como unificar artigos no Python
DataFrame.tail( )
Essa função é bastante parecida com a head( ), porém, ao invés de mostrar os cinco primeiros registros, ela traz os cinco últimos.
Também por default, a visualização será dos 5 últimos registros.
Como é feito na funcão head( ), você pode inserir a quantidade de registros que quer mostrar dentro da funcão tail ( ):
Sample( )
A funcao sample traz uma amostra aleatória de dados.
Por default, a quantidade de registro é apenas um:
Você pode alterar a quantidade de registros aleatórios, basta informar como parâmetro:
Note que se você rodar novamente este snippet, ele irá trazer outros dados:
Parâmetro frac da função sample( )
Você pode informar o percentual do DataFrame que você deseja visualizar de forma aleatória.
Para isso, basta colocar o parâmetro “frac”
Neste exemplo, vamos visualizar 5% do DataFrame colocando frac = 0.05 :
Fixando o resultado com o parâmetro random_state
Se você quiser fixar o resultado, ou seja, sempre que rodar o snippet, visualizar sempre os mesmos registros, basta colocar o parâmetro random_state.
Vamos pedir 3 registros e inserir o número 3 como randon_state (este valor deve ser inteiro. Neste artigo informamos o número 3, mas você pode colocar 4, 5, 6, 30, 300, etc).
Tente carregar novamente esse método e o resultado sempre será o mesmo.
Transpondo o DataFrame
Esse método é bastante útil principalmente quando seu DataFrame possui muitas colunas.
Inserindo a letra ‘T’ no final da sua funcao, seja head, tail ou sample, o resultado será transposto, isto é, as colunas irão virar linhas e vice-versa:
df.sample(3, random_state = 3).T
Note que os países: Kuwait, Iceland e Brazil que estavam como linhas, se transformaram em colunas.
Conclusão
Apesar de métodos simples, estas três funções são muito úteis, principalmente, durante o processo de análise exploratória de dados.
Particularmente, gosto bastante da função sample ( ) pois não te deixa “viciado”, visualizando sempre os primeiros registros do seu DataFrame.
A funcao sample ainda permite inserir outros parâmetros.
Recomendo conferir a documentacão do Pandas para maiores informacoes:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.
You must be logged in to post a comment.