Pandas

Como unificar arquivos no Python

Unificar_arquivos_Python

Como unificar arquivos no Python

Você já recebeu várias planilhas e precisou juntá-las, transformando em um único arquivo? Diversos arquivos onde você precisa abrir a um, copiar o seu conteúdo e colar em uma única planilha? Se sua resposta é sim, você precisa ler este artigo e entender como unificar arquivos no Python.

Recentemente, recebi 5 anos de dados, divididos por meses, eram 60 arquivos que precisavam ser “copiados e colados” um abaixo do outro.

Levaria um bom tempo para realizar essa tarefa manualmente. No Python,- levou uns 10 minutos. E de forma super fácil!

Cadastre-se

Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!

Bibliotecas utilizadas

As únicas lib’s que vamos utilizar serão Pandas e a os.

Se quiser conferir a documentação de cada uma, só clicar no link:

Pandas: Documentação aqui

os: Documentação aqui

Arquivos

Imagine que você possui uma pasta com nove arquivos e que ainda precisa concatenar todos esses arquivos em uma única planilha, exceto a “idades.xlsx

Caminho da Pasta

Na variável “caminho” vamos atribuir o caminho da pasta onde estão salvos os nossos arquivos.

Para ficar mais claro o que estamos fazendo, vamos visualizar os arquivos dentro da variável que acabamos de criar:

Note que o nosso “for” percorre todos os documentos dentro da pasta, inclusive o arquivo “idades.xlsx” que não iremos utilizar.

Assim, dentro da nossa estrutura de repetição, vamos utilizar o diferente de ( != ) e ler os demais arquivos. Também vamos inseri-los em uma lista, que chamaremos “files” utilizando o “append”.

Confira também como fazer resumo de textos em Python

Clique aqui e acesse o artigo Resumo de texto em Python

@Author: Adriano Klein

Agora que já temos o nome dos arquivos, precisamos adicionar o caminho da pasta + o nome do arquivo (igual quando lemos um arquivo único no Pandas, certo?). Mas antes, vamos fazer um for e imprimir o resultado para nos certificarmos de que estamos conseguindo chegar no resultado esperado:

Nosso objetivo aqui é adicionar todos os arquivos em um único DataFrameEntão, vamos utilizar a biblioteca Pandas e criar uma estrutura na variável df, veja abaixo:

Por enquanto este DataFrame está vazio. Utilizando novamente uma estrutura de repetição (for), vamos percorrer todos os arquivos salvos na nossa pasta (como mostrado nos passos anteriores) e adicioná-los na variável df, utilizando a função append:

O parâmetro “engine” é necessário pois apartir da versão 2.0.1, só é suportada a leitura de arquivos ".xls". Neste link há mais informações:

 

O resultado será:

Melhorando nosso código

Agora que fizemos o passo-a-passo, vamos organizar nosso código e deixá-lo mais bonito.

Basicamente, vamos reescrevê-lo de uma forma mais otimizada.

Espero que tenha ficado claro e que possa te ajudar nos seus projetos!

 

Qualquer sugestão, crítica ou comentário, deixe aqui no blog para gente!

Quatro formas de visualizar seu DataFrame no Pandas​

DataFrame no Pandas

Visualizar os dados faz parte do projeto inteiro de Data Science.

Seja para conhecer os dados, para verificar se a alteração foi feita corretamente ou para relembrar as variáveis, sempre utilizamos as funções de visualização.

Neste artigo vamos explorar os três métodos mais utilizados na biblioteca Pandas: head, tail e sample.

O dataset utilizado está neste link: Clique aqui

 

Cadastre-se

Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!

Importação das bibliotecas e do Dataset

Vamos importar o pandas e a biblioteca para aplicar as funcões durante o artigo:

DataFrame.head( )

A função head( ) é a mais utilizada e provavelmente, uma das primeiras que você aprende durante os cursos.

O único parâmetro que ela leva é o número de registros no resultado. Por default, ela traz 5, ou seja, se você não informar a quantidade, ela sempre irá mostrar os 5 primeiros registros, sempre em ordem ascendente (na ordem que do arquivo original)

a sintaxe é: dataframe.head( )

Na nossa importação, gravados o DataFrame na variável df, logo, utilizaremos df.head( ) para mostrar os cinco primeiros valores:

Você pode alterar a quantidade de registros, inserindo o número dentro dos parênteses:

Quer juntar vários arquivos Excel ou CSV de forma muito rápida utilizando Python?

Confira o artigo: Como unificar artigos no Python

@Author: Dai

DataFrame.tail( )

Essa função é bastante parecida com a head( ), porém, ao invés de mostrar os cinco primeiros registros, ela traz os cinco últimos.

Também por default, a visualização será dos 5 últimos registros.

Como é feito na funcão head( ), você pode inserir a quantidade de registros que quer mostrar dentro da funcão tail ( ):

Sample( )

A funcao sample traz uma amostra aleatória de dados.

Por default, a quantidade de registro é apenas um:

Você pode alterar a quantidade de registros aleatórios, basta informar como parâmetro:

Note que se você rodar novamente este snippet, ele irá trazer outros dados:

Parâmetro frac da função sample( )

Você pode informar o percentual do DataFrame que você deseja visualizar de forma aleatória.
Para isso, basta colocar o parâmetro “frac”

Neste exemplo, vamos visualizar 5% do DataFrame colocando frac = 0.05 :

Fixando o resultado com o parâmetro random_state

Se você quiser fixar o resultado, ou seja, sempre que rodar o snippet, visualizar sempre os mesmos registros, basta colocar o parâmetro random_state.

Vamos pedir 3 registros e inserir o número 3 como randon_state (este valor deve ser inteiro. Neste artigo informamos o número 3, mas você pode colocar 4, 5, 6, 30, 300, etc).

Tente carregar novamente esse método e o resultado sempre será o mesmo.

Transpondo o DataFrame

Esse método é bastante útil principalmente quando seu DataFrame possui muitas colunas.

Inserindo a letra ‘T’ no final da sua funcao, seja head, tail ou sample, o resultado será transposto, isto é, as colunas irão virar linhas e vice-versa:

df.sample(3, random_state = 3).T

Note que os países: Kuwait, Iceland e Brazil que estavam como linhas, se transformaram em colunas.

Conclusão

Apesar de métodos simples, estas três funções são muito úteis, principalmente, durante o processo de análise exploratória de dados.

Particularmente, gosto bastante da função sample ( ) pois não te deixa “viciado”, visualizando sempre os primeiros registros do seu DataFrame.

A funcao sample ainda permite inserir outros parâmetros.
Recomendo conferir a documentacão do Pandas para maiores informacoes:

DataFrame.head( )

DataFrame.tail( )

DataFrame.sample( )

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.