Como unificar arquivos no Python

Você já recebeu várias planilhas e precisou juntá-las, transformando em um único arquivo? Diversos arquivos onde você precisa abrir a um, copiar o seu conteúdo e colar em uma única planilha? Se sua resposta é sim, você precisa ler este artigo e entender como unificar arquivos no Python.

Recentemente, recebi 5 anos de dados, divididos por meses, eram 60 arquivos que precisavam ser “copiados e colados” um abaixo do outro.

Levaria um bom tempo para realizar essa tarefa manualmente. No Python,- levou uns 10 minutos. E de forma super fácil!

Cadastre-se

Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!

Visualize o Notebook no GitHub

Bibliotecas utilizadas

As únicas lib’s que vamos utilizar serão Pandas e a os.

Se quiser conferir a documentação de cada uma, só clicar no link:

Pandas: Documentação aqui

os: Documentação aqui

Arquivos

Imagine que você possui uma pasta com nove arquivos e que ainda precisa concatenar todos esses arquivos em uma única planilha, exceto a “idades.xlsx“

Caminho da Pasta

Na variável “caminho” vamos atribuir o caminho da pasta onde estão salvos os nossos arquivos.

Para ficar mais claro o que estamos fazendo, vamos visualizar os arquivos dentro da variável que acabamos de criar:

Note que o nosso “for” percorre todos os documentos dentro da pasta, inclusive o arquivo “idades.xlsx” que não iremos utilizar.

Assim, dentro da nossa estrutura de repetição, vamos utilizar o diferente de ( != ) e ler os demais arquivos. Também vamos inseri-los em uma lista, que chamaremos “files” utilizando o “append”.

Confira também como fazer resumo de textos em Python

Clique aqui e acesse o artigo Resumo de texto em Python

@Author: Adriano Klein

Agora que já temos o nome dos arquivos, precisamos adicionar o caminho da pasta + o nome do arquivo (igual quando lemos um arquivo único no Pandas, certo?). Mas antes, vamos fazer um for e imprimir o resultado para nos certificarmos de que estamos conseguindo chegar no resultado esperado:

Nosso objetivo aqui é adicionar todos os arquivos em um único DataFrame. Então, vamos utilizar a biblioteca Pandas e criar uma estrutura na variável df, veja abaixo:

Por enquanto este DataFrame está vazio. Utilizando novamente uma estrutura de repetição (for), vamos percorrer todos os arquivos salvos na nossa pasta (como mostrado nos passos anteriores) e adicioná-los na variável df, utilizando a função append:

O parâmetro “engine” é necessário pois apartir da versão 2.0.1, só é suportada a leitura de arquivos ".xls". Neste link há mais informações:

O resultado será:

Melhorando nosso código

Agora que fizemos o passo-a-passo, vamos organizar nosso código e deixá-lo mais bonito.

Basicamente, vamos reescrevê-lo de uma forma mais otimizada.

Espero que tenha ficado claro e que possa te ajudar nos seus projetos!

Qualquer sugestão, crítica ou comentário, deixe aqui no blog para gente!

Visualizar os dados faz parte do projeto inteiro de Data Science.

Seja para conhecer os dados, para verificar se a alteração foi feita corretamente ou para relembrar as variáveis, sempre utilizamos as funções de visualização.

Neste artigo vamos explorar os três métodos mais utilizados na biblioteca Pandas: head, tail e sample.

O dataset utilizado está neste link: Clique aqui

Visualize o notebook no GitHub

Visualize no Google Colab

Cadastre-se

Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!

Importação das bibliotecas e do Dataset

Vamos importar o pandas e a biblioteca para aplicar as funcões durante o artigo:

DataFrame.head( )

A função head( ) é a mais utilizada e provavelmente, uma das primeiras que você aprende durante os cursos.

O único parâmetro que ela leva é o número de registros no resultado. Por default, ela traz 5, ou seja, se você não informar a quantidade, ela sempre irá mostrar os 5 primeiros registros, sempre em ordem ascendente (na ordem que do arquivo original)

a sintaxe é: dataframe.head( )

Na nossa importação, gravados o DataFrame na variável df, logo, utilizaremos df.head( ) para mostrar os cinco primeiros valores:

Você pode alterar a quantidade de registros, inserindo o número dentro dos parênteses:

Quer juntar vários arquivos Excel ou CSV de forma muito rápida utilizando Python?

Confira o artigo: Como unificar artigos no Python

@Author: Dai

DataFrame.tail( )

Essa função é bastante parecida com a head( ), porém, ao invés de mostrar os cinco primeiros registros, ela traz os cinco últimos.

Também por default, a visualização será dos 5 últimos registros.

Como é feito na funcão head( ), você pode inserir a quantidade de registros que quer mostrar dentro da funcão tail ( ):

Sample( )

A funcao sample traz uma amostra aleatória de dados.

Por default, a quantidade de registro é apenas um:

Você pode alterar a quantidade de registros aleatórios, basta informar como parâmetro:

Note que se você rodar novamente este snippet, ele irá trazer outros dados:

Parâmetro frac da função sample( )

Você pode informar o percentual do DataFrame que você deseja visualizar de forma aleatória.
Para isso, basta colocar o parâmetro “frac”

Neste exemplo, vamos visualizar 5% do DataFrame colocando frac = 0.05 :

Fixando o resultado com o parâmetro random_state

Se você quiser fixar o resultado, ou seja, sempre que rodar o snippet, visualizar sempre os mesmos registros, basta colocar o parâmetro random_state.

Vamos pedir 3 registros e inserir o número 3 como randon_state (este valor deve ser inteiro. Neste artigo informamos o número 3, mas você pode colocar 4, 5, 6, 30, 300, etc).

Tente carregar novamente esse método e o resultado sempre será o mesmo.

Transpondo o DataFrame

Esse método é bastante útil principalmente quando seu DataFrame possui muitas colunas.

Inserindo a letra ‘T’ no final da sua funcao, seja head, tail ou sample, o resultado será transposto, isto é, as colunas irão virar linhas e vice-versa:

df.sample(3, random_state = 3).T

Note que os países: Kuwait, Iceland e Brazil que estavam como linhas, se transformaram em colunas.

Conclusão

Apesar de métodos simples, estas três funções são muito úteis, principalmente, durante o processo de análise exploratória de dados.

Particularmente, gosto bastante da função sample ( ) pois não te deixa “viciado”, visualizando sempre os primeiros registros do seu DataFrame.

A funcao sample ainda permite inserir outros parâmetros.
Recomendo conferir a documentacão do Pandas para maiores informacoes:

DataFrame.head( )

DataFrame.tail( )

DataFrame.sample( )

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Space Data

Pandas