Como unificar arquivos no Python

Unificar_arquivos_Python
1

Como unificar arquivos no Python

Você já recebeu várias planilhas e precisou juntá-las, transformando em um único arquivo? Diversos arquivos onde você precisa abrir a um, copiar o seu conteúdo e colar em uma única planilha? Se sua resposta é sim, você precisa ler este artigo e entender como unificar arquivos no Python.

Recentemente, recebi 5 anos de dados, divididos por meses, eram 60 arquivos que precisavam ser “copiados e colados” um abaixo do outro.

Levaria um bom tempo para realizar essa tarefa manualmente. No Python,- levou uns 10 minutos. E de forma super fácil!

Cadastre-se

Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!

Bibliotecas utilizadas

As únicas lib’s que vamos utilizar serão Pandas e a os.

Se quiser conferir a documentação de cada uma, só clicar no link:

Pandas: Documentação aqui

os: Documentação aqui

Arquivos

Imagine que você possui uma pasta com nove arquivos e que ainda precisa concatenar todos esses arquivos em uma única planilha, exceto a “idades.xlsx

Caminho da Pasta

Na variável “caminho” vamos atribuir o caminho da pasta onde estão salvos os nossos arquivos.

Para ficar mais claro o que estamos fazendo, vamos visualizar os arquivos dentro da variável que acabamos de criar:

Note que o nosso “for” percorre todos os documentos dentro da pasta, inclusive o arquivo “idades.xlsx” que não iremos utilizar.

Assim, dentro da nossa estrutura de repetição, vamos utilizar o diferente de ( != ) e ler os demais arquivos. Também vamos inseri-los em uma lista, que chamaremos “files” utilizando o “append”.

Confira também como fazer resumo de textos em Python

Clique aqui e acesse o artigo Resumo de texto em Python

@Author: Adriano Klein

Agora que já temos o nome dos arquivos, precisamos adicionar o caminho da pasta + o nome do arquivo (igual quando lemos um arquivo único no Pandas, certo?). Mas antes, vamos fazer um for e imprimir o resultado para nos certificarmos de que estamos conseguindo chegar no resultado esperado:

Nosso objetivo aqui é adicionar todos os arquivos em um único DataFrameEntão, vamos utilizar a biblioteca Pandas e criar uma estrutura na variável df, veja abaixo:

Por enquanto este DataFrame está vazio. Utilizando novamente uma estrutura de repetição (for), vamos percorrer todos os arquivos salvos na nossa pasta (como mostrado nos passos anteriores) e adicioná-los na variável df, utilizando a função append:

O parâmetro “engine” é necessário pois apartir da versão 2.0.1, só é suportada a leitura de arquivos ".xls". Neste link há mais informações:

 

O resultado será:

Melhorando nosso código

Agora que fizemos o passo-a-passo, vamos organizar nosso código e deixá-lo mais bonito.

Basicamente, vamos reescrevê-lo de uma forma mais otimizada.

Espero que tenha ficado claro e que possa te ajudar nos seus projetos!

 

Qualquer sugestão, crítica ou comentário, deixe aqui no blog para gente!

Escolha a sua Reação!
Deixe um comentário