Você já recebeu várias planilhas e precisou juntá-las, transformando em um único arquivo? Diversos arquivos onde você precisa abrir a um, copiar o seu conteúdo e colar em uma única planilha? Se sua resposta é sim, você precisa ler este artigo e entender como unificar arquivos no Python.
Recentemente, recebi 5 anos de dados, divididos por meses, eram 60 arquivos que precisavam ser “copiados e colados” um abaixo do outro.
Levaria um bom tempo para realizar essa tarefa manualmente. No Python,- levou uns 10 minutos. E de forma super fácil!
Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!
As únicas lib’s que vamos utilizar serão Pandas e a os.
Se quiser conferir a documentação de cada uma, só clicar no link:
Pandas: Documentação aqui
Imagine que você possui uma pasta com nove arquivos e que ainda precisa concatenar todos esses arquivos em uma única planilha, exceto a “idades.xlsx“
Na variável “caminho” vamos atribuir o caminho da pasta onde estão salvos os nossos arquivos.
Para ficar mais claro o que estamos fazendo, vamos visualizar os arquivos dentro da variável que acabamos de criar:
Note que o nosso “for” percorre todos os documentos dentro da pasta, inclusive o arquivo “idades.xlsx” que não iremos utilizar.
Assim, dentro da nossa estrutura de repetição, vamos utilizar o diferente de ( != ) e ler os demais arquivos. Também vamos inseri-los em uma lista, que chamaremos “files” utilizando o “append”.
Confira também como fazer resumo de textos em Python
Agora que já temos o nome dos arquivos, precisamos adicionar o caminho da pasta + o nome do arquivo (igual quando lemos um arquivo único no Pandas, certo?). Mas antes, vamos fazer um for e imprimir o resultado para nos certificarmos de que estamos conseguindo chegar no resultado esperado:
Nosso objetivo aqui é adicionar todos os arquivos em um único DataFrame. Então, vamos utilizar a biblioteca Pandas e criar uma estrutura na variável df, veja abaixo:
Por enquanto este DataFrame está vazio. Utilizando novamente uma estrutura de repetição (for), vamos percorrer todos os arquivos salvos na nossa pasta (como mostrado nos passos anteriores) e adicioná-los na variável df, utilizando a função append:
Agora que fizemos o passo-a-passo, vamos organizar nosso código e deixá-lo mais bonito.
Basicamente, vamos reescrevê-lo de uma forma mais otimizada.
Visualizar os dados faz parte do projeto inteiro de Data Science.
Seja para conhecer os dados, para verificar se a alteração foi feita corretamente ou para relembrar as variáveis, sempre utilizamos as funções de visualização.
Neste artigo vamos explorar os três métodos mais utilizados na biblioteca Pandas: head, tail e sample.
O dataset utilizado está neste link: Clique aqui
Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!
Vamos importar o pandas e a biblioteca para aplicar as funcões durante o artigo:
A função head( ) é a mais utilizada e provavelmente, uma das primeiras que você aprende durante os cursos.
O único parâmetro que ela leva é o número de registros no resultado. Por default, ela traz 5, ou seja, se você não informar a quantidade, ela sempre irá mostrar os 5 primeiros registros, sempre em ordem ascendente (na ordem que do arquivo original)
a sintaxe é: dataframe.head( )
Na nossa importação, gravados o DataFrame na variável df, logo, utilizaremos df.head( ) para mostrar os cinco primeiros valores:
Você pode alterar a quantidade de registros, inserindo o número dentro dos parênteses:
Quer juntar vários arquivos Excel ou CSV de forma muito rápida utilizando Python?
Confira o artigo: Como unificar artigos no Python
Essa função é bastante parecida com a head( ), porém, ao invés de mostrar os cinco primeiros registros, ela traz os cinco últimos.
Também por default, a visualização será dos 5 últimos registros.
Como é feito na funcão head( ), você pode inserir a quantidade de registros que quer mostrar dentro da funcão tail ( ):
A funcao sample traz uma amostra aleatória de dados.
Por default, a quantidade de registro é apenas um:
Você pode alterar a quantidade de registros aleatórios, basta informar como parâmetro:
Note que se você rodar novamente este snippet, ele irá trazer outros dados:
Você pode informar o percentual do DataFrame que você deseja visualizar de forma aleatória.
Para isso, basta colocar o parâmetro “frac”
Neste exemplo, vamos visualizar 5% do DataFrame colocando frac = 0.05 :
Se você quiser fixar o resultado, ou seja, sempre que rodar o snippet, visualizar sempre os mesmos registros, basta colocar o parâmetro random_state.
Vamos pedir 3 registros e inserir o número 3 como randon_state (este valor deve ser inteiro. Neste artigo informamos o número 3, mas você pode colocar 4, 5, 6, 30, 300, etc).
Tente carregar novamente esse método e o resultado sempre será o mesmo.
Esse método é bastante útil principalmente quando seu DataFrame possui muitas colunas.
Inserindo a letra ‘T’ no final da sua funcao, seja head, tail ou sample, o resultado será transposto, isto é, as colunas irão virar linhas e vice-versa:
df.sample(3, random_state = 3).T
Note que os países: Kuwait, Iceland e Brazil que estavam como linhas, se transformaram em colunas.
Apesar de métodos simples, estas três funções são muito úteis, principalmente, durante o processo de análise exploratória de dados.
Particularmente, gosto bastante da função sample ( ) pois não te deixa “viciado”, visualizando sempre os primeiros registros do seu DataFrame.
A funcao sample ainda permite inserir outros parâmetros.
Recomendo conferir a documentacão do Pandas para maiores informacoes:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

