Análise de Dados

Quarteto de Anscombe – Porque você deve sempre visualizar seus dados

Quarteto de Anscombe

Por que você deve sempre visualizar seus dados

Quarteto de Anscombe: Visualizando os gráficos de dispersão abaixo, você imaginaria que os quatro resultam em estatísticas descritivas praticamente idênticas?

Nem eu! 🤪 

Por isso, resolvi buscar os dados, plotá-los e visualizar algumas estatísticas. 

Para saber mais, continue lendo este artigo e se tiver algum comentário ou sugestão, deixe lá no final, na caixa de mensagens 😁

Vamos lá! 

Se você quiser, pode acompanhar o notebook no repositório no Github abaixo:

Quarteto de Anscombe

Acesse o notebook aqui!

O quarteto de Anscombe foi construído por um estatístico inglês chamado… Francis Anscombe 😛

Basicamente, o conjunto de dados possui algumas características que podem “enganar” uma regressão linear.

O estudo também é muito discutido quando falamos sobre a importância da visualização de dados. Somente quando são plotados que notamos uma grande diferença. Na verdade, notamos que os dados possuem comportamentos totalmente diferentes.

Obs: O objetivo deste artigo não é falar sobre Regressão Linear e/ou como interpretar os modelos. Se você quiser saber mais, recomendo muito esta playlist no Youtube (em inglês): Simple Linear Regression.

O livro da série “Use a cabeça” – Análise de Dados aborda regressão linear de forma bastante didática (na verdade, o livro todo tem vários exemplos e conceitos introdutórios bem simples de entender). Você pode adquirir o livro no site da Amazon clicando aqui.

Voltando ao Quarteto de Anscombe, a biblioteca Seaborn possui o método que nos permite visualizar e estudar estes dados.

Vamos importar o dataset e atribuí-lo na variável “df”:

Com 44 linhas e 3 colunas, o dataset é bem simples e os números não diferem muito entre si.

Temos 4 “datasets” diferentes, que vai do I até o IV. O menor valor do nosso eixo X é 4 e o máximo 19. Para os valores Y, o range não chega a 10 (mínimo 3.1 e máximo de 12.74).

Para visualizarmos algumas estatísticas, criei uma função que resulta em uma regressão simples para cada um dos valores na variável (coluna) dataset.

Quer melhorar seu histograma utilizando a biblioteca Seaborn? Clique aqui e leia o artigo completo:

Data Viz – Como melhorar seu histograma com Seaborn

@Author: Dai

Agora, vamos usar a função em nosso Anscombe’s dataset, armazenar cada um dos resultados e compará-los:

Como podemos ver no DataFrame acima (DataFrame “aux”), os valores de B0 e B1 diferenciam muito pouco em cada um dos testes. Se formos considerar o arredondamento então, é praticamente nada.

Analisando somente a estatística básica, como média, variância e os resultados da regressão linear, como o intercepto e coeficiente de determinação, não vemos praticamente nenhuma diferença.

Mas quando plotamos os dados…

Analisando os plot’s, vemos que o modelo 01 se ajusta muito bem a um modelo de regressão linear.

O comportamento dos dados do modelo 02 se mostra não linear e a diferença fica ainda mais clara no último plot com dados que uma regressão linear não poderia explicar.

Claro que os dados se tratam de um estudo e na vida real, é praticamente impossível nos depararmos com uma situação exatamente igual a esta. Embora possa parecer simples, o quarteto de Anscombe’s é muito interessante para percebermos a importância da visualização de dados e como, matematicamente, nossos modelos podem se enganar.

Se estiver algum comentário, não se esqueça de deixar nos comentários aqui abaixo 👇 👇

Data Science no marketing

O termo Data Science já não é mais novidade para ninguém. A Ciência de dados, nos últimos 5 anos, teve um crescimento exponencial e já faz, ou deveria fazer, parte do do dia-a-dia de muitas empresas para suportar a tomada de decisão.

 

Ao realizar uma pesquisa rápida no Google Trends com o termo Data Science, é notável o seu crescimento no Brasil, que tem seu início entre 2015 e 2016.

Assim, podemos dizer que aqui no Brasil que a Ciência de Dados é bem recente. Em resumo, em uma empresa, Data Science consiste em recursos com o objetivo de suportar as áreas em sua tomada de decisão sempre baseadas em dados, sejam eles dados passados para entender o por quê algo aconteceu como também usar dados para análises preditivas, ou seja, para antecipar cenários e atuar antecipadamente. Tudo isso é alcançado através de técnicas como Machine Learning, Data Mining, cálculos estatísticos, entre outra técnicas de Ciência de Dados.

Relevância do Data Science

Aproximadamente, 90% de todos os dados armazenados na web atualmente foram gerados nos últimos dois anos. Claro que o avanço dos dispositivos móveis, aplicativos, velocidade de conexão contribuíram diretamente para este resultado. Investimentos em infraestrutura foram capazes de levar a internet móvel para praticamente todos os municípios brasileiros.

De acordo com o relatório da Anatel dos 5.570 municípios brasileiros 5.540 estão cobertos com 3G e/ou 4G em suas regiões urbanas, isso corresponde a 99% de cobertura. Além disso, de acordo com pesquisa da Fundação Getúlio Vargas, o Brasil possuí cerca de 424 milhões de dispositivos digitais entre celulares, computadores e tablets. Bem, tudo isso nos leva a crer, diria nos assegurar, que o volume de dados gerados aumentará exponencialmente.

Veja esta imagem para perceber o quanto de dados geramos por minuto. Hei, você não leu errado, por MINUTO:

Data every minute | DOMO

Todos os anos a empresa Domo publica o quanto de dados geramos a cada minuto nas principais plataformas. Este relatório corresponde ao ano de 2019.

Os dados estão por toda parte, sejam dados internos como CRM (Customer Relationship Management), dados de webinars, WhatsApp, chat, site etc., sejam dados externos, como é o caso de páginas da web, portal de notícias ou dependendo da sua área de atuação, no Portal Brasileiro de Dados Abertos. São só alguns exemplos, as fontes de dados são infinitas.

E qual a importância disso tudo? Bem, costumo ainda ver líderes de empresas tomando suas decisões baseado no feeling, tempo de experiência e conhecimento do mercado em que atuam. Por um bom tempo todos esses fatores foram determinantes para estabelecer um bom planejamento, mas hoje isso não é mais aceitável. Veja, não estou dizendo que tudo isso deve ser jogado no lixo, mas que agora temos a chance de validar, prever e até antecipar possíveis situações, antes, só teríamos conhecimento em cima da hora e que em muitos casos, sem tempo de atuar no problema. Agora toda a experiência adquirida pode ser trabalhada em conjunto com os dados, visando sempre, minimizar os riscos e maximizar os lucros.

Como todos esses Dados afetam o Marketing

Em tudo! A boa notícia é que você não precisa ser programador Python, R ou qualquer outra linguagem. Óbvio que saber utilizar qualquer uma dessas linguagens vai te levar para um outro nível e em muitos casos deixar o processo mais tranquilo, principalmente se você possuir uma base de dados muuuito grande. Sugiro que busque desenvolver essas habilidades.

Mas podemos fazer uso de uma das áreas do Data Science para nos ajudar no Marketing, o Data Analytics. Se você está confuso sobre as diferenças entre Data Science e Data Analytics, confira este artigo no IronHack.

Temos algumas plataformas muito intuitivas como é o caso do Power BI da Microsoft (grátis para uso pessoal) ou até mesmo o Google Data Studio que é capaz de nos dar diversos insights e é totalmente gratuita. Para bases muito grandes eu não recomendo o Google Data Studio, pois dica muito lento para carregar todas as informações. Digo isso por experiência própria, já trabalhei com o Google Data Studio integrado a uma planilha com pouco mais de 7 mil linhas e já ficava bem lento. Para bases maiores considere o Power BI, pois este consegue lidar com bases gigantes e possuí diversas ferramentas e funções que tornam seus dashboards muito mais ricos. Se ainda não sabe como trabalhar com ele, sugiro aprender 😉.

O foco aqui é enfatizar a cultura de gerar e analisar dados para suporte á tomada de decisão. 

 

A grande sacada é extrair insights de todos os dados que você possui, caso contrário, será somente um amontoado de informações. Para que realmente se torne o petróleo do século XXI, você precisa extrair valor dessa amontoado de informações.

 

O Marketing Digital não existe sem a companhia do bom uso dos dados, afinal, uma das maiores vantagens do Marketing Digital é você consegue mensurar praticamente tudo, concorda?

Alguns exemplos de como os dados podem auxiliar você profissional de marketing:

  1. Segmentar clientes e/ou leads:
    1. Segmentando melhor a sua base de leads ou clientes você pode desenvolver campanhas mais assertivas, pois está ciente do que o seu cliente realmente está interessado. Entendendo o perfil do cliente, em uma campanha de email marketing, por exemplo, você sabe o para quem enviar aquele conteúdo, adequar a sua linguagem entras melhorias e com isso aumentar a taxa de conversão.
  2. Entender e/ou prever o comportamento do consumidor:
    1. Entendendo melhor o comportamento do seu consumidor, você pode, por exemplo, trabalhar com um cross selling mais efetivo., aumentando o ticket médio. Já ouviu sobre o famoso case de uma grande empresa americana do varejo identificou que a venda de fraldas descartáveis estava altamente relacionada com a venda de cervejas? Isso porque os homens saiam para comprar fraldas e aproveitavam para comprar cerveja. Ela então passou a colocar os dois produtos próximos e adivinha o resultado? As vendas aumentaram exponencialmente.

Cross Selling

Quando você oferta um produto além do que o cliente está adquirindo.

Recentemente eu fiz um curso na Alura sobre Data Analytics e explica bem como podemos entender e prever o comportamento do consumidor. Se você quer saber um pouco mais sobre os cursos da Alura, temos um artigo em que fazemos uma análise da plataforma.

Não perca tempo!

O mercado está exigindo cada vez habilidades de Data Science. Veja, não digo o profissional de Data Science, este claro, está muito requisitado no mercado, mas quando digo “habilidades de Data Science” me refiro aos profissionais de diversas áreas que precisam entender cada vez mais. Embora muito demandado ainda não muitas as empresas que não possuem um departamento ou um profissional de Data Science, assim, você precisa ter uma boa noção em como usar os dados gerados pela empresa.

Enquanto você busca o seu desenvolvimento, lembre-se, para trabalhar com Data Science é necessário uma grande base de dados histórica, então, mesmo sem utilizar agora, comece a gerar estes dados. Veja abaixo alguns exemplos:

CRM

Plataformas de CRM são fontes riquíssimas de dados, desde que populadas com bastante seriedade. Conheço um pouco de CRM e sei o quão difícil é ter o time comercial manter os dados bem atualizados, mas isso pode ser terma para um outro artigo, talvez um livro kkkk…

O que você precisa checar é se as informações importantes para o seu negócio estão sendo coletadas pela ferramenta. Caso negativo, converse com o administrador do sistema e alinhe os ajustes necessários. No longo prazo você vai me agradecer por isso 😉.

Dados de Webinar

Não é surpresa para ninguém que os webinários ganhou uma imensa relevância para todos nós, principalmente com a situação de pandemia do Corona Vírus que estamos vivendo. Ferramentas de webinar possuem relatórios riquíssimos que podem lhe auxiliar para extrair insights valiosos como o comportamento dos seus expectadores. Além do comportamento, você consegue criar pesquisas ao final de cada webinar e personalizar as perguntas que melhor se adequem a sua necessidade.

Flipbook Digital

Você certamente já se deparou com alguma revista online em que simulava uma revista impressa, com efeitos de mudança de página e até mesmo o som do papel. Esses são os Digital FlipBooks. Existem diversos fornecedores deste serviço como é o caso do FlipSnack e o FlippingBook.

Estas ferramentas também possuem dados riquíssimos. É possível saber quais são os exemplares mais acessados, as páginas, quais links são mais clicados e quanto tempo o usuário consumiu um determinado conteúdo. Pensando no marketing, se você disponibiliza o seu portfólio através de uma ferramenta como essas, você consegue otimizar o seu portfólio impresso e digital. Se as pessoas ficam pouco tempo em uma determinada página, talvez ele não seja tão importante para o seu público ou o texto não está muito atrativo. Agora, os conteúdos com mais tempo ou com mais links são os que mais demonstram o interesses dos usuários.

Você como profissional de marketing (todos deveriam ter um pouco de marketing e comercial 😁) sabe que o foco é sempre no cliente, logo, está aí uma boa fonte de insights para melhorar seus produtos pensando neles.

O ponto é: comece o quanto antes. NÃO PERCA TEMPO!

Bom, vou ficando por aqui. Espero que este conteúdo tenha lhe ajudado. Caso tenha alguma dúvida, sugestão ou qualquer contribuição, comente abaixo e vamos enriquecer os nossos conhecimentos.

Análise de Cohort (Coorte): O que é e como aplicar em Python

CohortBanner

O que é Análise de Cohort (coorte) e como aplicá-la em Python

Este é o segundo post da série de artigos referente ao livro Lean Analytics.

Você pode conferir o primeiro post aqui: https://spacedata.com.br/indicadores-de-desempenho/

Se você quiser conferir o livro no site da Amazon, só clicar aqui: Lean Analytics: Use Data to Build a Better Startup Faster

O que é Análise de Cohort ou Coorte?

O conceito não é nada complicado: é a análise onde se compara grupos com características semelhantes e os monitora durante um período específico.

Pode ser idade, data da compra, região, data de cadastro, etc. Geralmente, é considerado o primeiro “contato” deste cliente, como primeira compra, primeiro uso (imagine um serviço de carro por aplicativo ou de comida delivery) e então, você monitora:

  • Desde a primeira compra, este grupo de clientes voltou a comprar?
  • Desde o primeiro pedido de comida delivery, este grupo de clientes voltou a pedir?
  • O grupo de clientes que tiveram sua primeira corrida no mês 08/2020 utilizou novamente o serviço nos meses subsequentes? E os que fizeram a primeira corrida em 09/2020, 10/2020, etc?

Outro exemplo é a taxa de engajamento:

  • Seus usuários estão utilizando sua plataforma todos os dias?
  • Qual o percentual de usuários que voltam no dia seguinte ao cadastro? E na semana seguinte? E no mês seguinte?

A análise de Cohort ou também conhecida como Coorte é muito importante para medir o quanto seus clientes/usuários/consumidores são leais a sua marca e a sua empresa.  Ao invés de olha-los todos da mesma forma, você os separa conforme suas características.

Para ficar mais claro, vamos a um exemplo mais visual.

Vamos imaginar que estamos medindo o engajamento dos usuários em uma página, perfil, canal, etc. No gráfico de linha abaixo, fica claro para nós que, mesmo com algumas “subidas e descidas”, o nosso engajamento está aumentando ao longo do tempo, mas…

  • Quantos usuários são novos?
  • Quantos usuários engajados no mês 12/2011 são usuários cadastrados no início do mês?
  • Quantos estão engajados há 2 meses? e há 3 meses? 6 meses?

Olhando somente para este gráfico, fica bastante difícil (para não dizer impossível) responder a estas perguntas.

Agora, veja como fica muito mais simples se tivermos uma análise de Cohort:

Com esta segmentação, o entendimento do que está acontecendo fica muito mais fácil.

No eixo X, temos a quantidade de períodos analisados. No eixo Y, os meses e os percentuais de engajamento ao longo dos períodos (se você ainda está confuso(a), calma, ficará mais claro ao longo deste artigo).

Tomando como exemplo o mês 01/2011 (o primeiro do nosso gráfico), de 100% de usuários que engajaram no primeiro período, apenas 37% continuaram engajados no segundo período.

Neste contexto, um número interessante é o mês 10/2011. Por que somente 7% se manteve engajado?

Com este exemplo, acredito (e espero) que tenha conseguido deixar bem claro como a análise de Cohort é útil.

E como fazer a análise de Cohort ou Coorte em Python?

Não é difícil, mas pode um pouco chato de entender a lógica. Então, vamos fazer com dois dataset’s bem simples, passo-a-passo e depois aplicamos os métodos em um dataset do Kaggle. 🤓

Conheça mais sobre métricas de negócios. Leia o artigo Métricas e indicadores de desempenho

Clique aqui e acesse o artigo completo

@Author: Dai

Análise de Cohort - Dataset I

Agora, vamos usar a função em nosso Anscombe’s dataset, armazenar cada um dos resultados e compará-los:

Para ficar bem claro cada uma das etapas até chegar no heatmap final, vamos utilizar dados bem simples.

Nele, há somente três colunas: 

  • ID do cliente
  • Data da compra
  • Quantidade comprada

Vamos importar o dataset e para ficar mais fácil a manipulação dos dados, vamos renomear as colunas:

Para os próximos passos, vamos precisar que a coluna “Data da compra” esteja no formato correto, no caso, datatetime.

Esta nova coluna será nomeada com “mes_ano”. Veja que ela deriva da coluna “data_compra”:

A nossa análise Cohort será feita por mês, então, com a função lambda, vamos extrair o mês e ano da coluna “data_compra”:

Agora, para cada cliente, vamos buscar a data da sua primeira compra. Esta informação ficará na coluna nomeada “cohort”.

Para ficar mais claro: O cliente de ID 01 fez compras em 08/2014, 09/2014 e 12/2014. Para este cliente, a data na coluna cohort será a menor, no caso, 08/2014 (será repetida em todas as linhas do cliente ID 01).

Para facilitar a visualização, ordenei os dados por ID:

Agora, fica um pouco chato para entender a lógica (😅 ), mas é fácil, juro.

Lembra que a coluna “cohort” contém a menor data de cada cliente, certo? No caso, a data da primeira compra de cada cliente.

A coluna “mes_ano” contém os mês e ano que os clientes fizeram compra (independente se foi a primeira, segunda, terceira, etc., compra).

A coluna “total_usuarios” irá armazenar a quantidade de clientes.

Considere o primeiro grupo, de 2014-02: Há dois clientes que realizaram a primeira compra em 02/2014 (coluna cohort) e destes 2 clientes, 1 comprou também em 08/2014. 

Vamos criar uma função que irá contar a quantidade de períodos em cada grupo “cohort”.

Olhe a coluna cohort 2014-02. Temos 2 compras em em fev/2014 + 1 compra em 08/2014. A primeira data será 01. E a segunda (08/2014) será número 02.

Outro exemplo seria a cohort 05-2014. A linha número 01 será ela mesma, ou seja, 05-2014. A linha 02 será a segunda compra e a linha 03, a terceira compra.

Este dataset é bem pequeno, mas em dados maiores, este contador será também maior. Se sua análise for por 12 meses, por exemplo, pode haver 12 contadores para cada grupo.

Agora, vamos agrupar o total de usuários pela coluna “cohort:

Com a função “unstack”, vamos “pivotar” (este verbo existe? 🤔) nosso DataFrame.

Note que os meses viraram colunas e a coluna “cohort_period” se transformaram em índices:

Por fim (e o mais esperado 🙌), vamos plotar o heatmap – e interpretá-lo.

Veja que os índices estão, agora, no nosso eixo X. O primeiro período,no caso, o 1 será 100% pois estamos considerando o total de clientes que fizeram sua primeira compra no mês em questão, ou seja, o mês que se encontra no eixo Y.

Ao longo dos demais períodos, notamos queda:

Se você não entendeu 100% nossa lógica, vamos visualizar novamente aquela etapa que agrupamos pelas datas (se não lembra de quando fizemos isso, volte três prints 🙃 ). 

Veja que tivemos duas vendas ocorridas pela primeira vez em 02-2014 e uma delas (50%) comprou também em 08-2014. 

Agora compare com o Heatmap que fizemos. É exatamente isso que nos mostra.

O mesmo acontece com o mês 05-2014. Foram quatro vendas feitas, cuja primeira data foi no mês de maio/14 ( 2+ 1 + 1 na coluna “total_usuarios”), sendo que houve recorrência de 1  em 07-2014 e outra em 10-2014 (50% e 50%).

Análise de Cohort - Dataset II

Caso ainda não tenha ficado tão claro, vamos fazer novamente esta segmentação com o dataset um pouco maior.

Não vou copiar cada um dos snippets aqui porque os métodos são os mesmos, mudei apenas o dataset.

Se você quiser conferir o notebook inteiro, dê uma olhada no Github:

Cohort Analysis

Clique aqui para acessar o notebook no GitHub

Veja que é bem parecido com o dataset anterior, a diferença é que este contém um pouco mais de dados, mais especificamente, mais linhas.

Sugiro comparar os dados e o Heatmap. O entendimento ficará muito mais claro 😊

O Cohort ou Coorte destes dados, resulta nesse gráfico aqui abaixo

Veja que temos 6 vendas em 05/2014 dos clientes com ID 04 e 05. Este é um cohort.

Olhando somente este grupo, houve, portanto, compras em 05/2014, 07/2014, 10/2014 e 11/2014.

Com isso em mente, olhe nosso Heatmap. No mês 05/2014, temos

  • 100% no período 01.
  • 50% no período 02 = Compra da linha 07.
  • 50% no período 03 = Compra da linha 10 e 11 (note que estamos falando do mesmo cliente, logo, temos 50%)
  • 50% no período 4 = Compra na linha 12.

Análise de Cohort - Dataset III

Com o passo a passo feito em dois dataset’s, vamos utilizar outros dados: Vendas de uma loja de varejo.

Este dataset está disponível no Kaggle: Super Store Data

Os métodos utilizados são exatamente os que fizemos acima, então, não, irei repeti-los aqui.

Lembrando novamente que o notebook, na íntegra, está disponível no GitHUb: GitHub – Cohort Analysis

Vamos considerar, nesta análise, somente a data de compra e o ID do cliente:

Screenshot at mai 02 15-19-01

O resultado será o seguinte Heatmap:

E o que podemos tirar desta visualização?

Como falamos ao longo deste artigo, temos a abertura por mês de cada um dos grupos, ou de cada cohort, e com isso, imaginando que esta fosse uma situação real em nossas empresas:

  •  Vemos que o percentual, na maioria dos meses, cai entre 75% – 80% do primeiro mês ao segundo, com exceção do grupo de 10/2011. O que ocorreu para que o percentual ficasse tão abaixo dos demais grupos?
  • Esta mesma situação ocorre em 08/2011, quando a terceira interação (pode ser venda, engajamento, uso do seu APP / serviço, etc.). Vemos que caiu praticamente metade em relação aos demais meses.
  • Ainda há números não tão discrepantes, mas ainda assim para ficarmos atentos: Começamos o ano com uma taxa de 41% de interação. Vemos que esta taxa foi caindo ao longo dos meses.

Vemos que caso os números estivessem agrupados, seria impossível termos este tipo de visão.

A análise de Cohort nos permite visualizar padrões durante o ciclo de vida de nossos clientes. Lembrando que esta visualização pode ser feita para receita, churn, custos e muitas outras métricas do seu negócio.

Espero que possa te ajudar em suas análises. 💕

Qualquer comentário, pode deixar aqui abaixo 👇

 

Referências

Entender esta análise, além da sua aplicação em Python, levou alguns dias estudando 🤓

Vou deixar alguns links que me ajudaram muito no entendimento deste conceito (em inglês):

🎥 Youtube

Retention and Cohort Analysis with Bei Lu (Youtube)

Cohort Analysis: An introduction Whiteboard Wednesday

📄 Artigos

Greg Reda – Cohort Analysis with Python

Quora – What is a cohort Anaysis?

Métricas e Indicadores de Desempenho

MetricasBanner

Métricas e Indicadores de Desempenho

Um artigo segundo o livro Lean Analytics 🤓

Todos nós sabemos a importância dos indicadores de desempenho dentro das empresas e a grande maioria de nós, lida com diversos deles durante todos os dias.

Mas você já parou para pensar sobre as características de um bom indicador?

Quais são as métrica boas e que direcionam as pessoas para o melhor resultado e quais não nos passam nenhuma informação?

Atenção

Para o melhor entendimento, é bom lembrar:

Indicadores são medidas, tanto qualitativas como quantitativas que nos mostram como determinada atividade, operação ou processo caminhou ou está caminhando.

Desempenho é quando comparamos esta atividade, operação ou processo em relação a nossa expectativa. 

Assim, indicadores de desempenho nos mostram o quanto determinada operação performou ou está performando em relação a nossa expectativa

O que é uma Métrica de Qualidade?

LeanAnalyticsBanner

No livro Lean Analytics, foi dedicado um capítulo inteiro sobre as características de uma boa métrica.

O livro é realmente muito bom, cheio de conteúdo e exemplos. Se quiser saber mais, você pode consulta-lo no site da Amazon, clicando aqui: Lean Analytics: Use Data to Build a Better Startup Faster

Obs: Até onde encontrei, foi publicado somente na versão em inglês. 😐  Não é um livro de difícil entendimento, mas você precisa ter uma noção razoável do idioma para compreender.

 

Métricas – O que é uma boa métrica?

Estamos em contato com indicadores e índices o tempo todo, mas será que todos estes números realmente fazem sentido e direcionam nossas ações para os resultados?


No livro Lean Analytics, são listadas algumas características de uma boa métrica:

  • Primeiramente, as métricas devem ser entendíveis. Como você espera que as pessoas mudarão a forma de agir e melhorar algum processo se elas não a entendem o que os números dizem?
  • Falando sobre pessoas, as métricas devem mudar a forma como agimos. O que seu time fará diferentemente para melhorar este indicador?
  • Uma boa métrica é comparativa. Isso quer dizer que um número, por si só, não nos passa nenhuma informação. “10% de conversões em vendas” não nos diz nada. O contexto fica bem diferente quando falamos de um “aumento de 10% de conversões em venda em relação ao mês anterior”.
  • Métricas qualitativas, de preferência quando transformadas em Índices (as famosas razões matemáticas – ou seja, quando falamos em percentuais, divisões, taxas, etc.) são mais fáceis de se comparar e tomar decisões do que números absolutos. (Caso não tenha ficado claro, ao longo deste artigo vamos falar mais sobre isso 🙃)

Métricas Qualitativas e Quantitativas

Imagine que você está fazendo uma análise de respostas dadas por determinados clientes, chegando nas métricas:

  • Ruim
  • Regular
  • Bom
  • Ótimo

Como você definiria cada um destes conceitos? O que você consideraria como “Bom” estaria no mesmo nível de satisfação que os demais clientes?

Este é um exemplo de métrica qualitativa. Além de ser imprecisa, é difícil de agregar e comparar, além de bastante subjetiva.

Já as métricas quantitativas, como pontuações e taxas são fáceis de contar, colocar em uma escala e quantificar.

Quantidade de produtos devolvidos em relação ao total de produtos vendidos é uma boa métrica quantitativa.

Consegue notar a diferença? Deixe aqui nos comentários

Métricas Reais e Métricas de Vaidade

Esta é uma das características de boas métricas citadas no livro que eu mais gostei, pois me identifiquei muito com o que já vi muito dentro das organizações.

Uma frase, inclusive, citada no livro, me chamou bastante a atenção:

"Many companies claim they’re data-driven. Unfortunately, while they embrace the data part of that mantra, few focus on the second word: driven"

Em tradução livre:

“Muitas empresas se intitulam como data-driven. Infelizmente, enquanto elas abraçam os dados como parte de seu mantra, poucas focam na segunda palavra: driven” 

A resposta que deve estar muito clara quando você olhar para uma determinada métrica, é para a pergunta:

Baseado nesta informação, o que eu farei de diferente?

Lembre-se: Como falamos acima, as métrica devem mudar a forma como costumamos agir.

E é neste contexto que devemos refletir sobre as métricas acionáveis e as de vaidade.

Um ótimo exemplo de métrica de vaidade é a quantidade de seguidores em uma rede social. Este número nos diz muito pouco sobre o negócio, além de que, exceto se a sua empresa se envolver em algum evento que impacte sua reputação, este é um número que tende a se manter constante, aumentar ou sofrer pouquíssimas variações.

Já a taxa de engajamento é uma métrica real. Veja aqui que falamos “taxa” (como discutimos mais acima). A quantidade de seguidores que curtem, comentam e compartilham suas publicações diz muito mais do que a quantidade absoluta de seguidores.

Métricas Exploratórias x Reporting Métricas

De forma geral, as métricas exploratórias tentam encontrar insights desconhecidos, enquanto as de reporting não nos revelam novidades e acabam nos fazendo apenas lidar com a operação do dia-a-dia.

São nas métricas exploratórias que estão escondidos os insights que a empresa ainda não conhece.

E falando sobre o desconhecido, há uma citação muito interessante sobre o que devemos buscar ao analisar as métricas: (você vai precisar parar por alguns instantes para compreender! 😅)

"There are known knowns; there are things we know that we know. There are known unknowns; that is to say there are things that we now know we don’t know. But there are also unknown unknowns— there are things we do not know, we don’t know." - Donald Rumsfeld

A ideia desta frase, basicamente, é:

“Existem assuntos que sabemos que sabemos; Há coisas que nós sabemos que não sabemos, mas ainda existem as coisas que não sabemos que não sabemos” (E é exatamente aqui onde acontece a mágica).

Assim, o principal objetivo a ser buscado, seguindo esta ideia, é explorar as métricas a fim de descobrir novidades que possam causar uma disrupção no mercado.

Fácil, né? 😂

Leading e Lagging Métricas

Leading vem de “principal, mais importante”, enquanto lagging de “atraso, moroso”.

Assim, a ideia principal neste tópico, é que as leading metrics nos ajudam a prever e entender o futuro, enquanto as lagging métrics explicam o passado.

Para ficar mais claro, um famoso indicador – lagging metric – é o churn, que basicamente mede a quantidade de clientes que deixam a empresa (cancelam sua assinatura, por exemplo) em um determinado período. Este indicador é importante, claro, e nos indica um problema, porém, após o acontecido, ou seja, a mensuração acontece após o fato.

Novamente: isso não quer dizer que a métrica não seja importante. Lembre-se que, como falamos acima, as métricas devem gerar ações e mudar a forma que agimos. Tanto as leading como as leadings metrics cumprem este papel, mas cabe a você analisar e decidir qual delas irá te ajudar a tomar melhores decisões.

Métricas de Correlação e Causalidade

Eu particularmente gosto muito desta descrição! E é muito provável que você já tenha estudado estes conceitos.

Entender que correlação e causalidade são coisas diferentes é o primeiro passo.

De forma bastante simplista, métricas correlacionadas se alteram juntas: quando uma métrica sobe, a outra sobe também; Quando uma métrica desce, a outra desce também; Ou quando uma métrica X sobe, a outra desce e vice-versa.

Já as métricas de causalidade é quando uma causa a alteração da outra.

O objetivo aqui, quando tratamos destas métricas é encontrar a relação entre eventos, realizar diversos testes e medir a evolução.

De forma mais prática: defina o que você quer mudar… Vamos supor que seja a receita. Analise a correlação e principalmente encontre a causalidade, como por exemplo preços ou propagandas. E aja no que você pode controlar.

Claro que isso não é fácil, pois no mundo real, existem diversas métricas e fatores independentes, mas quando você encontra, você pode mudá-las.

Interessado em conhecer como Data Science é aplicado no Marketing?

Clique aqui e acesse o artigo completo

@Author: Adriano Klein

E para finalizar...

Na teoria, a definição de métricas é bastante fácil e simples, mas não se engane: na prática, são bem difíceis de serem implementadas.

Lembre-se que todos os dados do mundo nem sempre vão explicar o porque de algo acontecer. Então, quando definir um objetivo, trabalhe nele, analise dados de qualidade, construa as formas de mensuração de resultado e se necessário, promova algumas mudanças. 

Se tiver algum comentário, deixe aqui pra gente 💭 

 

Quatro formas de visualizar seu DataFrame no Pandas​

DataFrame no Pandas

Visualizar os dados faz parte do projeto inteiro de Data Science.

Seja para conhecer os dados, para verificar se a alteração foi feita corretamente ou para relembrar as variáveis, sempre utilizamos as funções de visualização.

Neste artigo vamos explorar os três métodos mais utilizados na biblioteca Pandas: head, tail e sample.

O dataset utilizado está neste link: Clique aqui

 

Cadastre-se

Se cadastre no Space Data e tenha acesso a todo o conteúdo exclusivo para membros. É gratuito e sempre será!

Importação das bibliotecas e do Dataset

Vamos importar o pandas e a biblioteca para aplicar as funcões durante o artigo:

DataFrame.head( )

A função head( ) é a mais utilizada e provavelmente, uma das primeiras que você aprende durante os cursos.

O único parâmetro que ela leva é o número de registros no resultado. Por default, ela traz 5, ou seja, se você não informar a quantidade, ela sempre irá mostrar os 5 primeiros registros, sempre em ordem ascendente (na ordem que do arquivo original)

a sintaxe é: dataframe.head( )

Na nossa importação, gravados o DataFrame na variável df, logo, utilizaremos df.head( ) para mostrar os cinco primeiros valores:

Você pode alterar a quantidade de registros, inserindo o número dentro dos parênteses:

Quer juntar vários arquivos Excel ou CSV de forma muito rápida utilizando Python?

Confira o artigo: Como unificar artigos no Python

@Author: Dai

DataFrame.tail( )

Essa função é bastante parecida com a head( ), porém, ao invés de mostrar os cinco primeiros registros, ela traz os cinco últimos.

Também por default, a visualização será dos 5 últimos registros.

Como é feito na funcão head( ), você pode inserir a quantidade de registros que quer mostrar dentro da funcão tail ( ):

Sample( )

A funcao sample traz uma amostra aleatória de dados.

Por default, a quantidade de registro é apenas um:

Você pode alterar a quantidade de registros aleatórios, basta informar como parâmetro:

Note que se você rodar novamente este snippet, ele irá trazer outros dados:

Parâmetro frac da função sample( )

Você pode informar o percentual do DataFrame que você deseja visualizar de forma aleatória.
Para isso, basta colocar o parâmetro “frac”

Neste exemplo, vamos visualizar 5% do DataFrame colocando frac = 0.05 :

Fixando o resultado com o parâmetro random_state

Se você quiser fixar o resultado, ou seja, sempre que rodar o snippet, visualizar sempre os mesmos registros, basta colocar o parâmetro random_state.

Vamos pedir 3 registros e inserir o número 3 como randon_state (este valor deve ser inteiro. Neste artigo informamos o número 3, mas você pode colocar 4, 5, 6, 30, 300, etc).

Tente carregar novamente esse método e o resultado sempre será o mesmo.

Transpondo o DataFrame

Esse método é bastante útil principalmente quando seu DataFrame possui muitas colunas.

Inserindo a letra ‘T’ no final da sua funcao, seja head, tail ou sample, o resultado será transposto, isto é, as colunas irão virar linhas e vice-versa:

df.sample(3, random_state = 3).T

Note que os países: Kuwait, Iceland e Brazil que estavam como linhas, se transformaram em colunas.

Conclusão

Apesar de métodos simples, estas três funções são muito úteis, principalmente, durante o processo de análise exploratória de dados.

Particularmente, gosto bastante da função sample ( ) pois não te deixa “viciado”, visualizando sempre os primeiros registros do seu DataFrame.

A funcao sample ainda permite inserir outros parâmetros.
Recomendo conferir a documentacão do Pandas para maiores informacoes:

DataFrame.head( )

DataFrame.tail( )

DataFrame.sample( )

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.