O que é Análise Exploratória de Dados?

O matemático americano John Tukey promoveu o uso da EDA em seu livro Exploratory Data Analysis. Tukey enfatizou que os analistas precisam primeiro fazer a Análise exploratória de dados para possíveis perguntas de pesquisa antes de confirmar as respostas com testes de hipóteses e estatísticas inferenciais.

A EDA é frequentemente comparada a “entrevistar” os dados; é um momento para o analista aprender sobre as coisas interessantes que ele tem a dizer.

  • Classifique nossas variáveis ​​como contínuas, categóricas e assim por diante
  • Resuma nossas variáveis ​​usando estatísticas descritivas
  • Visualize nossas variáveis ​​usando gráficos

A EDA nos diz muito sobre os dados. Vamos dar uma olhada no processo usando o Excel e um conjunto de dados real. Você pode encontrar os dados na pasta de trabalho inicio.xlsx, que pode ser encontrada na pasta de conjuntos de dados do repositório, na subpasta iniciar. Esse conjunto de dados foi coletado para um estudo para examinar o impacto do tamanho da turma nas pontuações dos testes. E outra Demonstrações baseadas em Excel, sugiro que você conclua as seguintes etapas com os dados brutos:

  1. Faça uma cópia do arquivo para que o conjunto de dados original não seja alterado.
  2. Adicionar um índice coluna chamada id. Isso numerará cada linha do conjunto de dados para que a primeira linha tenha um ID de 1, a segunda de 2 e assim por diante. Isso pode ser feito rapidamente no Excel inserindo números nas primeiras linhas da coluna, destacando esse intervalo e usando Flash Fill para concluir a seleção com base nesse padrão. Procure o pequeno quadrado no canto inferior direito da sua célula ativa, passe o mouse sobre ele até ver um pequeno sinal de mais e preencha o resto do seu intervalo. Adicionar essa coluna de índice facilitará a análise de dados por grupo.
  3. Por fim, converta seu conjunto de dados resultante em uma tabela selecionando qualquer célula no intervalo, indo para a barra de opções e clicando em Inserir → Tabela. O atalho de teclado é Ctrl + T para Windows, Cmd + T para Mac. Se sua tabela tiver cabeçalhos, certifique-se de que a seleção “Minha tabela tem cabeçalhos” esteja ativada. As mesmas trazem alguns benefícios, entre os quais o apelo estético. Também é possível fazer referência a colunas por nome em operações de tabela.Você pode dar um nome específico à tabela clicando em qualquer lugar dentro dela, então vá para a faixa de opções e clique em Table Design → Table Name no grupo Properties, como mostrado na figura abaixo.

Fazer esses primeiros passos de análise será uma boa prática para outros conjuntos de dados com os quais você deseja trabalhar no Excel. Para o conjunto de dados em início, sua tabela completa deve se parecer com a figura abaixo. Eu nomeei minha tabela inicio. Este conjunto de dados é organizado em uma forma retangular de colunas e linhas.

Você provavelmente já trabalhou com dados suficientes para saber que essa é uma forma para análise. Às vezes, precisamos limpar nossos dados para colocá-los no formato que desejamos.

Na análise, muitas vezes referem-se a observações e variáveis​​em vez de linhas e colunas. Vamos explorar o significado desses termos.

Observações

Neste conjunto de dados temos 5.748 linhas: cada uma é uma observação única. Nesse caso, as medições são feitas no nível do aluno; observações podem ser qualquer coisa de cidadãos individuais a nações inteiras.

Variáveis

Cada coluna oferece uma informação diferente. Por exemplo, no conjunto de dados em início podemos encontrar a pontuação de leitura de cada aluno ( treadssk ) e em qual tipo de aula o aluno estava ( classk ). Vamos nos referir a essas colunas como variáveis ​.

Descrições das variáveis ​​do conjunto de dados início
ColunaDescrição
idColuna de identificador/índice exclusivo
tmathsskPontuação total em escala matemática
treadsskPontuação escalada de leitura total
classekTipo de aula
totexpkTotal de anos de experiência do professor
sexSexo
vagabundoQualificado para almoço grátis?
raceCorrida
schidknIndicador escolar

Nós os chamamos de variáveis ​​porque seus valores podem variar entre as informações. Se todas as observações que registramos retornassem as mesmas medidas, não haveria muito o que analisar. Cada variável pode fornecer informações bastante diferentes sobre nossas observações. Mesmo neste conjunto de dados relativamente pequeno, temos texto, números e declarações sim/não como variáveis. Alguns conjuntos de dados podem ter dezenas ou até centenas de variáveis.

Pode ajudar a classificar esses tipos de variáveis, pois essas distinções serão importantes quando continuarmos nossa análise. Tenha em mente que essas distinções são um tanto arbitrárias e podem mudar com base no propósito e nas circunstâncias de nossa análise. Você verá que a EDA e a análise em geral são altamente iterativas.

OBSERVAÇÃO

A classificação de variáveis ​​é um tanto arbitrária e, como grande parte da análise, é baseada em regras práticas, e não em critérios rígidos e rápidos.

Há outros tipos de variáveis ​​que podem ser abordados aqui: por exemplo, não vou falar da diferença entre dados de intervalo e razão.

Variáveis ​​categóricas

Às vezes chamadas de variáveis ​​qualitativas, elas descrevem uma qualidade ou característica de uma observação. Uma pergunta típica respondida por variáveis ​​categóricas é “Qual tipo?” Variáveis ​​categóricas são frequentemente representadas por valores não numéricos, embora isso nem sempre seja o caso.

Um exemplo de variável categórica é o país de origem. Como qualquer variável, pode assumir valores diferentes (Brasil, Finlândia e assim por diante), mas não podemos fazer comparações quantitativas entre eles (o que é duas vezes a Brasil, alguém?). Qualquer valor exclusivo que uma variável categórica assume é conhecido como um nível dessa variável. Três níveis de um país de origem podem ser Brasil, Finlândia ou Indonésia, por exemplo.

Porque variáveis ​​categóricas descrevem uma qualidade de uma observação em vez de uma quantidade, muitas operações quantitativas sobre esses dados não são aplicáveis. Por exemplo, não podemos calcular o país de origem médio, mas podemos calcular o mais comum ou a contagem de frequência geral de cada nível.

Podemos distinguir ainda mais os valores categóricos com base em quantos níveis eles podem assumir e se a ordenação desses níveis é significativa.

Binário variáveis ​​só podem ter dois níveis. Muitas vezes, essas variáveis ​​são declaradas como respostas sim/não, embora nem sempre seja o caso. Alguns exemplos de variáveis ​​binárias:

  • Casado? (sim ou não)
  • Efetuou a compra? (sim ou não)
  • Tipo de vinho? (vermelho ou branco)

No caso do tipo de vinho, estamos implicitamente assumindo que nossos dados de interesse consistem apenas em vinho tinto ou branco…, mas o que acontece se também quisermos analisar rosé? Nesse caso, não podemos mais incluir todos os três níveis e analisar os dados como binários.

Qualquer qualitativo ou variável com mais de dois níveis é uma variável nominal. Alguns exemplos incluem:

  • País de origem (Brasil, Finlândia, Indonésia etc.)
  • Cor favorita (laranja, azul, rosa etc.)
  • Tipo de vinho (tinto, branco, rosé)

Observe que algo como um número de ID é uma variável categórica declarada numericamente: embora possamos obter um número de ID médio, esse número não tem sentido. É importante ressaltar que não há ordenação intrínseca de variáveis ​​nominais. Por exemplo, o vermelho como uma cor não pode ser ordenado de forma inerente acima ou abaixo do azul. Como a ordenação intrínseca não é necessariamente clara, vejamos alguns exemplos de seu uso.

Ordinal as variáveis ​​levam mais de dois níveis, onde há uma ordenação intrínseca entre esses níveis. Alguns exemplos de variáveis ​​ordinais:

  • Tamanho da bebida (pequeno, médio, grande)
  • Classe (calouro, segundo ano, júnior, sênior)
  • Dias da semana (segunda-feira, terça-feira, quarta-feira, quinta-feira, sexta-feira)

Aqui, podemos ordenar níveis inerentemente: sênior é mais alto que calouro, enquanto não podemos dizer o mesmo sobre vermelho versus azul. Embora possamos classificar esses níveis, não podemos necessariamente quantificar a distância entre eles. Por exemplo, a diferença de tamanho entre uma bebida pequena e média pode não ser a mesma entre uma bebida média e bebida grande.

Variáveis ​​quantitativas

Essas variáveis ​​descrevem uma quantidade mensurável de uma observação. Uma pergunta típica respondida por variáveis ​​quantitativas é “Quanto?” ou “Quantos?” As variáveis ​​quantitativas são quase sempre representadas por números. Podemos ainda distinguir entre variáveis ​​quantitativas com base no número de valores que elas podem assumir.

Observações de uma variável contínua pode, em teoria, ter um número infinito de valores entre quaisquer dois outros valores. Isso parece complicado, mas variáveis ​​contínuas são bastante comuns no mundo natural. por exemplo:

  • Altura (dentro de um intervalo de 59 e 75 polegadas, uma observação pode ser 59,1, 74,99 ou qualquer outro valor intermediário)
  • nível de pH
  • Área de superfície

Como podemos fazer comparações quantitativas entre observações de variáveis ​​contínuas, uma gama mais ampla de análises se aplica a elas. Por exemplo, faz sentido tomar a média de variáveis ​​contínuas, enquanto com variáveis ​​categóricas, não.

Por outro lado, observações de uma variável discreta podem ter apenas um número fixo de valores contáveis ​​entre quaisquer dois valores. Variáveis ​​discretas são bastante comuns nas ciências sociais e nos negócios. Alguns exemplos incluem:

  • Número de indivíduos em um domicílio (dentro de um intervalo de 1 e 10, uma observação pode ser 2 ou 5, mas não 4,3)
  • Unidades vendidas
  • Número de árvores em uma floresta

Muitas vezes, quando estamos lidando com variáveis ​​discretas com muitos níveis, ou muitas observações, as tratamos como contínuas para toda a gama de análises estatísticas que nos permitem. Por exemplo, você pode ter ouvido falar que a família média no Brasil tem 1,93 filhos. Sabemos que nenhuma família realmente tem tantos filhos. Afinal, esta é uma variável discreta que vem em números inteiros. No entanto, em muitas observações, esta afirmação pode ser uma representação útil de quantas crianças devem ser esperadas em uma família típica.

Em uma mais análise avançada, muitas vezes também recalculamos e misturamos variáveis: por exemplo, podemos analisar uma transformação logarítmica de uma variável para que ela atenda às suposições de uma determinada análise, ou podemos extrair o significado de muitas variáveis ​​em menos usando um método chamado redução de dimensionalidade.

Classificando Variáveis

Vamos praticar, classifique as variáveis usando os tipos mostrados até aqui. não deixe de analisar os dados. Vou dar uma dica de como fazer isso.

Uma maneira rápida de ter uma noção do que as variáveis ​​de tipo podem ser encontrando o número de valores exclusivos que elas assumem. Isso pode ser feito no Excel verificando a visualização do filtro. Cliquei na seta suspensa ao lado da variável sex, e você vai ver que ela aceita apenas dois valores distintos. Que tipo de variável você acha que pode ser?

Abaixo você pode ver como resolvi classificar as variáveis.

Como classifiquei essas variáveis
VariávelDescriçãoCategórico ou quantitativo?Modelo?
idColuna de índiceCategóricoNominal
tmathsskPontuação total em escala matemáticaQuantitativoContínuo
treadsskPontuação escalada de leitura totalQuantitativoContínuo
classekTipo de aulaCategóricoNominal
totexpkTotal de anos de experiência do professorQuantitativoDiscreto
sexSexoCategóricoBinário
freelunkQualificado para almoço grátis?CategóricoBinário
raceCorridaCategóricoNominal
schidknIndicador escolarCategóricoNominal

Algumas dessas variáveis, como classk e freelunk , foram mais fáceis de categorizar. Outros, como schidkn e id , não eram tão óbvios: eles são expressos em termos numéricos, mas não pode ser comparado quantitativamente.

AVISO

Só porque os dados são expressos numericamente não significa que possam ser usados ​​como uma variável quantitativa.

Você verá que apenas três deles são quantitativos: tmathssk , treadssk e totexpk . Resolvi classificar os dois primeiros como contínuos e o último como discreto. Para entender o porquê, vamos começar com totexpk , o número de anos de experiência do professor. Todas essas observações são expressas em números inteiros, variando de 0 a 27. Como essa variável só pode assumir um número fixo de valores contáveis, classifiquei-a como discreta .

Mas e tmathssk e treadssk , os resultados dos testes? Estes também são expressos em números inteiros: ou seja, um aluno não pode receber uma nota de leitura de 528,5, apenas 528 ou 529. Nesse aspecto, eles são discretos. No entanto, como essas pontuações podem assumir tantos valores únicos, na prática faz sentido classificareles como contínuos.

Tipos de variáveis

A maneira como nos classificamos uma variável influencia como a tratamos em nossa análise – por exemplo, podemos calcular a média de variáveis ​​contínuas, mas não de variáveis ​​nominais. Ao mesmo tempo, muitas vezes dobramos as regras de conveniência – por exemplo, tomando a média de uma variável discreta, de modo que uma família tem em média 1,93 filhos.

À medida que avançamos em nossa análise, podemos mudar mais regras, reclassificar variáveis ​​ou construir novas variáveis ​​inteiramente. Lembre-se, a EDA é um processo interativo.

Explorando variáveis ​​no Excel

Vamos continuar explorando o conjunto de dados início com estatísticas descritivas e visualizações. Estaremos realizando essa análise no Excel, embora você possa seguir essas mesmas etapas em R ou Python e obter resultados correspondentes.

Começaremos nossa exploração de variáveis ​​com as variáveis ​​categóricas.

Explorando Variáveis ​​Categóricas

Lembre-se que estamos medindo qualidades e não quantidades com variáveis ​​categóricas, então estas não terão uma média, mínimo ou máximo significativo, por exemplo. Podemos ainda realizar algumas análises sobre estes dados, contando as frequências. Podemos fazer isso no Excel com tabelas dinâmicas. Coloque o cursor em qualquer lugar no conjunto de dados início e selecione Inserir → Tabela Dinâmica, Clique OK.

Quero saber quantas observações tem em cada classe. Para fazer isso, arrastarei classk para a área coluna da Tabela Dinâmica e id para valores. Por padrão, o Excel fará a soma do campo id. Isso vai dar errado, já que que uma variável categórica é quantitativa. Não podemos comparar quantitativamente os números de identificação, mas podemos contar suas frequências. Para fazer isso no Windows, clique em “setinha para baixo” na área valores ​​e selecione configuração de valores. Em “Resumir campo de valor por”, selecione “Contagem”. Clique OK. Para Mac, clique no ícone i ao lado de “Sum of id” para fazer isso. Agora temos o que queremos: o número de observações para cada tipo de classe. Isto é conhecida como tabela de frequência unidirecional.

Vamos quebrar essa contagem de frequência em observações de alunos que estavam e não estavam no programa de almoço grátis. Para fazer isso, coloque freelunk na área Colunas da Tabela Dinâmica. Agora temos uma tabela de frequência de duas vias.

Podemos visualizar uma tabela de frequência de uma ou duas vias com um gráfico de barras (também conhecido como barplot ou countplot ). Vamos traçar nossa tabela de frequência bidirecional por clicando dentro da Tabela Dinâmica e clicando em Inserir → Coluna Agrupada.  Adicionei um título ao gráfico clicando em torno de seu perímetro e, em seguida, no ícone do sinal de mais que aparece no canto superior direito. Debaixo de Menu Elementos do Gráfico que aparece, verifique a seleção do Título do Gráfico. Para encontrar esse menu no Mac, clique no gráfico e, na faixa de opções, vá para Design → Adicionar elemento do gráfico.

Observe que o gráfico de contagem e a tabela dividiram o número de observações por tipo de turma em alunos que estão e não estão no programa de almoço grátis. Por exemplo, 1.051 e 949 indicam o primeiro e o segundo rótulos e barras na tabela e no gráfico de contagem, respectivamente.

Mesmo para análises tão simples quanto uma tabela de frequência bidirecional, não é uma má ideia visualizar os resultados. Os humanos podem processar linhas e barras em um gráfico com muito mais facilidade do que números em uma tabela, portanto, à medida que nossa análise cresce em complexidade, devemos continuar a plotar os resultados.

Não podemos fazer comparações quantitativas sobre dados categóricos, portanto, qualquer análise que realizarmos será baseada em suas contagens. Isso não é interessante, mas ainda é importante: isso nos diz quais níveis de valores são mais comuns e podemos comparar esses níveis por outras variáveis ​​para análise posterior. Mas, por enquanto, vamos explorar as variáveis ​​quantitativas.

Explorando Variáveis ​​Quantitativas

Aqui, vamos executar um uma gama mais completa de estatísticas resumidas ou descritivas. As estatísticas descritivas permitem resumir conjuntos de dados usando métodos quantitativos. As frequências são um tipo de estatística descritiva; vamos analisar alguns outros e como calculá-los em Excel.

Medidas de tendência central são um conjunto de estatísticas descritivas que expressam qual valor ou valores uma análise típica leva. Vamos dar uma olhada nas três medidas mais comuns.

Primeiro, a média. Mais especificamente a média aritmética, esta é calculada somando todas as observações e dividindo esse número pelo número total de observações. De todas as medidas estatísticas cobertas.

A seguir, a mediana. Esta é a análise encontrada no meio do nosso conjunto de dados. Para calcular a mediana, ordene ou classifique os dados de baixo para cima e, em seguida, conte nos dados de ambos os lados para encontrar a mediana. Se dois valores forem encontrados no meio, pegue a média para encontrar a mediana.

finalmente, a moda: o valor mais comum. Também é útil para classificar os dados para encontrar o modo. Uma variável pode ter um, muitos ou nenhum modo.

O Excel tem um conjunto de funções estatísticas, incluindo algumas para calcular medidas de tendência central.

 
EstatísticaFunção do Excel
MédiaAVERAGE(number1, [number2], ...)
MedianaMEDIAN(number1, [number2], ...)
ModaMODO.MULT(number1, [number2], ...)

MODO.MULT()é uma nova função no Excel que usa o poder de matrizes dinâmicas para retornar vários modos potenciais. Se você não tiver acesso a esta função, tente MODO(). Usando essas funções, encontre as medidas de tendência central para nossas pontuações de tmathssk.

A partir dessa análise, vemos que nossas três medidas de tendência central têm valores bastante semelhantes, com média de 485,6, mediana de 484 e moda de 489. Também decidi analisar com que frequência a moda ocorre: 277 vezes.

Com todas essas medidas de tendência central, qual focar? Vou responder isso com um breve estudo de caso. Imagine que você está dando uma consultoria em uma organização sem fins lucrativos. Você foi convidado a analisar as doações e informar qual medida de tendência central rastrear.

 
R$ 10R$ 10R$ 25R$ 40R$ 120

R$ 41 é realmente representativo em nossos dados? Todas as doações individuais, exceto uma, foram menores; a doação de R$ 120 está inflando esse número. Essa é uma desvantagem da média: valores extremos podem influenciá-la indevidamente.

Não teríamos esse problema se usássemos a mediana: R$ 25 talvez seja uma representação melhor do “valor médio” do que R$ 41. O problema com essa medida é que ela não leva em conta o valor de cada análise: estamos simplesmente “contando” até o meio da variável, sem fazer um balanço da magnitude relativa de cada análise.

Isso nos deixa com a modo, que oferece informações úteis: o presente mais comum é R$ 10. No entanto, R$ 10 não é tão representativo das doações como um todo. Além disso, como mencionado, um conjunto de dados pode ter vários modos ou nenhum, portanto, essa não é uma medida muito estável.

Nossa resposta para a organização sem fins lucrativos, então? Deve acompanhar e avaliar todos eles. Cada medida resume nossos dados de uma perspectiva diferente. No entanto, é mais comum focar na média ao realizar análises estatísticas mais avançadas.

Agora que nós definimos onde está a “média” da variável, vamos analisar como esses valores são “difundidos” a partir da média. Existem várias medidas de variabilidade; vamos focar na mais comum.

Primeiro, o intervalo, ou a diferença entre os valores máximo e mínimo. Embora simples de derivar, é altamente sensível às análises: apenas um valor extremo, e o intervalo pode ser diferente sobre onde a maioria das análises.

Esta é uma medida de quão espalhadas as observações são da média. Isso é um pouco mais complicado para calcular do que o que falamos acima.

Encontre a média do nosso conjunto de dados.

  1. Subtraia a média de cada análise. Este é o desvio.
  2. Pegue a soma dos quadrados de todos os desvios.
  3. Divida a soma dos quadrados pelo número de observações.

Para as operações envolvidas, use matemática. Eu sei que pode levar algum tempo para se acostumar e é intimidante no começo, mas considere a alternativa da lista anterior. A matemática pode apresentar uma maneira mais precisa de mostrar o que fazer. Por exemplo, podemos cobrir todas as etapas necessárias para encontrar a variação na abaixo

Equação Fórmula para encontrar a variância

S² é a nossa variação.  diz que precisamos subtrair cada observação X da média X¯, e esquadre-o. ∑ nos diz para somar esses resultados. Esse resultado é dividido pelo número de observações N.

Tentar calcular a variância dos números abaixo.

Meça a variabilidade desses dados
352632

Como essa estatística é comparativamente mais complexa de derivar, usei o Excel para gerenciar os cálculos. Você aprenderá como calcular a variação usando as funções do Excel.

Você pode encontrar esses resultados na planilha de variabilidade na planilha.

Você pode estar se perguntando por que estou trabalhando com o desvio ao quadrado. pegue a soma dos desvios não quadrados. É zero: esses desvios se anulam.

O problema com a variância é que agora estamos trabalhando em termos de desvios quadrados da unidade original. Essa não é uma maneira intuitiva de analisar dados. Para corrigir isso, vamos tomar a raiz quadrada da variância, conhecida como desvio padrão. A variabilidade é agora expressa em termos da unidade de medida original, a média. A Equação abaixo mostra o desvio padrão na expressão matemática.

Usando esta fórmula, o desvio padrão (a raiz quadrada de 2,25). Podemos calcular essas medidas de variabilidade no Excel usando as funções tabela acima. Observe que diferentes funções são usadas para a variância amostra versus população e desvio padrão. A medida de amostra usa N-1 ao invés de N no denominador, resultando em uma maior variância e desvio padrão.

Funções do Excel para medir a variabilidade
EstatísticaFunção do Excel
VarMAX(number1, [number2], ...)_ - _MIN(number1, [number2], ...)
Var (amostra)VAR.S(number1, [number2], ...)
Desvio padrão (amostra)DESV.S(number1, [number2], ...)
Var (população)VAR.P(number1, [number2], ...)
Desvio padrão (população)DESV.P(number1, [number2], ...)

Por enquanto, se você estiver na dúvida de que coletou todos os dados que está interessado, use as funções de exemplo. Como você está começando a ver, temos várias estatísticas descritivas a serem analisadas. Podemos agilizar o cálculo usando as funções do Excel, mas também podemos usar suas listas de ferramentas de análise de dados para derivar um conjunto completo de estatísticas descritivas com apenas alguns cliques.

Este suplemento vem instalado com o Excel, mas você precisa carregá-lo primeiro. Para Windows, na faixa de opções, selecione Arquivo → Opções > Suplementos. Em seguida, clique  na parte inferior do menu. Selecione Analysis ToolPak no menu e clique em OK. Não é necessário selecionar a opção Analysis ToolPak–VBA. Para Mac, na barra de menus, você selecionará Dados → Ferramentas de análise. Selecione Analysis ToolPak no menu e clique em OK. Pode ser necessário reiniciar o Excel para concluir a configuração. Depois disso, você verá um novo botão Análise de dados na guia Dados.

Na tabela abaixo, resolvi que tmathssk e treadssk são variáveis ​​contínuas. Vamos calcular suas estatísticas descritivas usando o ToolPak. Na faixa de opções, selecione Dados → Análise de dados → Estatísticas descritivas. Um menu aparecerá; selecione o intervalo de entrada B1:C5749. Ative as caixas de seleção para “Rótulos na primeira linha” e “Estatísticas de resumo”. Seu menu deve se parecer com a figura abaixo. Você pode deixar as outras configurações como estão e clicar em OK.

Isso inserirá estatísticas descritivas para essas duas variáveis ​​em uma nova planilha.

Agora vamos ver a estatísticas descritivas para cada nível de uma variável categórica para uma comparação entre os grupos. Para isso, insira uma nova tabela dinâmica com base nos dados de início em uma nova planilha. Coloque freelunk na área Columns, id em Rows e Sum of treadssk na seção valores. Lembre-se de que o campo id é um identificador exclusivo, portanto, não devemos somar isso na tabela dinâmica, apesar do que ela pensa.

Derivando estatísticas descritivas com o Analysis ToolPak
Estatísticas descritivas derivadas do Analysis ToolPak

Para esta e qualquer operações na Tabela Dinâmica que realizaremos, é melhor desativar todos os totais clicando dentro dele e selecionando Design → Grand Totals → Off for Rows and Columns. Dessa forma, não incluímos por engano os totais gerais como parte da análise. Agora você pode usar o ToolPak para inserir estatísticas descritivas.

Calculando estatísticas descritivas por grupo

Você conhece a maioria dessas medidas já; pode parecer que todas as análises apresentadas pelo ToolPak isenta qualquer necessidade de visualização dos dados. Na verdade, as visualizações ainda têm um papel indispensável na EDA. Em particular, vamos usá-los em distribuição de observações em todo o intervalo de valores em uma variável.

Primeiro, veremos os histogramas. Com esses gráficos, podemos visualizar a frequência relativa de observações por intervalo. Para construir um histograma de treadssk no Excel, selecione esse intervalo de dados, vá para a barra de opções e selecione Inserir → Histograma.

Abaixo podemos ver que o intervalo que ocorre com mais frequência está entre 426,6 e 432,8, e há aproximadamente 650 observações nesse intervalo. Nenhuma de nossas pontuações de teste reais inclui decimais, mas nosso eixo x pode incluir dependendo de como o Excel define em intervalos ou compartimentos. Podemos alterar o número de caixas clicando com o botão direito do mouse no eixo x do gráfico e selecionando Formatar eixo. Um menu aparecerá à direita. (Esses recursos não estão disponíveis para Mac.)

Distribuição de notas de leitura

Por padrão, o Excel decidiu exibir 51 caixas, mas e se (aproximadamente) reduzirmos pela metade e dobrarmos esse número em 25 e 100, e assim por diante? Ajuste os números no menu; eu prefiro assim “ampliar e diminuir” os detalhes da distribuição.

Alterando o número de compartimentos do histograma

Com a distribuição visualizada como um histograma, podemos ver rapidamente que há um número considerável de pontuações de teste à extrema direita da distribuição, mas que a maioria das pontuações de teste são esmagadoramente na faixa de 400-500.

E se quiséssemos ver como a distribuição das pontuações de leitura varia entre os três tamanhos de turma? Aqui, estamos comparando uma variável contínua em três níveis de uma categórica. Configurar isso com um histograma no Excel exigirá alguns “hacks”, mas podemos nos apoiar em tabelas dinâmicas para fazer o trabalho.

Insira uma nova Tabela Dinâmica com base no conjunto de dados em iniciar e arraste treadssk para a área Linhas, classk para a área Colunas e “Contagem de id” para a área Valores. Novamente, a análise será mais fácil se removermos os totais da Tabela Dinâmica.

Agora vamos criar um gráfico desses dados. Clique em qualquer lugar na sua Tabela Dinâmica e, na faixa de opções, selecione Inserir → Coluna Agrupada. É extremamente difícil de ler, mas compare-o com a Tabela Dinâmica de origem: conseguimos ver que para os alunos com nota 380, 10 tiveram aulas regulares, 2 tiveram aulas regulares com auxiliares e 2 tiveram turmas pequenas.

Vamos criar agora um histograma multigrupo

Vamos deixar esses valores em intervalos maiores. Para fazer isso, clique com o botão direito do mouse em qualquer lugar dentro dos valores da primeira coluna da tabela dinâmica e selecione Grupo. O Excel usará como padrão esse agrupamento para incrementos de 100; mude para 25.

Um histograma está começando a aparecer. Vamos modificar o gráfico para deixá-lo ainda mais parecido. Clique com o botão direito do mouse em qualquer uma das barras do gráfico e selecione Série de dados. Você vai deixar a sobreposição da série em 75% e a largura da lacuna em 0%.

Criando um histograma de vários grupos com uma tabela dinâmica

Poderíamos definir as larguras das lacunas para se cruzarem, mas iria ficar ainda mais difícil ver a distribuição regular do tamanho das classes. Os histogramas são uma visualização obrigatória para ver a distribuição de uma variável contínua, mas podem ficar confusa.

Como alternativa, vejamos boxplots. Aqui, vamos visualizar nossa distribuição em quartis. O centro do boxplot é uma medida com a qual você já conhece, como mediana.

Como o “meio” do nosso conjunto de dados, uma maneira de ver a mediana é como o segundo quartil. Podemos encontrar o primeiro e o terceiro quartis dividindo nosso conjunto de dados uniformemente em quadrantes e encontrando seus pontos médios.

Elementos de um boxplot

A parte do gráfico resultante encontrado na “caixa” é conhecido como intervalo interquartil. Este intervalo é usado como base para derivar outras partes do gráfico. o intervalo restante que cai dentro de 1,5 vezes o intervalo interquartil é representado por duas linhas ou “bigodes”. Na verdade, O Excel mostra esse tipo de gráfico como Box & Whisker.

Observações que não são encontrados dentro deste intervalo são mostrados como pontos individuais no gráfico. Estes são considerados outliers. O boxplot pode ser mais complexo que o histograma, mas felizmente o Excel tratara de toda a criação para nós. Vamos ver nosso exemplo treadssk. Selecione esse intervalo e, na barra de opções, selecione Inserir → Caixa e bigode.

Podemos ver logo abaixo que nosso intervalo interquartil está entre cerca de 415 a 450, e que existem vários valores discrepantes, especialmente na parte alta. Observamos padrões semelhantes sobre os dados do histograma, embora tivéssemos uma perspectiva mais visual da distribuição completa e examinar em diferentes níveis de granularidade com diferentes larguras de compartimento. Assim como nas estatísticas descritivas, cada visualização oferece uma perspectiva única dos dados; nenhum é superior aos outros.

Um boxplot de leitura

Uma vantagem do boxplot é que ele nos mostra algumas informações precisas sobre onde os quartis de nossos dados estão localizados. Outra é que pode ser mais fácil comparar distribuições em vários grupos. Para fazer boxplots de vários grupos no Excel, é mais fácil ter a variável categórica de interesse diretamente na esquerda. Dessa forma, mova classk para a esquerda de treadssk em sua fonte de dados. Com os dados selecionados, clique em Inserir → Caixa e bigode na faixa de opções. Assim vemos que a distribuição geral das pontuações é semelhante nos três grupos.

Um boxplot de notas de leitura por tipo de aula

Quando trabalhando com dados quantitativos podemos fazer muito mais do que contar frequências:

  • Podemos determinar qual(is) valor(es) os dados são centrados em volta do uso de medidas de tendência.
  • Podemos determinar como relativamente dispersos que os dados estão usando medidas de variabilidade.
  • Podemos visualizar a distribuição desses dados usando histogramas e boxplots.

Ha outras estatísticas descritivas e outras visualizações para explorar variáveis ​​quantitativas. Mas este é um bom começo com as perguntas mais importantes a serem feitas aos seus dados durante o EDA.

Conclusão

Embora nunca saibamos o que veremos em um novo conjunto de dados, a estrutura EDA mostra um ótimo caminho para entender isso. Agora sabemos com que tipo de variáveis ​​estamos trabalhando em nossa planilha e como suas observações como um todo se parecem e se comportam.

Espero que este conteúdo seja relevante para você, sei que foi um pouco extenso e deve ter alguns erros, mas gostaria que me apontasse para que eu possa corrigir.