Estatisticas#

Introdução#

Os dados quantitativos são frequentemente resumidos e analisados com métodos estatísticos e visualizados com plotagens/gráficos/diagramas. Os métodos estatísticos revelam tendências quantitativas, padrões e discrepâncias nos dados, enquanto gráficos ajudam a transmiti-los ao público. Realizar uma análise estatística adequada e escolher um tipo de gráfico adequado para seus dados, identificar suas possíveis armadilhas e realizar fielmente a análise ou gerar o gráfico com software adequado são essenciais para respaldar conclusões experimentais com dados e atingir metas de comunicação.

Redução de dimensionalidade#

O que é?#

A redução de dimensionalidade (também chamada de redução de dimensão) visa mapear dados de alta dimensão em um espaço de dimensão inferior para revelar melhor tendências e padrões. Os algoritmos que executam essa tarefa tentam reter o máximo de informações possível ao reduzir a dimensionalidade dos dados: isso é obtido atribuindo pontuações de importância a recursos individuais, removendo redundâncias e identificando recursos não informativos (por exemplo, constantes). A redução da dimensionalidade é uma etapa importante na análise quantitativa, pois torna os dados mais gerenciáveis e fáceis de visualizar. Também é uma importante etapa de pré-processamento em muitos algoritmos de análise downstream, como classificadores de aprendizado de máquina.

📏 Como eu faço?

A técnica de redução de dimensionalidade mais tradicional é a análise de componentes principais (PCA)50. Em poucas palavras, o PCA recupera uma transformação linear dos dados de entrada em um novo sistema de coordenadas (os componentes principais) que concentra a variação em seus primeiros eixos. Isso é obtido com base na álgebra linear clássica, calculando uma autodecomposição da matriz de covariância dos dados. Como resultado, os primeiros 2 ou 3 componentes principais fornecem uma versão de baixa dimensão da distribuição de dados que é fiel à variância originalmente presente. Métodos de redução de dimensionalidade mais avançados que são populares em biologia incluem incorporação estocástica de vizinhança t-distribuída (t-SNE) e Aproximação e Projeção de Manifold Uniforme (UMAP). Em contraste com o PCA, esses métodos são não lineares e podem, portanto, explorar relações mais complexas entre recursos ao construir a representação de dimensão inferior. No entanto, isso tem um custo: tanto o t-SNE quanto o UMAP são estocásticos, o que significa que os resultados que produzem são altamente dependentes da escolha dos hiperparâmetros e podem diferir em diferentes execuções.

⚠️ Onde as coisas podem dar errado?

Embora a redução da dimensionalidade possa ser muito útil para a exploração e análise de dados, ela também pode apagar informações ou estruturas relevantes para o problema que está sendo estudado. Isso é bem ilustrado pelo conjunto de dados Datasaurus, que demonstra como conjuntos de medições de aparência muito diferente podem se tornar indistinguíveis quando descrito por um pequeno conjunto de estatísticas resumidas. A melhor maneira de minimizar esse risco é começar explorando visualmente os dados sempre que possível e verificando cuidadosamente quaisquer suposições subjacentes do método de redução de dimensionalidade sendo usado para garantir que elas sejam válidas para os dados considerados. A redução de dimensionalidade também pode aprimorar e revelar padrões que não são biologicamente relevantes, devido a ruído ou artefatos sistemáticos nos dados originais (consulte a seção Correção de efeito de lote abaixo). Além de aplicar normalização e correção em lotes aos dados antes de reduzir a dimensionalidade, alguns métodos de redução de dimensionalidade também oferecem as chamadas estratégias de regularização para mitigar isso. No final, qualquer padrão identificado em dados de dimensão reduzida deve ser considerado, tendo em mente o contexto biológico dos dados, a fim de interpretar os resultados adequadamente.

📚🤷‍♀️ Onde posso aprender mais?

Correção em lote#

O que é?#

Efeitos de lote são variações sistemáticas entre amostras correlacionadas com condições experimentais (como diferentes horários do dia, diferentes dias da semana ou diferentes ferramentas experimentais) que não estão relacionadas ao processo biológico de interesse. Os efeitos de lote devem ser mitigados antes de fazer comparações entre vários conjuntos de dados, pois afetam a reprodutibilidade e a confiabilidade da análise computacional e podem influenciar drasticamente as conclusões. Algoritmos para correção de efeito em lote abordam isso identificando e quantificando fontes de variação técnicas e ajustando os dados para que sejam minimizados enquanto o sinal biológico é preservado. A maioria dos métodos de correção destes efeitos foi originalmente desenvolvido para dados de microarranjo e dados de sequenciamento, mas pode ser adaptada para vetores de recursos extraídos de imagens.

📏 Como eu faço?

Dois dos métodos mais usados para correção de efeito de lote são ComBat e Análise de Variável Substituta (SVA), dependendo se as fontes de efeitos de lote são conhecidas a priori ou não. Resumindo, o ComBat envolve três etapas: 1) dividir os dados em lotes conhecidos, 2) estimar o efeito do lote ajustando um modelo linear que inclui o lote como uma covariável e 3) ajustar os dados removendo o efeito estimado do lote de cada ponto de dados. Em contraste, o SVA visa identificar «variáveis substitutas» que capturam fontes desconhecidas de variabilidade nos dados. As variáveis substitutas podem ser estimadas com base em métodos de álgebra linear (como decomposição de valor singular) ou por meio de um modelo de análise fatorial bayesiana. Foi demonstrado que o SVA reduz fontes não observadas de variabilidade e, portanto, é de ajuda especial quando a identificação de possíveis causas de efeitos de lote é desafiadora, mas tem um custo computacional mais alto do que o ComBat.

⚠️ Onde as coisas podem dar errado?

Por mais importante que seja para a análise, a correção do efeito de lote pode dar errado quando muito ou pouco é feito. Tanto a supercorreção quanto a subcorreção podem ocorrer quando os métodos não são usados adequadamente ou quando suas suposições subjacentes não são atendidas. Como resultado, sinais biológicos podem ser removidos (no caso de supercorreção) ou fontes irrelevantes de variação podem permanecer (no caso de subcorreção) - ambos levando potencialmente a conclusões imprecisas. A correção do efeito de lote pode ser particularmente complicada quando se suspeita que a variação biológica de interesse confunda com o batch. Neste caso em particular (embora sempre uma boa abordagem), as primeiras linhas de luta contra os efeitos de batch deve ser um design experimental pensado e um controle de qualidade cuidadoso, bem como a exploração visual do dado 52. A plotagem de dados lote por lote antes de aplicar qualquer correção pode ajudar a confirmar (ou confirmar) que as tendências observadas são semelhantes entre os lotes.

📚🤷‍♀️ Onde posso aprender mais?

Teste de normalidade#

O que é?#

O teste de normalidade trata de avaliar se os dados seguem uma distribuição gaussiana (ou normal). Como a distribuição gaussiana é freqüentemente encontrada na natureza e tem propriedades matemáticas importantes, a normalidade é uma suposição central em muitos testes estatísticos amplamente utilizados. Quando essa suposição é violada, suas conclusões podem não se sustentar ou ser falhas. O teste de normalidade é, portanto, uma etapa importante do pipeline de análise de dados antes de qualquer tipo de teste estatístico.

📏 Como eu faço?

A normalidade de uma distribuição de dados pode ser avaliada qualitativamente por meio de plotagem, por exemplo, com base em um histograma. Para uma leitura mais quantitativa, métodos estatísticos como os testes Kolmogorov-Smirnov (KS) e Shapiro-Wilk (entre muitos outros) relatam quanto a distribuição de dados observada se desvia de um gaussiano. Esses testes geralmente retornam um valor p vinculado à hipótese de que os dados são amostrados de uma distribuição gaussiana. Um valor p alto indica que os dados não são inconsistentes com uma distribuição normal, mas não é suficiente para provar que eles de fato seguem uma Gaussiana. Um valor p menor que um limite de significância predefinido (geralmente 0,05) indica que os dados não são amostrados de uma distribuição normal.

⚠️ Onde as coisas podem dar errado?

Embora muitos dos métodos estatísticos “padrão” tenham sido projetados com uma suposição de normalidade, existem abordagens alternativas para dados com distribuição não normal. Muitos processos biológicos resultam em “estados” multimodais (por exemplo, diferenciação) que são inerentemente não gaussianos. O teste de normalidade não deve, portanto, ser confundido com uma avaliação da qualidade dos dados: ele apenas informa sobre os tipos de ferramentas que são apropriadas para usar ao analisá-los.

📚🤷‍♀️ Onde posso aprender mais?