Estatisticas#

Introdução#

Quantitative data is often summarized and analyzed with statistical methods and visualized with plots/graphs/diagrams. Statistical methods reveal quantitative trends, patterns, and outliers in data, while plots and graphs help to convey them to audiences. Carrying out a suitable statistical analysis and choosing a suitable chart type for your data, identifying their potential pitfalls, and faithfully realizing the analysis or generating the chart with suitable software are essential to back up experimental conclusions with data and reach communication goals.

Redução de dimensionalidade#

O que é?#

A redução de dimensionalidade (também chamada de redução de dimensão) visa mapear dados de alta dimensão em um espaço de dimensão inferior para revelar melhor tendências e padrões. Os algoritmos que executam essa tarefa tentam reter o máximo de informações possível ao reduzir a dimensionalidade dos dados: isso é obtido atribuindo pontuações de importância a recursos individuais, removendo redundâncias e identificando recursos não informativos (por exemplo, constantes). A redução da dimensionalidade é uma etapa importante na análise quantitativa, pois torna os dados mais gerenciáveis e fáceis de visualizar. Também é uma importante etapa de pré-processamento em muitos algoritmos de análise downstream, como classificadores de aprendizado de máquina.

📏 Como eu faço?

A técnica de redução de dimensionalidade mais tradicional é a análise de componentes principais (PCA)57. Em poucas palavras, o PCA recupera uma transformação linear dos dados de entrada em um novo sistema de coordenadas (os componentes principais) que concentra a variação em seus primeiros eixos. Isso é obtido com base na álgebra linear clássica, calculando uma autodecomposição da matriz de covariância dos dados. Como resultado, os primeiros 2 ou 3 componentes principais fornecem uma versão de baixa dimensão da distribuição de dados que é fiel à variância originalmente presente. Métodos de redução de dimensionalidade mais avançados que são populares em biologia incluem incorporação estocástica de vizinhança t-distribuída (t-SNE) e Aproximação e Projeção de Manifold Uniforme (UMAP). Em contraste com o PCA, esses métodos são não lineares e podem, portanto, explorar relações mais complexas entre recursos ao construir a representação de dimensão inferior. No entanto, isso tem um custo: tanto o t-SNE quanto o UMAP são estocásticos, o que significa que os resultados que produzem são altamente dependentes da escolha dos hiperparâmetros e podem diferir em diferentes execuções.

⚠️ Onde as coisas podem dar errado?

Embora a redução da dimensionalidade possa ser muito útil para a exploração e análise de dados, ela também pode apagar informações ou estruturas relevantes para o problema que está sendo estudado. Isso é bem ilustrado pelo conjunto de dados Datasaurus, que demonstra como conjuntos de medições de aparência muito diferente podem se tornar indistinguíveis quando descrito por um pequeno conjunto de estatísticas resumidas. A melhor maneira de minimizar esse risco é começar explorando visualmente os dados sempre que possível e verificando cuidadosamente quaisquer suposições subjacentes do método de redução de dimensionalidade sendo usado para garantir que elas sejam válidas para os dados considerados. A redução de dimensionalidade também pode aprimorar e revelar padrões que não são biologicamente relevantes, devido a ruído ou artefatos sistemáticos nos dados originais (consulte a seção Correção de efeito de lote abaixo). Além de aplicar normalização e correção em lotes aos dados antes de reduzir a dimensionalidade, alguns métodos de redução de dimensionalidade também oferecem as chamadas estratégias de regularização para mitigar isso. No final, qualquer padrão identificado em dados de dimensão reduzida deve ser considerado, tendo em mente o contexto biológico dos dados, a fim de interpretar os resultados adequadamente.

📚🤷‍♀️ Onde posso aprender mais?

Correção em lote#

O que é?#

Efeitos de lote são variações sistemáticas entre amostras correlacionadas com condições experimentais (como diferentes horários do dia, diferentes dias da semana ou diferentes ferramentas experimentais) que não estão relacionadas ao processo biológico de interesse. Os efeitos de lote devem ser mitigados antes de fazer comparações entre vários conjuntos de dados, pois afetam a reprodutibilidade e a confiabilidade da análise computacional e podem influenciar drasticamente as conclusões. Algoritmos para correção de efeito em lote abordam isso identificando e quantificando fontes de variação técnicas e ajustando os dados para que sejam minimizados enquanto o sinal biológico é preservado. A maioria dos métodos de correção destes efeitos foi originalmente desenvolvido para dados de microarranjo e dados de sequenciamento, mas pode ser adaptada para vetores de recursos extraídos de imagens.

📏 Como eu faço?

Dois dos métodos mais usados para correção de efeito de lote são ComBat e Análise de Variável Substituta (SVA), dependendo se as fontes de efeitos de lote são conhecidas a priori ou não. Resumindo, o ComBat envolve três etapas: 1) dividir os dados em lotes conhecidos, 2) estimar o efeito do lote ajustando um modelo linear que inclui o lote como uma covariável e 3) ajustar os dados removendo o efeito estimado do lote de cada ponto de dados. Em contraste, o SVA visa identificar «variáveis substitutas» que capturam fontes desconhecidas de variabilidade nos dados. As variáveis substitutas podem ser estimadas com base em métodos de álgebra linear (como decomposição de valor singular) ou por meio de um modelo de análise fatorial bayesiana. Foi demonstrado que o SVA reduz fontes não observadas de variabilidade e, portanto, é de ajuda especial quando a identificação de possíveis causas de efeitos de lote é desafiadora, mas tem um custo computacional mais alto do que o ComBat.

⚠️ Onde as coisas podem dar errado?

Por mais importante que seja para a análise, a correção do efeito de lote pode dar errado quando muito ou pouco é feito. Tanto a supercorreção quanto a subcorreção podem ocorrer quando os métodos não são usados adequadamente ou quando suas suposições subjacentes não são atendidas. Como resultado, sinais biológicos podem ser removidos (no caso de supercorreção) ou fontes irrelevantes de variação podem permanecer (no caso de subcorreção) - ambos levando potencialmente a conclusões imprecisas. A correção do efeito de lote pode ser particularmente complicada quando se suspeita que a variação biológica de interesse confunda com o batch. Neste caso em particular (embora sempre uma boa abordagem), as primeiras linhas de luta contra os efeitos de batch deve ser um design experimental pensado e um controle de qualidade cuidadoso, bem como a exploração visual do dado 59. A plotagem de dados lote por lote antes de aplicar qualquer correção pode ajudar a confirmar (ou confirmar) que as tendências observadas são semelhantes entre os lotes.

📚🤷‍♀️ Onde posso aprender mais?

Teste de normalidade#

O que é?#

Normality testing is about assessing whether data follow a Gaussian (or normal) distribution. Because the Gaussian distribution is frequently found in nature and has important mathematical properties, normality is a core assumption in many widely-used statistical tests. When this assumption is violated, their conclusions may not hold or be flawed. Normality testing is therefore an important step of the data analysis pipeline prior to any sort of statistical testing.

📏 Como eu faço?

A normalidade de uma distribuição de dados pode ser avaliada qualitativamente por meio de plotagem, por exemplo, com base em um histograma. Para uma leitura mais quantitativa, métodos estatísticos como os testes Kolmogorov-Smirnov (KS) e Shapiro-Wilk (entre muitos outros) relatam quanto a distribuição de dados observada se desvia de um gaussiano. Esses testes geralmente retornam um valor p vinculado à hipótese de que os dados são amostrados de uma distribuição gaussiana. Um valor p alto indica que os dados não são inconsistentes com uma distribuição normal, mas não é suficiente para provar que eles de fato seguem uma Gaussiana. Um valor p menor que um limite de significância predefinido (geralmente 0,05) indica que os dados não são amostrados de uma distribuição normal.

⚠️ Onde as coisas podem dar errado?

Although lots of the “standard” statistical methods have been designed with a normality assumption, alternative approaches exist for non-normally-distributed data. Many biological processes result in multimodal “states” (for instance differentiation) that are inherently not Gaussian. Normality testing should therefore not be mistaken for a quality assessment of the data: it merely informs on the types of tools that are appropriate to use when analyzing them.

📚🤷‍♀️ Onde posso aprender mais?