Diferenciação de espécies através de algoritmos de análise de informação mútua utilizando dados de sequências nucleotídicas

Diferenciação de espécies através de algoritmos de análise de informação mútua utilizando dados de sequências nucleotídicas

Author Lichtenstein, Flavio Autor UNIFESP Google Scholar
Advisor Briones, Marcelo Ribeiro da Silva Briones Autor UNIFESP Google Scholar
Institution Universidade Federal de São Paulo (UNIFESP)
Graduate program Gestão e Informática em Saúde
Abstract Mathematical methods of correlation are very used to support inference in biological studies, since the first anthropometric studies from Galton until today, as in transcriptomic analyses (e.g., GWEA ? genome-wide enrichment analysis) and proteomic analyses (e.g., correlation between protein and RNA abundance). Biological phenomena are consequence from many interactions in different places and moments in a living organism having more complex correlations. The resulting accumulation of these interactions is an ?emergent phenomena? and is part of what is called ?biological complexity?. Therefore, mathematical linear methods hardly capture the essence of these correlations; they are in the best a first approximation. These phenomena happen if we try to correlate data from DNA, RNA and proteins with phenotypes. Thus, or we should isolate few factors in a small range of time, or we have to work with methods that can assess informational complexity. Base on this discussion species discrimination through molecular data becomes a task that can be done with methods sensitive to complexity. Since Information Theory (IT) contains these methods, we will use them to analyze the possibility to discriminate species through information of DNA sequences. Over the last 30 years short and long range correlations in biological sequences are central in genomic studies of molecular covariation. These correlations were studied using Entropy and Mutual Information. The last provides a measure between two variables, independent of the assumed evolutionary model. Thus, retrieving DNA sequences from public databases or obtaining in lab, aligning and calculating informational spectrums for following analyses is our goal in the present work. Since there is no user friendly software that in a single package to calculate normalized spectrums for vertical entropy (VH), vertical mutual information (VMI), horizontal mutual information (HMI) and Jensen-Shannon Divergence (JSD) for sets of sequences, we wrote a pipeline called MIA (Mutual Information Analyzer). Once calculated the entropies and mutual information we can transform them in normalized spectrums. Given two distributions, in our case two distinct normalized spectrums, we can calculate their distance through Jensen-Shannon Divergence (JSD) method. With all these distances between pair of species we also calculated the respective standard errors (SE), and the resulted distance matrix was the main tool to infer if different species can be discriminated through molecular data. Furthermore, we can present distance histograms and cluster the species. The hierarchical cluster allows us to analyze all closely related species and compare them with phylogenetic trees, in respect to possible topologies. But, we must warn that a cluster is not phylogenetic tree. To test MIA we analyzed DNA sequences from Adh locus (alcohol dehydrogenase) from Drosophila, besides other genera/genes, actually because its taxonomy and evolutionary patterns are well described in the literature and were extensively studied. MIA presented a nice performance completing all processes - gathering sequences, analyzing, and calculating entropic spectrums - between 10 minutes and 3 hours depending on the chosen genus/gene. Our tests revealed that the applied methods resulted on data that were in accordance with biological properties (phylogenetic trees) being consistent with Drosophila taxonomy and evolutionary models. MIA outperforms similar programs in individual tasks, such as BioEdit for VH and VMI calculations, with the advantage of many user-friendly integrated interfaces, besides different ways of data visualization (tables and graphics). At the final analysis we observed that distances obtained from JSD of Horizontal Mutual Information spectrums could discriminate 17 Drosophila species, and also generated clusters very close to phylogenetic trees obtained with the same sequences with Maximum Likelihood (ML), Neighbor Joining (NJ) and Bayesian tree (Mr. Bayes) methods. Since bayesian analysis allows a statistics analysis to all involved parameters, we could demonstrate that trees calculated by the covarion model are better than trees calculated by the standard model (non covarion). In other words, the likelihood ratio test (LRT) was statistically significant, giving support to the covariational hypothesis. At the end we developed a classifier, which results in a ROC curve, demonstrating that JSD method combined with Horizontal Mutual Information reaches simultaneously a high sensitivity and specificity.

Os métodos matemáticos de correlação são muito utilizados como apoio a inferências em estudos de biologia, desde os primeiros estudos antropométricos de Galton, até hoje em dia, como nas análises de transcriptômica (p.ex., GWEA ? genome-wide enrichment analysis) e proteômica (por ex., correlação entre abundância de proteínas e RNA). Correlações mais complexas são fenômenos biológicos resultados de muitas interações em diferentes locais e momentos em um organismo vivo. Ao acúmulo resultante destas interações dá-se o nome de ?fenômenos emergentes? fazendo parte do que se denomina de ?complexidade biológica?. Logo, métodos matemáticos lineares dificilmente captam a essência destas correlações, ou seja, eles são na melhor das hipóteses uma primeira aproximação. Estes fenômenos surgem, por vezes, ao tentarmos vincular dados de DNA, RNA ou proteínas com fenótipos. Portanto, ou se tenta isolar pouquíssimos fatores numa escala de tempo pequena, ou tem que se utilizar métodos que possam avaliar a complexidade informacional. É com base na discussão acima que discriminar espécies através de dados moleculares torna-se uma tarefa que somente pode ser realizada com métodos sensíveis a conceitos de complexidade. Como a Teoria da Informação (TI) aborda tais métodos, utilizamos os mesmos de maneira a analisar a possiblidade de discriminar espécies por intermédio das informações de sequências de nucleotídeos (DNA). Nos últimos 30 anos os estudos de correlações de longo e pequeno alcance de sequências biológicas foram importantes na genômica em respeito à covariação molecular. Tais correlações foram estudadas utilizando-se Entropia e Informação Mútua. Esta última é uma medida de variação entre duas variáveis, independente de um modelo evolucionário assumido. Portanto, extrair sequências de DNA de bancos de dados públicos ou obtê-las em laboratório, alinhá-las (se necessário) e calcular valores informacionais para posterior análise é a meta do presente trabalho. Uma vez que não há um software amigável para as funções recém-relatadas, construímos o MIA, analisador de informação mútua (mutual information analyzer), que é capaz de obter sequências, alinhá-las e calcular espectros normalizados como Entropia Vertical (VH, vertical entropy), Informação Mútua Vertical (VMI, vertical mutual information) e Informação Mútua Horizontal (HMI, horizontal mutual information). Uma vez calculadas as entropias e informação mútuas podemos transformá-las em espectros normalizados. Dados, dois espectros normalizados de espécies distintas pode-se calcular a distância entre ambos através do método de Divergência de Jensen-Shannon (JSD). De posse de todas as distâncias par-a-par entre espécies e medidos seus respectivos erros padrões (SE), pode-se construir uma matriz de distância, principal ferramenta para inferir se diferentes espécies são discriminadas molecularmente. Além disto, pode-se clusterizar as espécies com os dados da matriz de distância ou apresentar a mesma na forma de um histograma de distâncias. A clusterização hierárquica permite analisar os clusters de espécies mais próximas e pode-se compará-los às árvores filogenéticas, quanto à possível organização dos mesmos (topologia). Porém, ressaltamos que a clusterização não é uma árvore filogenética. De maneira a testar o MIA nós analisamos sequências do lócus de Adh (álcool desidrogenase) de Drosófilas, além de outros gêneros/genes, porque a taxonomia e padrões evolucionários estão bem descritos na literatura e foram extensivamente estudados. O MIA teve uma boa performance fazendo todo o processo de coleta de sequências de DNA, cálculo e apresentação de espectros entrópicos entre 10 minutos e 3 horas, dependendo do gênero/gene escolhido. Nossos testes revelaram que os métodos abordados, resultaram em dados que estão em acordo com propriedades biológicas (estruturas de árvores filogenéticas) e consistentes com a taxonomia de Drosófilas e seus modelos evolucionários. O MIA superou em funcionalidade outros programas disponibilizados como, por exemplo, o BioEdit que tem as funções de cálculo de VH e VMI, com a vantagem de entrada de dados da interface bem amigáveis e integradas, além de visualização dos resultados na forma de tabelas e gráficos. Ao final da análise pudemos observar que as distâncias obtidas por JSD de espectros normalizados de Informação Mútua Horizontal puderam discriminar 17 espécies de Drosófilas, além de criarem clusters de espécies muito próximos dos gerados por árvores filogenéticas obtidas pelas mesmas sequências originais pelos métodos de Maximum Likelihood (ML), Neighbor Joining (NJ) e Mr. Bayes (árvores bayesianas). Uma vez que as árvores bayesianas permitem uma análise estatística para todos os seus parâmetros, pudemos mostrar que árvores calculadas no modelo covarion são melhores que as árvores calculadas no modelo padrão (não covarion). Ou seja, o teste de razão de verossimilhança (likelihood ratio test, LRT) se mostrou significativo, fato que dá suporte à hipótese covariacional. Por fim, desenvolvemos um classificador, que resulta numa curva ROC, o qual mostrou que o método JSD combinado com Informação Mútua Horizontal atinge simultaneamente alta sensibilidade e especificidade.
Keywords software
teoria da informação
entropia
informação mútua
sequências de dna
espécies
Language Portuguese
Date 2015-02-12
Published in LICHTENSTEIN, Flavio. Diferenciação de espécies através de algoritmos de análise de informação mútua utilizando dados de sequências nucleotídicas. 2015. 130 f. Tese (Doutorado) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP), São Paulo, 2015.
Research area Interdisciplinar
Knowledge area Multidisciplinar
Publisher Universidade Federal de São Paulo (UNIFESP)
Extent 130 p.
Origin https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=3326271
Access rights Closed access
Type Thesis
URI http://repositorio.unifesp.br/handle/11600/48937

Show full item record




File

File Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Search


Browse

Statistics

My Account