Reconhecimento automático de padrões em dislexia: uma abordagem baseada em funções visuais da leitura e aprendizado de máquina

Reconhecimento automático de padrões em dislexia: uma abordagem baseada em funções visuais da leitura e aprendizado de máquina

Author Silva Junior, Antonio Carlos Da Autor UNIFESP Google Scholar
Advisor Mancini, Felipe Autor UNIFESP Google Scholar
Institution Universidade Federal de São Paulo (UNIFESP)
Graduate program Gestão e Informática em Saúde
Abstract INTRODUCTION: Developmental dyslexia is a neurological disorder that affects reading ability, that when left untreated can lead to learning problems and negatively affecting vocabulary increase. The diagnosis of dyslexia is complex and made by exclusion. Some studies evaluated eye movement data in conjunction with machine learning (ML) techniques to classify dyslexia. Another study raises the hypothesis of visual reading function patterns (VRF) for dyslexic differentiation. The study of VRF in combination of ML techniques has not been explored. GENERAL OBJECTIVE: To apply ML techniques to explore and assist the diagnosis of dyslexics from VRF. SPECIFIC OBJECTIVES: To explore dyslexic and non-dyslexic VRF data with feature extraction and to classify dyslexic and non-dyslexic using ML. MATERIAL AND METHODS: This dissertation has two steps: a quantitative and exploratory and a quantitative and correlational. The first step explored two dyslexic VRF datasets, one of 1-line (1L) text readings and the other of 3-line (3L) text readings. The self-organizing map algorithm was applied to each base to separate them into clusters that were then sent to a decision tree to extract the rules characterize each of the groups. The second step used data from 3L readings. The outliers was selected by a specialist. With the remaining data, the SMOTE algorithm was applied. Then a feature selection technique was applied having the best area under the ROC curve (AUC) as target for each of the five selected algorithms. They were compared by AUC and accuracy. All were also compared by their calibration curve. RESULTS: In the first step, the 1L base evaluation resulted in a clustering of 1 cluster of controls and 3 of dyslexics. Only dyslexics obtained Maximum reading speed MRS <140.72 ppm, while in the 3L evaluation, 3 dyslexic clusters and 1 control were obtained. In this only dyslexics had reading speed at critical read size (RSCPS) of less than 112.71 ppm. In the second step, synthetic data were generated for each group to have 100 records. In feature selection, the reading acuity (RA) was selected in 4 of the 5 algorithms. Logistic regression obtained the best AUC (0.999) and accuracy (99%) and obtained the best calibration curve. CONCLUSION: In the first step, the fact that MRS was so determinant in the separation of the 1L clusters and the RSCPS in the first one. It may indicate that the crownding effect had some impact on the 3L test. The fact that RA has been selected in 4 of the 5 feature selections may be an important variable for the diagnosis and study of dyslexia. The logistic regression algorithm obtained the best results and was indicated for VRF-based dyslexic classification.

INTRODUÇÃO: Dislexia do desenvolvimento é uma disfunção neurológica que afeta a habilidade de leitura, que se não tratado pode levar a problemas de aprendizado e impactando negativamente o aumento de vocabulário. O diagnóstico da dislexia é complexo e feito por exclusão. Alguns estudos avaliaram dados de movimento ocular em conjunto com técnicas de aprendizado de máquina (AM) para classificar a dislexia. Outro estudo levanta a hipótese de padrões de funções visuais de leitura (FVL) para compreensão da dislexia. Entretanto, o estudo de FVL em conjunto de técnicas de AM ainda não foi explorado. OBJETIVO GERAL: Aplicar técnicas de aprendizado de máquina (AM) para explorar e auxiliar o diagnóstico de disléxicos a partir das funções visuais de leitura (FVL). OBJETIVOS ESPECÍFICOS: Explorar os dados de FVL de disléxicos e não-disléxicos, a partir de extração de características e classificá-los utilizando AM. MATERIAL E MÉTODOS: Esta dissertação foi executada em duas etapas: uma quantitativa e exploratória e uma quantitativa e correlacional. A primeira etapa explorou os dados de FVL de disléxicos de duas bases, uma de leituras de textos em 1 linha (1L) e outra de 3 linhas (3L). Foi aplicado o algoritmo de mapas auto-organizáveis em cada base para separá-los em clusters que foram então enviados para uma Árvore de Decisão para extrair as regras que regem cada um dos grupos. A segunda etapa utilizou dados de leituras de 3L e foi realizada uma seleção de outliers. Com os dados restantes foi aplicado geração sintética de dados com o algoritmo SMOTE. Então foi aplicado uma técnica de seleção de características tendo a melhor área sob a curva ROC (AUC) como alvo para cada um dos cinco algoritmos selecionados. Eles foram comparados pela AUC e acurácia. Todos também foram comparados pela sua curva de calibração. RESULTADOS: Na primeira etapa, a avaliação da base de 1L, resultou em uma aglomeração de 1 cluster de controles e 3 de disléxicos. Somente disléxicos obtiverem MVL<140,72 ppm, já na avaliação de 3L foram obtidos 3 clusters de disléxicos e 1 de controle. Neste somente disléxicos tiveram uma Velocidade de Leitura no Tamanho Crítico de Letra (VTCL) inferior a 112,71 ppm. Na segunda etapa foram gerados dados sintéticos para cada grupo ter 100 registros. Na seleção de característica a Acuidade de Leitura (AL) foi selecionada em 4 dos 5 algoritmos. A Regressão Logística obteve a melhor AUC (0,999) e acurácia (99%) além de ter obtido a melhor curva de calibração CONCLUSÃO: Na primeira etapa o fato de a MVL ter sido tão determinante na separação dos clusters com 1L e o VTCL no de 3L pode indicar que o efeito de crownding teve algum impacto no teste de 3L. O fato de AL ter sido selecionado em 4 das 5 seleções de características, a torna uma variável importante para o diagnóstico e estudo da dislexia. O algoritmo de Regressão Logística obteve os melhores resultados sendo indicado para classificação de disléxicos com base em FVL.
Keywords Feature Extraction
Synthetic Data Generation
Classification
Machine Learning
Dyslexia
Extração De Características
Geração Sintética De Dados
Classificação
Aprendizado De Máquina
Dislexia
Language Portuguese
Date 2019-12-16
Research area Gestão E Informática Em Saúde
Knowledge area Gestão E Informática Em Saúde
Publisher Universidade Federal de São Paulo (UNIFESP)
Origin https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9178921
Access rights Closed access
Type Dissertation
URI https://repositorio.unifesp.br/handle/11600/59992

Show full item record




File

File Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Search


Browse

Statistics

My Account