Abstract:
El cáncer de seno, es una de las enfermedades, que aproximadamente genera 2.26 millones de muertes a nivel mundial anualmente, según la Organización Mundial de la Salud. El diagnóstico de la enfermedad, en etapas iniciales es importante, para permitir un tratamiento que elimine y/o alivie las consecuencias del mismo. Proveer de diversas técnicas para la detección del cáncer de seno, dará mayores opciones a los pacientes para el diagnóstico, y permitirá la disminución de costos. Por ello, es necesario conocer, ¿qué ensambles heterogéneos de aprendizaje automático, tiene mejor predicción de cáncer de seno, a partir de datos de expresiones géneticas de microarray?. En la presente investigación, se diseñó e implemento, cuatro ensambles de algoritmos heterogéneos: voting, bagging, boosting y stacking, los cuales fueron entrenados con un dataset de 4113 muestras miARN, cada uno con 2542 atributos, luego se aplicó los test Welch ANOVA y test de Games Showel, con diez resultados de exactitud, obtenidos por validación cruzada, y se detectó, que los ensambles no presentan diferencias significativas, logrando alcanzar una exactitud de predicción promedio de 98.23%. También se aplicó la misma metodología a, 121 muestras ADN extraídas por biopsia de células de mama, que constan de 54676 atributos, obteniendo una exactitud de predicción promedio de 99.99%.