INTRODUCCIÓN
El cáncer de mama es el cáncer invasivo más común que afecta a las mujeres de todo el mundo. El desarrollo de métodos de detección han aumentado la incidencia, pero la mortalidad ha disminuido de manera constante; y aun así, esta patología es la segunda causa de muerte por cáncer en las mujeres (Ban et al, 2014). Se estima, que en el mundo, aproximadamente se diagnostican al año 1.4 millones de casos nuevos de cáncer de mama, de los cuales al menos 458.000 les ocasiona la muerte (Ban et al, 2014). En Colombia, las tasas de incidencia y de mortalidad de cáncer de mama durante el periodo del 2007-2011, fueron ascendiendo según el grupo etario considerado, (Ver Tabla 1); igual comportamiento se refleja en el departamento de Caldas (Instituto Nacional de cancerología, 2017).
La etiología del cáncer de mama es muy heterogénea. Se registra mayor incidencia en la raza blanca, pero con menor tasa de mortalidad y mejor sobrevida a cinco años; mientras que en la raza afrodescendiente es un poco menor la incidencia, pero hay mayor tasa de mortalidad y menor sobrevida a los cinco años (Ban et al, 2014). Los aspectos que contribuyen al desarrollo del cáncer de mama, son muy heterogéneos; entre ellos se encuentran el estrato socioeconómico, el acceso a los servicios de salud; la disparidad en estos aspectos incide en un oportuno diagnóstico, lo cual es de vital importancia para poder iniciar tempranamente el tratamiento. Entre los principales factores influyentes se encuentran:
Factores reproductivos: La edad, a mayor edad hay mayor riesgo a desarrollar esta neoplasia, debido a la tendencia de los receptores de estrógenos positivos, cuya incidencia aumenta con la edad y es más común en mujeres postmenopaúsicas (Kapil et al, 2014; Parkin, 2011; Syamala et al, 2008) - La edad de la menarquia, si ocurre tempranamente, antes de los doce años, la mujer va a tener un tramo de vida con mayor exposición a hormonas endógenas, en este caso a estrógenos y a mayor estimulación hormonal durante más tiempo y este evento se ha asociado con el desarrollo de cáncer de mama. - La edad del primer embarazo a término, se ha asociado una edad menor del primer embarazo a término (20 años), como un factor protector del desarrollo a cáncer de mama; si el primer embarazo es a una edad de 35 años o mayor, el riesgo de desarrollar cáncer de mama aumenta. - La paridad; una mujer multípara presenta menos riesgo, con el tiempo, a desarrollar cáncer de mama, que una mujer nulípara
A largo plazo, las células epiteliales de mama se diferencian después del primer embarazo, sus ciclos celulares son más largos y por tanto son menos sensibles a los efectos de los agentes cancerígenos y tienen más tiempo para someterse a la reparación del ADN. - La lactancia disminuye el riesgo de desarrollar cáncer de mama, porque induce la diferenciación de los conductos y durante la lactancia se disminuyen los niveles de estrógenos.- El aborto inducido o espontáneo parece aumentar el riesgo a cáncer de mama, pero los estudios que se han realizado no son concluyentes (Guo et al, 2015)- La edad de la menopausia, a mayor edad, mayor riesgo a desarrollar cáncer de mama. Se ha establecido que una ooferoctomía bilateral, ocasiona una menopausia artificial y reduce dramáticamente el riesgo a cáncer de mama.- Exposición a hormonas exógenas,(anticonceptivos) aumenta ligeramente el riesgo a cáncer de mama.- El uso de terapia hormonal después de la menopausia, incrementa el riesgo a desarrollar cáncer de mama, dependiente de la dosis y del tiempo.
Tabla 1: Incidencia de Cáncer de mama en Colombia y Caldas; periodo 2007-2011 TEI es la tasa específica de incidencia por 100.000 habitantes y TEM es la tasa específica de mortalidad por 100.000 habitantes. Elaborada a partir de las siguientes fuentes. (López et al 2012; Instituto Nacional de Cancerología, 2016; López-Guarnizo et al 2012)

Factores genéticos: Se registra mayor incidencia en la raza blanca, pero con menor tasa de mortalidad y mejor sobrevida a cinco años; mientras que en la raza afrodescendiente es un poco menor la incidencia, pero hay mayor tasa de mortalidad y menor sobrevida a los cinco años (Ban et al, 2014). Las mujeres hispanas presentan menor incidencia y menor mortalidad; lo anterior sugiere un compromiso de factores genéticos, ambientales y sociales. Pero ya al considerar los grupos familiares se aprecia un compromiso genético; la historia familiar de cáncer de mama ha sido bien documentada como un factor de riesgo; una mujer cuya madre o hermana presentan la patología, tiene el doble del riesgo, con respecto a la población general, de padecer la neoplasia de mama. Además, la predisposición genética incluye un comienzo temprano de la enfermedad y en muchas ocasiones más agresiva; dependiendo de si los genes sean de alto riesgo como mutaciones en BRCA1, BRCA2, P53, PTEN o de bajo riesgo como los que participan en los mecanismos de activación (CYPs) y detoxificación de xenobióticos (GSTs). Los de altos riesgo son poco frecuente y los de bajo riesgo son muy frecuentes en la población. En la característica histológica de la neoplasia, puede ocurrir que lesiones benignas se vuelvan malignas; se ha encontrado un ligero incremento de riesgo del cáncer de mama, cuando se presentan adenomas, fibroadenomas, o papiloma intraductal (Yoon et al, 2013; Sakoda et al 2008).
Factores relacionados con el estilo de vida: El elevado consumo de alcohol incrementa hasta en un 32% el riesgo de cáncer de mama. El consumo de tabaquismo, sobre todo desde edad temprana, elevadas la dosis y por mucho tiempo, se asocian con el desarrollo del cáncer de mama; y es de anotar que muchas de las mujeres que consumen alcohol también fuman (Knight et al, 2017; Van Emburgh et al, 2008) La actividad física regular, sobre todo en mujeres adultas pre menopaúsicas, disminuye el riesgo a desarrollar el cáncer de mama. Respecto a las dietas, hay numerosos factores en las dietas que contienen compuestos potencialmente protectores, como las isoflavonas (fitoestrogenos) que abundan en la soya; otros con propiedades antioxidantes como las vitaminas (A,C,E y beta-carotenos). El peso corporal; el efecto de la obesidad depende del estatus menopausico. Un índice de masa corporal elevado después de la menopausia está asociado con un mayor riesgo de presentar cáncer de mama. La exposición a la radiación aumenta el riesgo a desarrollar el cáncer de mama; incluso la mamografía, y por ello no es aconsejable realizar dicho procedimiento en mujeres jóvenes.
Desafortunadamente, es difícil evaluar el verdadero efecto de cada uno de los factores de riesgo nombrados, sobre el desarrollo del cáncer de mama. No obstante, es necesario implementar modelos que permitan considerar la carga que aportan las diferentes combinaciones de estos factores con el riesgo a desarrollar el cáncer de mama, y poder hacer predicciones más ajustadas a la realidad y permitir detectar a tiempo las personas con alto riesgo, para incluirlas en un programa de vigilancia epidemiológica. Estas detecciones tempranas quizás se puedan hacer con modelos bayesianos ajustados a las mediciones de las características de interés. Una revisión de las diversas contribuciones en los últimos 20 años, muestra que, si bien se han diseñado algunos sistemas de detección de cáncer de mama, basados en técnicas de inteligencia artificial, estas no han sido exploradas en su totalidad. En la Tabla 2 se relacionan algunos estudios publicados en los últimos 20 años.
Como se observa en la Tabla 2, predomina el uso de técnicas inteligentes como redes neuronales, algoritmos evolutivos, máquinas de soporte vectorial, sistemas difusos, entre otros. Sin embargo el uso de clasificadores bayesianos, no ha sido muy usado en la detección del cáncer de mama y otros tipos de cáncer encontrándose pocos trabajos entre otros (Wang et al, 2014). Así mismo, es importante resaltar que los trabajos encontrados en la literatura, toman como base el estudio de exámenes especializados como análisis de mamografías, y otro tipo de datos. No obstante, en este documento se propone un sistema de diagnóstico de cáncer de mama tomando como referencia las variables: edad, peso, talla, índice de masa corporal, escolaridad, estrato socioeconómico, seguridad social, fumador, cuando dejo de fumar, fumador pasivo, consume licor, cantidad de licor, herencia familiar de cáncer, edad de la menarca, menopausia, embarazos, partos, edad del primer parto, lactancia, consumo de anticonceptivos orales, cuanto años consumió anticonceptivos orales, tiempo de suspensión de anticonceptivos orales, terapia de reemplazo hormonal y presencia del gen GSTM1.
El modelo propuesto emplea un algoritmo evolutivo, con el fin de realizar una selección efectiva de las variables descritas. Una vez seleccionadas las variables, se define un modelo bayesiano basado en dos funciones, una para las muestras de personas con cáncer y otra para las muestras de personas sin cáncer. Definidas las funciones, los nuevos registros de las personas son evaluados en las dos funciones anteriores, suponiéndose que el registro pertenece a la clase cuya función presente el máximo valor. Los resultados son comparados contra test especializados, con el fin de establecer la efectividad del sistema. Finalmente se encuentra que a partir de las diversas variables empleadas en la construcción de este sistema, se logran porcentajes de aciertos en la detección del cáncer iguales al 100%.
MATERIALES Y MÉTODOS
La metodología desarrollada, para la detección del cáncer de mama, comprende los siguientes pasos metodológicos: Paso 1. Bases de datos; Paso 2. Formalización matemática; y Paso 3. Algoritmo de Selección y clasificación.
Paso 1. Bases de datos: Tomando como referencias pacientes de la región central de Colombia -Caldas (Con su respectivo consentimiento), se definieron dos bases de datos, una de personas sin cáncer y otra de personas con cáncer. La misma base de datos de entrenamiento fue empleada para probar la metodología. Las columnas de la Tabla 3, representan las características de las bases datos definidas:.
En esta tabla, C1 = Edad, C2 = peso, C3 = talla, C4 = índice de masa corporal, C5 = escolaridad, C6 = estrato, C7 = seguridad social, C8 = fumador, C9 = cuando dejo de fumar ?, C10 = fumador pasivo ?, C11 = consume licor ?, C12 = cantidad de licor ?, C13 = herencia familiar de cáncer, C14 = merca, C15 = menopausia, C16 = embarazos, C17 = partos, C18 = edad del primer parto, C19 = lactancia, C20 = consumo de anticonceptivos orales, C21 = cuanto años consumió anticonceptivos orales, C22 = tiempo de suspensión de anticonceptivos orales, C23 = terapia de reemplazo hormonal, C24 = presencia del gen GSTM1.
Una vez creadas las bases de datos todos los valores no numéricos de los registros fueron transformados en números con el fin de poder definir los clasificadores bayesianos. Esta transformación se realizó según el siguiente proceso: a) Los valores de respuesta sí o no fueron transformados en 1 ó 0 respectivamente. b) Las diferentes respuestas para los valores de escolaridad (C5) fueron transformados en valores entre 1 y 7, (1 mínimo grado de escolaridad, 7 máximo grado de escolaridad). c) Los valores de seguridad social (C7) fueron transformados en valores entre 1 y 4, según las respuestas (1 el mínimo, 4 el máximo).
Paso 2. Formalización matemática: La definición matemática del clasificador bayesiano es representada en los siguientes conjuntos de ecuaciones: a) Una híper matriz de tres dimensiones, es definida. Las columnas representan el conjunto de características (C1:C24) ilustradas en la Tabla 3. Así mismo, las filas representan el número de pacientes en cada base de datos que serán objeto de análisis. La tercera dimensión de esta matriz, representará, el número de clases, en este caso 2 (¿tiene Cáncer?: Si o No). b)
Se calcula el vector de medias y la matriz de covarianza de dónde i representa la dimensionalidad de cada una de las matrices expresadas en las ecuaciones 1-4 y K es una constante definida a partir de la matriz Xi. c) Para cada clase se define una función de probabilidad según el sistema de ecuaciones propuesto por Duda, Hart y Stork (2001: pp 41):
Donde,
Paso 3. Algoritmo de Selección y clasificación. El algoritmo propuesto está conformado por los siguientes pasos: a) Selección del tamaño de los padres (Número de características). Este proceso selecciona un numero K (K=1...24). Este número definirá las características que serán analizadas. K, define el tamaño de los padres iniciales. b) Población Inicial. El tamaño P establecido en el paso anterior, define el tamaño de la población inicial. Esta se hace mediante un vector de tamaño K, el cual contiene un conjunto de números aleatorios, (K=1...24). Estos números definirán las características que serán objeto de análisis. c) Operadores Genéticos y Fitness. Con los operadores de mutación (3%) y combinación (97%) se definen los nuevos hijos. Con cada uno de los individuos definidos (Padres e Hijos), Se definen las funciones bayesianas establecidas por la ecuación 1. Dos funciones son definidas, (personas con cáncer y sin cáncer). Una vez definidas las funciones según la ecuación 1, cada registro de la base de datos, establecida para la validación, son probadas en estas funciones, suponiéndose que el registro de datos pertenece aquella función cuyo resultado sea mayor. Los resultados establecidos son comparados con los test especializados. El porcentaje de aciertos positivos, será el resultado de la función Fitness d). Condiciones de parada. El procedimiento anterior, se repite hasta que se encuentre un número determinado de iteraciones, sin que se haya logrado mejorar el porcentaje de aciertos positivos. e) Efectividad del sistema. Se definirá como el porcentaje de aciertos positivos, en la clasificación de la enfermedad. Considerando la revisión literaria encontrada, se deberá permitir la evolución del algoritmo hasta que el porcentaje de aciertos sea por lo menos al 95%.
RESULTADOS Y DISCUSIONES
Como resultado de aplicar la metodología en las bases de datos definidas, se obtienen los resultados que se presentan en lo que sigue:
Paso 1.Bases de Datos. En esta parte del trabajo, se definieron dos archivos, uno para las personas sin cáncer y otro para las personas con cáncer.
Tabla 4 : Datos Generales.
Nombre | Definición | Número de registros |
Sin Cáncer | Persona sin Cáncer -Entrenamiento y Validación. | 4 |
Con Cáncer | Personas con Cáncer -Entrenamiento y Validación. | 44 |
Posteriormente, siguiendo con lo estipulado en la metodología todos los valores no numéricos fueron trasformados en números, con el fin de poder construir los clasificadores bayesianos. Las características generales de estos archivos y sus estadísticas básicas son definidas en las Tablas 5, 6, 7, 8, 9,10 respectivamente para las personas con y sin cáncer.
Tabla 5 : Estadísticas básicas. Personas sin Cáncer (Características C1-C8)
Parámetro | C1 | C2 | C3 | C4 | C5 | C6 | C7 | C8 |
Promedio | 57,50 | 57,75 | 1,60 | 22,48 | 3,25 | 3,25 | 1,25 | 0,25 |
Desviación | 15,00 | 11,09 | 0,10 | 3,11 | 1,71 | 0,96 | 0,50 | 0,50 |
Mínimo | 37,00 | 46,00 | 1,48 | 18,90 | 1,00 | 2,00 | 1,00 | 0,00 |
Máximo | 73,00 | 72,00 | 1,69 | 25,82 | 5,00 | 4,00 | 2,00 | 1,00 |
Mediana | 60,00 | 56,50 | 1,62 | 22,60 | 3,50 | 3,50 | 1,00 | 0,00 |
Varianza | 225,00 | 122,92 | 0,01 | 9,68 | 2,92 | 0,92 | 0,25 | 0,25 |
Tabla 6 : Estadísticas básicas. Personas sin Cáncer (Características C9-C16)
Parámetro | C9 | C10 | C11 | C12 | C13 | C14 | C15 | C16 |
Promedio | 2,50 | 0,50 | 0,50 | 1,00 | 0,25 | 14,00 | 32,50 | 2,00 |
Desviación | 5,00 | 0,58 | 0,58 | 1,15 | 0,50 | 0,82 | 21,89 | 2,45 |
Mínimo | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 13,00 | 0,00 | 0,00 |
Máximo | 10,00 | 1,00 | 1,00 | 2,00 | 1,00 | 15,00 | 46,00 | 5,00 |
Mediana | 0,00 | 0,50 | 0,50 | 1,00 | 0,00 | 14,00 | 42,00 | 1,50 |
Varianza | 25,00 | 0,33 | 0,33 | 1,33 | 0,25 | 0,67 | 479,00 | 6,00 |
Tabla 7 : Estadísticas básicas. Personas sin Cáncer (Características C17-C24)
Parámetro | C17 | C18 | C19 | C20 | C21 | C22 | C23 | C24 |
Promedio | 1,25 | 13,25 | 7,25 | 0,25 | 1,00 | 4,50 | 15,00 | 0,00 |
Desviación | 1,50 | 15,31 | 9,91 | 0,50 | 2,00 | 9,00 | 30,00 | 0,00 |
Mínimo | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 |
Máximo | 3,00 | 27,00 | 21,00 | 1,00 | 4,00 | 18,00 | 60,00 | 0,00 |
Mediana | 1,00 | 13,00 | 4,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 |
Varianza | 2,25 | 234,25 | 98,25 | 0,25 | 4,00 | 81,00 | 900,00 | 0,00 |
Tabla 8 : Estadísticas básicas. Personas con Cáncer (Características C1-C8)
Parámetro | C1 | C2 | C3 | C4 | C5 | C6 | C7 | C8 |
Promedio | 56,23 | 59,41 | 1,55 | 24,75 | 3,87 | 3,05 | 1,44 | 0,36 |
Desviación | 13,00 | 8,21 | 0,05 | 3,14 | 2,09 | 1,32 | 0,88 | 0,49 |
Mínimo | 33,00 | 45,00 | 1,46 | 18,49 | 1,00 | 1,00 | 1,00 | 0,00 |
Máximo | 82,00 | 76,00 | 1,68 | 31,63 | 7,00 | 6,00 | 4,00 | 1,00 |
Mediana | 56,00 | 59,00 | 1,55 | 24,89 | 4,00 | 3,00 | 1,00 | 0,00 |
Varianza | 169,13 | 67,41 | 0,00 | 9,84 | 4,38 | 1,73 | 0,78 | 0,24 |
Tabla 9 : Estadísticas básicas. Personas con Cáncer (Características C9-C16)
Parámetro | C9 | C10 | C11 | C12 | C13 | C14 | C15 | C16 |
Promedio | 4,59 | 0,23 | 0,33 | 1,38 | 0,21 | 12,54 | 38,67 | 2,97 |
Desviación | 10,59 | 0,43 | 0,48 | 2,25 | 0,41 | 2,57 | 18,79 | 2,56 |
Mínimo | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 |
Máximo | 50,00 | 1,00 | 1,00 | 6,00 | 1,00 | 17,00 | 56,00 | 11,00 |
Mediana | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 13,00 | 48,00 | 3,00 |
Varianza | 112,25 | 0,18 | 0,23 | 5,09 | 0,17 | 6,62 | 353,12 | 6,55 |
Tabla 10 : Estadísticas básicas. Personas con Cáncer (Características C17-C24)
Parámetro | C17 | C18 | C19 | C20 | C21 | C22 | C23 | C24 |
Promedio | 2,46 | 20,05 | 10,21 | 0,18 | 1,26 | 1,62 | 2,85 | 0,69 |
Desviación | 2,32 | 10,22 | 12,56 | 0,39 | 3,35 | 5,07 | 10,51 | 0,47 |
Mínimo | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 | 0,00 |
Máximo | 11,00 | 38,00 | 48,00 | 1,00 | 16,00 | 20,00 | 60,00 | 1,00 |
Mediana | 2,00 | 21,00 | 5,00 | 0,00 | 0,00 | 0,00 | 0,00 | 1,00 |
Varianza | 5,36 | 104,52 | 157,80 | 0,15 | 11,20 | 25,66 | 110,55 | 0,22 |
Paso 2. Formalización matemática: Como resultado de esta proceso se definieron cada una de las funciones matemáticas para las dos clases que deben ser identificadas (personas sin cáncer y personas con cáncer). Estas funciones son ilustradas en las ecuaciones 5 y 6 respectivamente:
Donde, las matrices Wi_sincancer, wi_sincancer y la constante Wio_sincancer y las matrices Wi_concancer, wi_concancer y la constante Wio_concancer, son definidas tomando como referencia las ecuaciones 2, 3, 4 y el conjunto de datos de entrenamiento establecidos para los pacientes sin cáncer y con cáncer. Adicionalmente, la dimensionalidad de cada una de las matrices empleadas en las ecuaciones 6 y 7, es definida en el paréntesis anexo al lado de cada matriz X, W y w como subíndice; esto es: (1xk), (kxk) y (kx1).
Paso 3. Algoritmo de Selección y clasificación. Las diferentes ecuaciones de entrenamiento derivadas de las ecuaciones 5 y 6 son definidas para cada uno de los posibles subgrupos de tamaño k (Donde, k varía entre 1 y 24). Estas características son establecidas por medio del algoritmo evolutivo explicado en el paso 3 de la metodología. En la definición de la función bayesiana de las personas sin cáncer no fue incluida la característica C24, en la definición de la función bayesiana de las personas con cáncer si fue incluida esta característica. Esto último con el fin de determinar de manera particular, la incidencia de esta característica en el reconocimiento de la enfermedad.
Las mismas características indicadas por cada subgrupo de tamaño k, usadas en la fase de entrenamiento, son empleadas para seleccionar cada una de las columnas de la matriz que representa el conjunto de datos de validación, para las personas con cáncer y sin cáncer. Estos datos seleccionados, permitirán resolver las ecuaciones 6 y 7. Lo cual dará como resultado un número real. Se supondrá, que el paciente pertenece a la clase cuyo resultado es mayor. Esta clasificación es comparada, para cada paciente, con los resultados de exámenes especializados. El porcentaje de aciertos será el valor de la función fitness del algoritmo evolutivo. La evolución de este algoritmo se hizo durante 100.000 iteraciones. La Tabla 11, ilustra los principales resultados obtenidos, que permitieron obtener una clasificación del 100%. En las tablas que siguen, C1=Edad, C2=peso, C3=talla, C4=índice de masa corporal, C5=escolaridad, C6=estrato, C7=seguridad social, C8=fumador, C9=cuando dejo de fumar?, C10=fumador pasivo , C11=consume licor ?, C12=cantidad de licor?, C13= herencia familiar de cáncer, C14=merca, C15=menopausia, C16=embarazos, C17=partos, C18=edad del primer parto, C19=lactancia, C20=consumo de anticonceptivos orales, C21=cuanto años consumió anticonceptivos orales, C22=tiempo de suspensión de anticonceptivos orales, C23=terapia de reemplazo hormonal, C24= presencia del gen GSTM1.
En total, se obtuvieron 216 grupos de 5 características, los cuales permitieron una clasificación de los datos al 100%. A continuación, se ilustran las características más empleadas en referencia a los 216 grupos de 5 características que permitieron una clasificación de los datos al 100%: GSTM 1 (100%), Merca (45.83%), IMC (37.03%), Edad (32.8%), Lactancia (22.22%), Escolaridad (20.37%), Edad del primer parto(20.37%), Talla(19.9%), Sesofumar(17.59%), Menopausa(16.37%), Fumador(16.2%), Cantidad licor(16.2%), Estrato(15.74%), Gravidez(14.35%), ACOSUP(13.88%), Peso(12.5%), ACOano(9.7%), TRHmes(9.7%), ACO(7.87%), SS(5.5%), HFCAM(5.5%). No obstante, a pesar de que la características (C24 = GSTM1) está en todos los grupos, la misma por sí sola, no es suficiente para identificar el cáncer de mama. Se requiere de la combinación de otras características.
CONCLUSIONES
Este clasificador bayesiano constituye una herramienta de gran utilidad para ayudar al diagnóstico temprano del cáncer de mama. El nivel de acierto del sistema es del 100% logrando esta efectividad con un mínimo de 5 características. Aunque algunas características, están presenten en la mayoría de grupos de 5 características que identifican correctamente la enfermedad, las mismas por si solas no son suficientes para identificar la enfermedad.