Existe un creciente interés por medir la calidad de vida relacionada con la salud (CVRS), definida como la valoración que hace una persona sobre su capacidad de adaptación a la enfermedad y sus consecuencias, considerando diferentes dimensiones de su vida1–4. Los estudios al respecto han mostrado que una menor percepción de CVRS se relaciona con mayor mortalidad5,6, hospitalización y re-hospitalización7, consumo de recursos sanitarios5 y baja adopción de conductas promotoras de salud, tales como ejercicio, nutrición, crecimiento personal, responsabilidad por su salud, relaciones interpersonales y manejo del estrés8. Dadas estas características, la manera de medir la CVRS resulta de gran importancia para los estudios en contextos de salud.
Uno de los instrumentos más utilizados para evaluar CVRS es el Short-Form 12 Health Survey, diseñado para su aplicación a gran escala y de fácil administración9–13. Permite evaluar el estado de salud percibido en población general y en grupos específicos, ya sea en pacientes de enfermedades determinadas o de edad avanzada14–17. También es de utilidad en estudios longitudinales18.
La teoría a la base del SF-12 indica que posee dos grandes factores independientes: Salud Mental y Salud Física10. Estos a su vez, se conforman por ocho áreas de evaluación. En el caso del primero, se definen las áreas Salud Mental, Función Social, Límites de Rol Emocional y Vitalidad. Por su parte, el Factor de Salud Física lo está a partir de Funcionamiento Físico, Límites de Rol Físico, Dolor Físico, y Salud General. Diversos estudios han mostrado repetidamente la estructura bidimensional de la escala11,12,15,19. No obstante, otros trabajos han mostrado estructuras de diferente composición. Una de las potenciales razones para ello se debe a decisiones metodológicas.
Por ejemplo, se ha mostrado que la manera de calcular el puntaje del instrumento afecta a la estructura factorial resultante. Cuando los estudios analizan la estructura factorial a partir de las ocho áreas de evaluación, se observa una organización bidimensional (Salud Mental y Física), así como independencia entre ellos20,21. En cambio, cuando el análisis se realiza en función de los doce ítems con los que se compone la escala, se reporta una estructura tridimensional con correlación entre los ítems20,21. Esta última se ha observado en estudios realizados, tanto en Chile22 como en otros países9,23,24. Incluso se ha planteado que no es aconsejable calcular a partir del SF-12 las ocho áreas de evaluación23.
Por otro lado, la técnica utilizada para el Análisis Factorial podría llevar a variaciones en la estructura de dos dimensiones. La recomendación de los creadores de la escala es de usar componentes principales10, que tiende a entregar cargas factoriales más altas debido a que se fuerza la conformación de una menor cantidad de factores y no se incorporan medidas de error25. La recomendación actual, es de emplear estadísticos que, además de incorporar el error en la medida, entreguen indicadores de ajuste robustos que permitan la comparación entre modelos estudiados, medir la bondad de ajuste y minimizar los residuales25–27. En el contexto chileno, se hace necesario actualizar el procedimiento de análisis para la validación ya existente22, siguiendo la recomendación anterior.
Tomando en cuenta las limitaciones relativas a la manera de obtener la estructura subyacente de la escala y a la necesidad de utilizar nuevos métodos de análisis, el presente estudio busca evaluar la confiabilidad y validez de constructo del SF-12 utilizando una muestra representativa de la población chilena.
Material y Método
Población y muestra
Se utilizaron los datos de la Encuesta Nacional de Calidad de Vida 2015-6, instrumento de propiedad intelectual del Ministerio de Salud de Chile disponible para uso público28, cuyo protocolo de resguardos éticos fueron aprobados por los Comités de Ética del MINSAL y Pontificia Universidad Católica de Chile29. La muestra se conformó por 7.041 personas mayores de 15 años (62,7% mujeres) de representatividad nacional, regional y por zona rural/urbana. La edad promedio fue de 47,2 años, igual para ambos sexos.
Instrumentos
Escala SF-12. Se compone de 12 ítems organizados en ocho áreas de evaluación, medidas en escala dicotómica y de Likert, de diferente número de categorías de respuesta (entre tres y seis). Para garantizar que el puntaje máximo total de la Escala indique buena CVRS, se recodificaron cuatro elementos fraseados en sentido inverso (Anexo 1). Siguiendo las recomendaciones recientes, en este trabajo se estandarizaron los puntajes brutos de los doce ítems, para luego ubicarlos en un rango entre 0 y 100 [(X-mínimo) /(máximo-mínimo) * 100]19.
Análisis estadístico
Se planificó un Confirmatorio (AFC) con el método de máxima verosimilitud y se implementaron estrategias que contribuyen a disminuir sesgos propios de este tipo de análisis. Para disminuir el sesgo confirmatorio30 se implementó una estrategia de modelos rivales, comparando diferentes modelos para SF-12: el unidimensional, el bidimensional (definido teóricamente), el bidimensional con correlación, el propuesto en el artículo anterior de validación de la escala en población chilena22, de segundo orden (con 12 ítems y con 8 áreas de evaluación) y el modelo Bifactor. Para la comparación de los modelos se emplearon diversos indicadores de ajuste comparativos (Bentler-Bonnet (CFI) e índice de Tucker Lewis (TLI)), que debían ser superiores a 0,9; indicadores basados en la bondad de ajuste (raíz del error cuadrático medio de aproximación (RMSEA)), los basados en la minimización de residuales (raíz estandarizada del error medio cuadrático (SRMR)), que debían ser inferiores a 0,0831, y los que dan cuenta de la calidad estadística de cada modelo, como AKAIKE (AIC). Se consideró que el mejor modelo será aquel que cumpla con los puntos de corte de los indicadores de ajuste y obtenga el menor valor en AIC. Se usaron los programas SPSS v25 y AMOS v2332.
Por último, se procedió a realizar el análisis del modelo Bifactor que permite distinguir si se encuentra una escala de composición unidimensional o multifactorial. Lo que es recomendado para este caso, ya que las subescalas tienen una correlación superior a 0,3 y por la existencia de diferencias en la estructura factorial descrita en distintas muestras33. Para la estimación se utilizó una calculadora especializada34 en la que se ingresaron las cargas factoriales estandarizadas de cada ítem sobre el Modelo Unidimensional y el Modelo Bifactor, considerando un factor general y dos específicos. Se estudiaron los indicadores de ajuste específicos para este análisis, respecto a la confiabilidad (coeficiente Omega y H), que debió ser cercano a 1, pruebas que miden unidimensionalidad y multidimensionalidad (ECV, IECV, PUC y FD), que debió ser cercano a 1 para considerarse la unidimensionalidad, y confiabilidad (ARPB), que debió estar entre 10-15%33.
Resultados
La mayoría de los ítems estudiados no cumplieron los criterios de normalidad, de modo que el análisis del AFC se complementó con el procedimiento bootstrapping (número de muestras 500, IC corregido = 90%, número de iteraciones = 1.000)35. Los datos observados indican una fuerte correlación entre la mayoría de los ítems de la escala (Tabla 1). Existe una adecuada homogeneidad de los componentes, considerando que la correlación ítem-total corregida supera el criterio mínimo (0,3). La consistencia interna de la Escala SF-12 es aceptable para este tipo de escalas (α = 0,899). Esto permite señalar que los ítems estudiados tienen altas cargas factoriales y covarianza, y, que pertenecen a una misma escala.
Tabla 1 Estadísticos descriptivos del SF-12 (n = 6.632)
Media | DS | A-C | Corr el total | CCI | I-ECV | |||
---|---|---|---|---|---|---|---|---|
SF | 1 | GH1 | 52,50 | 26,12 | [0,31-−0,39] | 0,60 | 0,425 | 0,950 |
2 | BP2 | 84,41 | 25,34 | [−1,63-1,81] | 0,69 | 0,523 | 0,942 | |
3 | PF02 | 84,36 | 29,62 | [−1,74-1,86] | 0,67 | 0,718 | 0,710 | |
4 | PF04 | 81,81 | 31,35 | [−1,51-1,05] | 0,66 | 0,717 | 0,678 | |
5 | RP2 | 80,23 | 39,83 | [−1,52-0,31] | 0,72 | 0,725 | 0,954 | |
6 | RP3 | 83,00 | 37,59 | [−1,76-0,31] | 0,74 | 0,737 | 0,958 | |
SM | 7 | VT2 | 70,77 | 25,80 | [−0,43-−0,88] | 0,58 | 0,557 | 0,921 |
8 | SF2 | 83,75 | 26,39 | [−1,54-1,48] | 0,60 | 0,395 | 0,827 | |
9 | RE2 | 86,13 | 34,57 | [−2,09-2,37] | 0,64 | 0,752 | 0,347 | |
10 | RE3 | 87,52 | 33,06 | [−2,27-3,16] | 0,64 | 0,750 | 0,347 | |
11 | MH3 | 73,47 | 24,90 | [−0,60-−0,62] | 0,44 | 0,482 | 0,758 | |
12 | MH4 | 71,59 | 24,94 | [−0,81-0,40] | 0,44 | 0,260 | 0,724 |
Nota: Se estimaron los valores al segundo decimal. DS: Desviación estándar. A-C: Asimetría-Curtosis. Corr el total: Correlación de elementos total. a Cronbach-elemento: Alpha de Cronbach si se elimina elemento. I-ECV: ECV de los ítems. CCI: Correlación múltiple al cuadrado. SF: Salud Física. SM: Salud Mental. GH1: Salud General. PF02: Limita actividades moderadas. PF04: Limita actividades vigorosas. RP2: Problemas físicos impide cumplimiento tareas. RP3: Problemas físicos dificultaron tareas. BP2: Dolor. RE2: Lo emocional limita sus actividades. RE3: Lo emocional limita que haga sus actividades con cuidado. MH3: Frecuencia en que siente tranquilo y calmado. MH4: Frecuencia que siente desanimado y deprimido. VT2: Vitalidad.
Los indicadores de ajuste del AFC (Tabla 2). señalaron que ninguno de los modelos evaluados se ajusta adecuadamente a los datos y, como se había planteado anteriormente, estos mejoran cuando se consideran áreas de evaluación en vez de 12 ítems. El modelo que comparativamente obtuvo mejores indicadores de ajuste fue el Bifactor (χ2 = 6575,1; Df = 42; SRMR = 0,0921; RMSEA = 0,153; TLI = 0,791; CFI = 0,867; AIC = 6647,094) (Figura 1). Luego, se revisaron los indicadores específicos del análisis para el Modelo Bifactor, los cuales indican que el Factor General (FG) es lo suficientemente fuerte como para ser considerado de manera independiente (ECVtotal = 0,717; PUC = 0,545), dicho resultado tiene bajo nivel de error (ARPB = 0,134). Adicionalmente, los ítems son más influidos por el FG que por los factores específicos (F1 y F2) (ECV-Ipromedio = 0,760). Lo que se complementa con los indicadores de omega donde el FG obtiene mayores indicadores que los específicos (ωFG = 0,917; ωF1 = 0,918; ωF2 = 0,788), omega relativo (ωH/ωFG = 0,898; ωH/ωF1 = 0,040; ωH/ωF2 = 0,404) y el indicador H (HFG = 0,930; HF1 = 0,444; HF2 = 0,730).
Tabla 2 Comparación de índices de ajuste de modelos estudiados (n = 6.632)
Df | x2 | SRMR | RMSEA | TLI | CFI | AIC | |
---|---|---|---|---|---|---|---|
1 Factor | 53 | 17.401,1 | 0,1051 | 0,220 | 0,568 | 0,647 | 17.449,209 |
2F Teórico | 54 | 15.189,3 | 0,2723 | 0,206 | 0,623 | 0,692 | 15.261,343 |
2F Teórico + CORR | 53 | 12.599,9 | 0,1248 | 0,189 | 0,682 | 0,744 | 1.267,902 |
3F Vera (22) | 51 | 10.310,2 | 0,1029 | 0,174 | 0,730 | 0,791 | 10.388,182 |
2° Orden (12 ítems) | 54 | 17.401,2 | 0,1051 | 0,220 | 0,568 | 0,647 | 17.473,209 |
2° Orden (8 áreas) | 20 | 3.398,3 | 0,0714 | 0,160 | 0,788 | 0,849 | 3.446,266 |
Bifactor | 42 | 6.575,1 | 0,0921 | 0,153 | 0,791 | 0,867 | 6.647,094 |
Modelo propuesto | 9 | 2.651,5 | 0,0982 | 0,210 | 0,760 | 0,856 | 2.675,506 |
Nota: F: Factor; +CORR: correlación entre dos variables latentes o factores.

Figura 1 Diagrama de Ruta del mejor modelo para Escala SF-12: Modelo Bifactor. Nota: FG: Factor General; F1: Factor específico 1 Salud Física; F2: Factor específico 2 Salud Mental.
Por último, se evaluaron los ECV-I (Tabla 1) para verificar si es posible construir una nueva escala con menos dimensiones (considerando solo a los ítems que obtuvieron valores superiores de 0,8)33,35 y se propone como modelo una escala resumida a partir de los ítems: VT2, SF2, GH1, RP2, RP3 y BP2 (χ2 = 2.651,5; Df = 9; SRMR = 0,0982; RMSEA = 0,210; TLI = 0,760; CFI = 0,856; AIC = 2.675,506) (Figura 2).
Discusión
Los resultados del presente estudio muestran que la escala SF-12 posee adecuados índices de confiabilidad, coherente con investigaciones previas realizadas, tanto en Chile como en otros países6,12,22,19,38. Sin embargo, la independencia factorial esperada teóricamente no se confirmó. Esta limitación es relevante, considerando que el análisis utilizó una muestra de representación nacional, en vez de una muestra intencional. Dos explicaciones posibles surgen como alternativa.
En primer lugar, es posible que las diferencias a lo esperado teóricamente se deban a que los ítems comparten una porción de varianza de cada factor. Esto se puede visualizar mejor cuando se compara el Modelo de Segundo Orden en base a las ocho áreas de evaluación con el de los doce ítems, obteniendo mejores indicadores el primero (Tabla 2). Por este motivo, puede ser que la investigación muestre sistemáticamente una estructura bidimensional cuando la escala se analiza por áreas de evaluación (en vez de sus ítems). Siendo así, es posible que una estructura factorial de dos dimensiones ajuste mejor a los datos cuando el modelo teórico incluya la varianza compartida. Para evaluar esta idea, se utilizó la estrategia propuesta por Maurischat y su equipo23, al identificar que existía la posibilidad de que fuese viable una estructura tridimensional, consideraron que se debía mantener la estructura de dos factores por medio de la aplicación de la estrategia de agregar secuencialmente la correlación de los errores de los ítems que conforman las áreas de evaluación, luego relacionaron los ítems GH1, VT2 y SF2 respecto al factor opuesto, luego se correlacionaron los errores de dichos ítems y finalmente se corrigieron los errores sugeridos por índices de modificación23. Se aplicó este criterio en el Modelo Teórico y se lograron indicadores de ajuste aceptables (χ2 = 1126,6; Df = 40; SRMR = 0,0412; RMSEA = 0,064; TLI = 0,963; CFI = 0,978; AIC = 969,019), similares a los encontrados por dichos autores y mejores que los obtenidos en todos los modelos estudiados (ver gráfico de ruta en Figura 3 e indicadores de ajuste comparativos en Tabla 2).
Esto sugiere que el modelo teórico puede ser obtenido a partir del análisis por ítem, siempre y cuando se controle estadísticamente la varianza compartida por ellos. Dicho de otro modo, el análisis realizado sugiere que los ítems de la escala actual contienen información tanto de Salud Mental como de Salud Física.
Por tanto, si la propuesta teórica original del SF-12 asume independencia de sus factores, el presente estudio muestra que en el caso chileno esta condición no se cumpliría, en coherencia con lo encontrado en estudios previos9,20,23,24. Esto tiene implicancias en el ámbito teórico y aplicado. En el primer caso, nuevos estudios deberán evaluar la idoneidad de los ítems que componen la actual escala con aquellos que podrían recogerse de una versión más completa de la misma. Por ejemplo, la escala SF-36 incluye más afirmaciones que evalúan las diferentes áreas de evaluación del CVRS, mientras que el SF-12 es su versión abreviada39,40. Estudios de validación de nuevas escalas breves a partir del SF-36 serían de ayuda tanto para clarificar la composición de la estructura bidimensional como para evaluar la adecuación de modelos alternativos (e.g., tridimensionales o más breves). Sugerencias similares fueron expuestas en otros trabajos15. Otro elemento necesario de considerar, que también fue destacado por Maurischat y su equipo, es que la suma de las subescalas no indicaría la relación que existe entre ambos factores de modo que la manera de calcularlos debiese ser revisado23.
En segundo lugar, las sugerencias metodológicas actuales indican que frente a la discusión de la estructura factorial de una escala se debiese implementar un análisis Bifactor en la que se pueda estudiar si los datos reflejan una estructura unidimensional o bidimensional, como ocurre en el caso estudiado. Los resultados reflejan que sería pertinente referirnos a una escala unidimensional y que podría resumirse en seis ítems, tres de ellos corresponden a ítems que Maurischat y su equipo23 sugirieron que se correlacionen sus errores (GH1, VT2 y SF2). Esta alternativa soluciona el problema de cálculo para medir las dimensiones Salud Mental y Salud Física para que puedan reflejarse las correlaciones existentes.
En el ámbito aplicado, la sugerencia de que para el paciente las dimensiones físicas se encuentren relacionadas con las mentales podría requerir la discusión respecto a la manera como se realiza el diagnóstico y el tratamiento de las enfermedades, incorporando ámbitos de evaluación que integren estos dos factores en el proceso curativo. Ejemplos de ello lo constituyen el rol de las emociones en la experiencia de recuperación médica o el rol de las redes de apoyo en la efectividad de un tratamiento41-44.
Conclusiones
En conclusión, se considera que es aconsejable seguir estudiando la estructura interna en población chilena para poder contar con información que permita tomar decisiones. Una prueba que podría contribuir sería la de realizar AFC (considerando como uno de los modelos a estudiar el Bifactor) en una escala mayor como lo es la SF-36. Mientras no se realicen estos estudios se recomienda mantener el cálculo por áreas de evaluación, y tomar con cautela las conclusiones que de él se derivan, ya que los resultados de este estudio sugieren que los dominios de salud mental y físicos no son independientes entre sí.
Anexo 1 Cuestionario de Salud SF-12
1. GH1 En general, ud diría que su salud es: | |||||||
1 ○ Excelente |
2 ○ Muy buena |
3 ○ Buena |
4 ○ Regular |
5 ○ Mala |
R | ||
I. Su salud actual, ¿Lo(a) limita para realizar estas actividades, si es así? ¿cuánto? | |||||||
1 Sí, me limita mucho | 2 Sí, me limita un poco | 3 No, no me limita nada | |||||
2. PF02 Esfuerzos moderados como mover una mesa, barrer, pasar la aspiradora o caminar más de una hora |
○ | ○ | ○ | ||||
3. PF04 Subir varios pisos por la escalera | ○ | ○ | ○ | ||||
II. Durante las 4 últimas semanas ¿ha tenido algunos de los siguientes problemas en su trabajo o en sus actividades cotidianas, a causa de su salud física? | 1 Sí | 2 No | |||||
4. RP2 ¿Hizo menos de lo que hubiera querido hacer? | ○ | ○ | |||||
5. RP3 ¿Tuvo que dejar de hacer algunas tareas en su trabajo o en sus actividades cotidianas? | ○ | ○ | |||||
III. Durante las 4 últimas semanas, ¿Ha tenido algunos de los siguientes problemas en su trabajo o en sus actividades cotidianas, a causa de algún problema emocional? | 1 Sí | 2 No | |||||
6. RE2 ¿Hizo menos de lo que hubiera querido hacer? | ○ | ○ | |||||
7. RE3 No hizo su trabajo o sus actividades cotidianas tan cuidadosamente como de costumbre | ○ | ○ | |||||
8. BP2 Durante las 4 últimas semanas, ¿Hasta qué punto el dolor le ha dificultado su trabajo habitual (incluido el trabajo fuera de casa y las tareas domésticas)? | |||||||
1 ○ Nada |
2 ○ Un poco |
3 ○ Regular |
4 ○ Bastante |
5 ○ Mucho |
R | ||
IV. Las preguntas que siguen se refieren a cómo se ha sentido y cómo le han ido las cosas durante las 4 últimas semanas. En cada pregunta responda lo que se parezca más a cómo se ha sentido usted. Durante las 4 últimas semanas ¿cuánto tiempo… | |||||||
1 Siempre |
2 Casi siempre |
3 Muchas veces |
4 Algunas veces |
5 Solo alguna vez |
6 Nunca |
||
9. MH3. Se sintió calmado(a) y tranquilo(a)? | ○ | ○ | ○ | ○ | ○ | ○ | |
10. VT2 Tuvo mucha energía? | ○ | ○ | ○ | ○ | ○ | ○ | R |
11. MH4 Se sintió desanimado(a) y triste | ○ | ○ | ○ | ○ | ○ | ○ | |
SF2 Durante las 4 últimas semanas, ¿Con qué frecuencia la salud física o los problemas emocionales le han dificultado sus actividades sociales? (como visitar a los amigos o familiares) | |||||||
1 ○ Siempre |
2 ○ Casi siempre |
3 ○ Muchas veces |
4 ○ Algunas veces |
5 ○ Solo alguna vez |
6 ○ Nunca |
Nota: R: Recodificado.