SciELO - Scientific Electronic Library Online

 
vol.69 número3Utilidad del examen oftalmológico en el diagnóstico del herpes neonatalVariaciones en la composición nutricional de la leche materna. Algunos aspectos de importancia clínica índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Revista chilena de pediatría

versión impresa ISSN 0370-4106

Rev. chil. pediatr. v.69 n.3 Santiago jun. 1998

http://dx.doi.org/10.4067/S0370-41061998000300006 

ACTUALIDADES

Rev. Chil. Pediatr. 69 (3); 110-115, 1998

Medicina basada en evidencias: aspectos   
del análisis crítico de la literatura biomédica 

 

Gastón Duffau T.1 

Trabajo presentado a las XXXII Jornadas de Investigación Pediátrica Santiago-Norte, noviembre 1997 y al XI Congreso Latinoamericano de Pediatría, XVIII Congreso Panamericano de Pediatría y XXXVIII Congreso Chileno de Pediatría, Santiago, abril, 1998. 

Resumen 

Con el propósito de contribuir a mejorar la capacidad de los lectores para revisar críticamente la información contenida en las publicaciones biomédicas y obtener la mejor evidencia en respaldo de sus decisiones, se sugiere incorporar de manera explícita algunos  elementos metodológicos y bioestadísticos, considerados faltantes,  a las guías de análisis crítico de la literatura sobre terapia, pruebas diagnósticas y daño en medicina. En los estudios sobre terapia se alude a la definición del universo de donde procede la muestra, la expresión de una hipótesis,el procedimiento de la asignación al azar, la discusión previa del error tipo beta y no sólo del alfa, la fundamentación del tamaño muestral, la descripción precisa y la propiedad de los métodos estadísticos. En las pruebas diagnósticas se subrayan la selección del estándar ideal y el tamaño muestral, los índices de sensibilidad, especificidad, valor predictivo, prevalencia, validez y los intervalos de confianza. En los estudios sobre daño tienen particular relevancia la selección de estadígrafos de riesgo relativo y razón de ventaja, en concordancia con la asignación de la muestra, y el correcto tratamiento de los sesgos. 
(Palabras clave: medicina basada en evidencias, análisis crítico, bioestadística, metodología.) 
   

Evidence based medicine: improving critical
analysis of biomedical literature 

A proposal to improve  critical analysis of biomedical literature dealing with therapy, diagnostic tests and harm is offered. Emphasis is settled  on certain aspects of methodology and biostatistics, as are the need of clearcut hypotheses, adecuate  description and selection of population samples, propper gold standards for comparisson, cuantitative description of sensibility and speciphicity indicators and inclussion of confidence intervals among others. 
(Key words: evidence based medicine, biostatistics, biomedical literature, critical analysis.) 
 
 

Una importante cantidad de literatura relativa al tema del epígrafe da fundamento a la necesidad de ayudar al clínico a resolver el problema de reconocer lo posiblemente valioso dentro del inmenso volumen de material para leer y estudiar que se publica diariamente y su posterior aplicación, si la tiene, a su práctica junto al enfermo y los suyos. Para que esto pueda ocurrir se requiere que el lector esté verdaderamente interesado en formar su propio criterio con autonomía respecto a opiniones de  autoridades en la materia y personas o grupos que eventualmente ofrezcan predigerida la solución al problema. 

Con este objeto se proponen determinados niveles de selección. El primero es la rápida eliminación de los artículos que no cumplen ciertos principios mínimos para interesar al lector. Este dispone de escaso tiempo para dedicarlo a revisar artículos y, además,  es muy probable que no cuente con las destrezas que requiere un análisis crítico completo. Debería, entonces, adquirirlas a través de un proceso educativo formal o, en su defecto, tener la posibilidad de consultar aspectos específicos a quienes cuenten con ellas. 

Se han diseñado guías de orientación esperando que cualquier  interesado pueda usar adecuadamente una investigación aunque no necesariamente sea un investigador1,2. Parece poco probable que quien no se haya involucrado en actividades de investigación pueda cumplir bien esa función. Como sea, se propone calificar los estudios de interés empleando ciertas pautas generales que, intentando facilitar la tarea, en ocasiones dejan fuera algunos aspectos de muchísima significación. Estos son usualmente del ámbito de la metodología y bioestadística y tienen una naturaleza difícilmente soslayable, por lo que creemos deben ser mencionados en dichas orientaciones o, al menos, ser motivo de una explicación. 

La selección de los artículos candidatos a ser leídos comienza por un breve análisis del título, los autores, el resumen y el lugar donde fué efectuado2. Luego, según el propósito de la investigación, se la clasifica como estudio sobre terapia, prueba diagnóstica, evolución y pronóstico, daño y  causalidad. En esta fase se aplican los criterios  especiales, confeccionados para cada tipo de estudio, seleccionando para revisión sólo aquellos que los cumplan por completo. 

Enseguida se expresan las observaciones que parecen de interés según naturaleza del estudio. Los comentarios o propuestas se desarrollan tomando en cuenta que son tan importantes los resultados numéricos de la investigación como los procedimientos por los cuales estos fueron obtenidos y no en términos generales sino con todo el detalle necesario para descubrir “la mejor evidencia”1. Este nivel de la revisión no es necesariamente el último, ya que se podría continuar tratando de obtener información no lograda por los autores, mediante metaanálisis. 

Debe tenerse presente que los aspectos que recomendamos  revisar no son los únicos, sino aquellos que se ha considerado necesario agregar o aclarar entre los propuestos por otros3-6. Nos hemos limitado en esta oportunidad a las investigaciones sobre terapia o pronóstico, pruebas diagnósticas y daño. Por último, una adición general y conveniente a las guías de análisis (que sólo suelen consultar si un procedimiento se efectuó o no  o si se contempló o no algún factor) es señalar, además, si la acción fué bien hecha.   

Estudios sobre terapia 

Observaciones (tabla 1)

1. El lector debe saber no sólo las características del conjunto de enfermos con la afección que se investigará y como se constituyó el grupo de estudio, sino, también, la definición del universo del que se extrajo la muestra y la técnica de muestreo utilizada. 

2. La ausencia de una hipótesis, especialmente en un estudio experimental, donde un grupo recibirá un tratamiento en ensayo y otro un placebo u otro tratamiento, es una carencia particularmente seria. En ocasiones puede no estar tan claramente expresada pero del texto se deriva fácilmente. 

Tabla 1

Guía adicional para revisión de artículos sobre terapia


I. ¿Se encuentra definido el universo y el procedimiento de muestreo?
II. ¿Hay una hipótesis claramente planteada o al menos fácilmente extraíble del texto?
III. ¿Se expresa cuál fue el procedimiento de asignación al azar de los integrantes del estudio, en los grupos respectivos? ¿Este es correcto? ¿Fue exitosa la asignación al azar?
IV. ¿Se estableció el nivel de error alfa del estudio?
V. ¿Se estableció el nivel de error beta del estudio y por lo tanto su poder?
VI. ¿Se planteó una diferencia clínicamente importante de detectar? ¿Esta diferencia es razonable?
VII. ¿Se determinó, entonces, el tamaño de la muestra a estudiar? ¿Este es apropiado?
VII. ¿Se expresa con claridad la estadística a aplicar a los resultados?
VIII. ¿Los resultados fueron analizados empleando la estadística propuesta en la sección material y método?
IX. ¿La estadística propuesta es apropiada a la naturaleza de las variables analizadas en la investigación?
X. ¿Los datos proporcionados en la sección resultados permiten que el lector reproduzca los cálculos y los verifique?

 

3. Con frecuencia los estudios señalan que los pacientes fueron asignados al azar para recibir los tratamientos A o B, pero no detallan el procedimiento. Por otra parte no es tan raro que se diga “los pacientes fueron asignados a los grupos A y B según orden de llegada” (!). Es muy importante recordar que la asignación al azar debe ser posteriormente comprobada para establecer si fue exitosa o no. En algunos estudios ello no es posible en todos los rubros de interés porque el tratamiento comienza inmediatamente después de la asignación de los pacientes, sin  verificar si los grupos son comparables en estado basal (por ejemplo, magnitud de pérdidas por heces o por orina), debido a que ello puede tomar varias horas. 

4. Frecuentemente el error alfa es el único que se indica y a veces no se le menciona, dando por establecido que debe ser de 5%. 

 5. El error beta y el poder o potencia del estudio comúnmente no son discutidos en material y método, lo que significa que los autores realmente no tenían una idea clara de cuanto podían esperar de la investigación. Cuando ésta resulta “negativa”, suele surgir posteriormente el interés por conocer estos aspectos. Hacerlo anticipadamente ahorraría esfuerzo y dinero a muchos investigadores pues, por citar un ejemplo, no pocos abandonarían la empresa si supiesen que la probabilidad de detectar lo buscado es, v. gr., de 40%. 

6. Una diferencia clínicamente importante de detectar debe haber sido planteada en forma explícita y antes de iniciar la investigación. En algunas guías de análisis,  la discusión de este asunto se plantea a partir de los resultados, lo que no parece apropiado. Cuando, en un estudio, la diferencia buscada es mucho mayor que lo razonable, es posible pensar que primero se realizó  la investigación y después, al redactarlo, fué  necesario ajustar la diferencia -y seguramente el error beta- al tamaño de la muestra, que a estas alturas ya no era modificable. 

7. El tamaño de la muestra debe estar apropiadamente fundamentado y ser comprobable por el lector interesado. 

8. La estadística que se aplicará a los resultados debe encontrarse detallada en la sección material y método. Expresiones como “los resultados fueron sometidos a análisis estadístico de significación” son inaceptables. Tampoco lo son menciones al instrumento (computador) o a los programas estadísticos utilizados, si no van acompañadas de la explicación pertinente, pues el empleo de un ordenador y un programa no constituyen garantía de un análisis correcto7

9. Los métodos estadísticos aplicados deben ser apropiados a la naturaleza de las variables en estudio. Si las variables son de tipo nominal u ordinal se deben usar métodos no paramétricos. Esto no se respeta siempre y es así que no sorprende encontrar en series de puntajes (ordinal) promedio, desviación estándar y error estándar, mientras los apropiados serían mediana, variación y percentiles. 

10. En ocasiones el lector es sorprendido, en el análisis de los resultados, por la aplicación de métodos no previstos anteriormente. 

11. Los datos que se analizan en la sección resultados deben ser presentados de modo que el lector interesado pueda verificar por si mismo las operaciones principales. 

Es necesario agregar que el lector debe poder interpretar algunos resultados, como por ejemplo: en un estudio hipotético, propuesto como ensayo clínico en dos grupos de 100 pacientes, donde cada uno  recibe los tratamientos A o B, se encontró que la proporción de fallecidos fue 20% en el grupo control y 15% en el experimental. Naturalmente “p” tenía que ser > 0,05 si se tiene presente que una diferencia clínicamente significativa de 15% con un error alfa de 5% y beta de 20% (cifras de uso relativamente común) y por tanto una potencia del estudio de 80% requiere una muestra de 304 casos (152 por grupo)8. En la situación comentada, para condiciones como las señaladas pero con una diferencia de sólo 5%, se requeriría  más de 800 casos por grupo para tener una razonable probabilidad de detectar esa diferencia. Ese estudio con 100 casos por grupo tenía un poder inferior a 50% para detectar como significativa la diferencia de 5%.   

Estudios sobre pruebas diagnósticas 

Observaciones (tabla 2

1. La elección del estándar ideal es un asunto crucial en la evaluación de una prueba diagnóstica. Para muchas enfermedades está perfectamente definido el que debería emplearse para probar una prueba diagnóstica. Sin embargo, en otras la situación no es tan clara, dejando un margen más o menos amplio para que el investigador decida. Aquí es donde se puede cometer un error de magnitud. 

Tabla 2

Guía adicional para revisión de artículos sobre pruebas diagnósticas


I. ¿Hay fundamento para la elección del estándar ideal propuesto?
II. ¿Los resultados de la aplicación del estándar ideal son dicotómicos?
III. ¿Se definió el universo y el procedimiento de muestreo?
IV. ¿Se da una justificación del tamaño muestral?
V. ¿Hay evidencias que se encuentra bien representado el espectro de la enfermedad en estudio, tanto cualitativa como cuantitativamente?
VI. ¿Los casos con y sin la patología de interés son reconocibles previo a la aplicación del estándar ideal?
VII. ¿Se presenta la respectiva tabla 2 x 2 o 2 x n con los valores correspondientes que permitan calcular los índices escogidos?
VIII. ¿Se proporcionan los intervalos de confianza de los índices, cuando corresponde?

2. En cualquier estudio donde el estándar empleado clasifique los pacientes en más de dos grupos (con y sin la anomalía de interés), se podrá estar seguro que aquel no era el adecuado9-11

3. Es muy importante que el universo del cual se extraerá la muestra a estudiar sea perfectamente definido. Es claro que la situación será muy diferente si se realiza la investigación en población general, en consultorio externo, en consultorio de especialidad o en pacientes hospitalizados. 

4. El estudio de una prueba diagnóstica no puede ser hecho con cualquier cifra de casos. Por esta razón es de esperar que los autores  justifiquen adecuadamente el número de integrantes de la muestra. Imaginemos que una prueba diagnóstica se estudió en 620 niños. A primera vista puede parecer muy adecuado. Sin embargo se originó la siguiente tabla (tabla 3). 

Debido a una prevalencia notablemente baja (20/620= 3,22%), el grupo afectado por la enfermedad según el estándar ideal es muy reducido y los intervalos de confianza de la sensibilidad y del valor predictivo positivo son particularmente amplios. Si la baja prevalencia refleja la situación del trastorno en el universo  donde se aplicará la prueba, no hay problema. Pero, si la prevalencia más probable de encontrar es francamente mayor, los valores predictivos cambiarán mucho. En otras palabras,  probar una prueba diagnóstica, sin una idea aproximada de la prevalencia, puede resultar muy difícil cuando la muestra es pequeña, porque los casos afectados serán insuficientes para hacerlo. Esto no ocurre si se estructura la muestra con una prevalencia que maneja el investigador10,11. Sin embargo, este manejo no es necesariamente recomendable, puesto que lo realmente importante es conocer la prevalencia (probabilidad preprueba) en el conjunto donde se aplicaría en definitiva la prueba. 

5. Es muy importante tener presente que  la prueba diagnóstica debe ser capaz de diferenciar a los afectados por un trastorno de  los que no lo están, a partir de un conjunto formado por casos con y sin  la enfermedad, pero que bien pudieran tenerla. Estos últimos no son, entonces, personas reconocidamente sanas. Los afectados deberán tener adecuadamente representado, cualitativamente y cuantitativamente, el espectro completo de la enfermedad en estudio9.

6. Si antes de aplicar el estándar ideal se sabe quienes no tienen la afección que interesa, se está cometiendo un serio error, como se adelantó en el punto anterior. 

7. Es posible que un investigador no desee hacer referencia a todos los índices (fijos y variables) que caracterizan las condiciones de operación de una prueba diagnóstica, pero debe proporcionar los datos numéricos que permitan calcularlos al lector interesado. Son índices característicos: sensibilidad, especificidad, valor predictivo positivo, valor predictivo negativo, prevalencia y validez. Las razones de verosimilitud (likelihood ratios) proporcionan información nueva básicamente cuando el resultado de la prueba diagnóstica no genera resultados dicotómicos. 

 8. La exposición de los intervalos de confianza de los principales índices aclarará al lector la verdadera situación de ellos en relación al tamaño de la muestra y cuantía de los índices. En la tabla 4 se detalla un ejemplo. 


Es posible ver que la sensibilidad verdadera (cuya estimación ha sido 90,9%) se encuentra con 95% de probabilidad entre cifras tan diferentes como 57,1 y 99,5% y que el valor predictivo positivo puede corresponder a una cifra entre 38,7,0 y 87%. Es muy importante, entonces, que los autores informen sobre los intervalos de confianza. Al comparar numeradores con denominadores, en las LR del ejemplo, la probabilidad que los resultados fueran explicados por el azar resultó inferior a 5% en ambos casos.   

 

Tabla 3

Tamaño de la muestra en estudio de pruebas
diagnósticas. Importancia de la prevalencia
 

 
 
Estándar ideal
 
 
Enfermedad
presente
 
Enfermedad
ausente

Prueba diagnóstica
 
no
positiva
19
 
50
negativa
1
 
550
 
n = 620

Sensibilidad       :
95,0%
IC:
    73,0-99,7
Especificidad     :
91,6%
 
    89,0-93,7
V. predictivo (+):
27,5%
      17,8-39,8
V. predictivo (-):
99,8%
 
    98,8-99,9
LR                   (+):
11,4
   
LR                    (-):
0,054
   

IC = intervalo de confianza de 95%8
LR = Razón de verosimilitud
(+) = positivo     (-): negativo
                                

Tabla 4

Intervalos de confianza de los índices
en estudios de pruebas diagnósticas


 
Estándar ideal
 
 
Enfermedad
presente
 
Enfermedad
ausente

Prueba diagnóstica
 
no
positiva
10
 
5
negativa
1
 
20
 
n = 36

Sensibilidad       :
90,9%
IC:
    57,1-99,5
Especificidad     :
80,0%
 
    58,7-92,4
V. predictivo (+):
66,6%
      38,7-87,0
V. predictivo (-):
95,2%
 
    74,1-99,7
LR                   (+):
4,54
   
LR                    (-):
0,11
   
Prevalencia
(probabilidad preprueba: 30,5%)

IC = intervalo de confianza de 95%.
LR = Razón de verosimilitud
(+) = positivo     (-): negativo

Estudios sobre daño 

Observaciones (tabla 5

1. Ya sea que se escogió efectuar un ensayo clínico controlado al azar, un estudio de cohortes o uno de caso y control, será de máxima importancia informar sobre el universo origen de la muestra. Probablemente el diseño donde es más probable cometer un error de magnitud es el de  caso y control ya en los inicios, al configurar los grupos de casos y controles11,13

2. Aquí es importante que el lector evalúe apropiadamente la elección del tipo de diseño que hicieron los autores, no dando por establecido que fue correcta. Como es fácil imaginar, serios problemas éticos pueden acompañar a un ensayo clínico controlado para detectar daño.

3. De lo comentado anteriormente, parece innecesario enfatizar la importancia de haber planteado adecuadamente la hipótesis que será sometida a verificación. 

4. Las características básicas del estudio escogido deben estar establecidas y justificado el tamaño de la muestra. 

5. La elección de los estadígrafos riesgo relativo (RR) y odds ratio (razón de ventaja) (OR) parece sencilla, sin embargo no pocos errores se cometen en éste sentido, como, por ejemplo, usar OR cuando corresponde RR12. El OR proporciona una aproximación al riesgo relativo en caso de entidades con muy baja prevalencia. 

6. La cantidad de sesgos que pueden afectar estos estudios, en especial los de caso y control son numerosos, de modo que los autores deben dar cuenta de las medidas tomadas para evitar, al menos, los principales. 

7. En el análisis de los resultados se establecerán los posibles confundidores presentes y las medidas de control adoptadas. 

 

Tabla 5

Guía adicional para estudio de artículos sobre daño
 
 

I. ¿Se definió adecuadamente el universo y el procedimiento de muestreo?
II. ¿Fue bien escogido el tipo de estudio?
III. ¿Está expresada la hipótesis sometida a verificación?
IV. ¿Se definieron los niveles de error alfa, beta, diferencia clínicamente significativa, riesgo relativo(RR) u odds ratio
(razón de ventaja) (OR) digno de detectar y tamaño de la muestra?
V. ¿Escoge adecuadamente los estadígrafos "RR" u "OR", cuando corresponde, para el estudio?
VI. ¿Hay evidencias que se tomaron medidas tendientes a evitar sesgos?
VII. ¿Hay evidencias de aplicación de control de confundidores?

 

1. Departamento de Pediatría, Ortopedia y Cirugía Infantil Norte, Facultad de Medicina, Universidad de Chile. 

 

Referencias 

1. Oxman AD, Sackett DL, Guyatt GH: User's guide to the medical literature. I. How to get started. JAMA 1993; 270: 2093-2095.          [ Links ]

2. Calva JJ, Ponce de León S, Vargas F: Cómo leer revistas médicas. Rev Invest (Mèxico) 1988; 40: 65-106.          [ Links ]

3. Guyatt GH, Sackett DL, Cook DJ: User's guides to the medical literature. II. How to use an article about therapy or prevention. A. Are the results of the study valid?. JAMA 1993; 270: 2598-2601.          [ Links ]

 4. Guyatt GH, Sackett DL, Cook DJ: User's guides to the medical literature. II. How to use an article about therapy or prevention. B. What were the results and will they help me caring for my patients. JAMA 1994; 271: 59-63.         [ Links ]

5. Jaeschke R, Guyatt GH, Sackett DL: User's guide to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid?. JAMA 1994; 271: 389-391.          [ Links ]

6. Jaeschke R, Guyatt GH, Sackett DL: User's guide to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients?. JAMA 1994; 271: 703-707.          [ Links ]

7. Duffau G: Estadística en el Programa EPIINFO 6.0 Rev chil Pediatr 1995; 66: 341-344.          [ Links ]

8. Fleiss JL: Statistical methods for rates and proportions, 2nd edition, J Wiley & Sons, New York 1981: 140-151.          [ Links ]

9. Duffau G: Estándar ideal imperfecto y variable. Rev Chil Pediatr 1996; 67: 125-126.          [ Links ]

10. Herrera P, Duffau G: Pruebas diagnósticas: algunos aspectos cuantitativos para su desarrollo e interpretación. Rev Chil Pediatr 1995; 66: 335-340.          [ Links ]

11. Duffau G: Tabla de 2 x 2 en el análisis de pruebas diagnósticas por razones de verosimilitud y otros usos. Rev Chil Pediatr 1997; 68: 194-203.          [ Links ]

12. Herrera P, Duffau G: El diseño caso-control. Una introducción para médicos clínicos. Publicaciones Técnicas Mediterráneo Ltda. Santiago de Chile 1997: 19-45.          [ Links ]

13. Levine M, Walter S, Lee H, Haines T: User's guides to the medical literature. IV. How to use an article about harm. JAMA 1994; 271: 1615-1619.         [ Links ]