SciELO - Scientific Electronic Library Online

 
vol.69 número3Variaciones en la composición nutricional de la leche materna. Algunos aspectos de importancia clínicaMaltrato infantil y juvenil en una comuna Santiago. Parte I: estimación de la prevalencia índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Revista chilena de pediatría

versión impresa ISSN 0370-4106

Rev. chil. pediatr. v.69 n.3 Santiago jun. 1998

http://dx.doi.org/10.4067/S0370-41061998000300008 

Rev. Chil. Pediatr. 69 (3); 122-125, 1998  

   Tamaño muestral en estudios   sobre pruebas  diagnósticas   

 

Gastón Duffau T.1 

 

Trabajo presentado a las XXXII Jornadas de Investigación Pediátrica Santiago-Norte, noviembre 1997 y al XI Congreso Latinoamericano de Pediatría, XVIII Congreso Panamericano de Pediatría y XXXVIII Congreso Chileno de Pediatría, Santiago, abril, 1998.  
  

 Resumen 

Se propone un procedimiento para efectuar la estimación del tamaño muestral en investigaciones sobre pruebas diagnósticas. Este está fundado en las razones de verosimilitud  e intervalos de confianza. 

(Palabras clave: pruebas diagnósticas, tamaño de la muestra, bioestadística.) 
 
 

  Diagnostic tests: sample size 

A proposal is made to  calculate  sample size in diagnostic tests research based  on likelihood ratios and confidence intervals. 

(Key words: diagnostic tests, sample size, biostatistics.) 
 
  

La estimación del tamaño de la muestra para estudiar una prueba diagnóstica es indispensable como en cualquier otro tipo de investigación. Sin embargo no se contempla en artículos relativos a tales pruebas ni en textos comunes y otros no tanto, de bioestadística. No disponer de una estimación razonable es fuente frecuente de problemas, como que en una o más casillas de la tabla de 2 x 2 aparezca un cero, de modo que, por ejemplo, la sensibilidad o la especificidad resulten de 100%, con un importante intervalo de confianza (muestra pequeña), o bien que debido a una muy baja prevalencia o probabilidad preprueba, aún cuando el total estudiado sea en apariencia suficientemente numeroso, la cuantía de los verdaderamente afectados, de acuerdo con el estándar ideal, resulte muy exigua, restringiendo la credibilidad de las conclusiones.

Las razones de verosimilitud (likelihood ratios) (LR), índices fijos como sensibilidad y especificidad1,2 no proporcionan información nueva frente a valores predictivos más tradicionales, excepto cuando la prueba diagnóstica genera resultados más que dicotómicos. Una propiedad singular de importancia es que las razones de verosimilitud ofrecen una relación entre las cuatro casillas de la tabla de 2 x 2, en que se estudia primariamente una prueba diagnóstica: a, b, c ,d. Es así como, si consideramos una LR positiva(+), es decir, cuánto más probable es que un resultado positivo de la prueba proceda de un enfermo que de un no enfermo, veremos que tal resultado se obtiene de la razón entre las proporciones  a/(a+c)  y b/(b+d)  de modo que 
              
LR+ =  a/(a+c)
            b/(b+d) 

En esta división, el numerador corresponde a la sensibilidad de la prueba y el denominador  a la proporción de falsos positivos (1-especificidad), es decir, la cuantía de no enfermos o no afectados según estándar ideal, que da positiva la prueba diagnóstica. 

 Es posible, entonces, plantear la búsqueda del tamaño muestral a partir de una comparación de dos proporciones (LR), en prueba unilateral (puesto que se espera que el numerador sea mayor que el denominador, LR+ veces), para lo cual se requeriría estimar  los falsos positivos (o la especificidad) probables en ésa prueba y la prevalencia esperada del trastorno en estudio dentro de la muestra, sea ésta poblacional, procedente de un grupo  seleccionado por mayor  sospecha de presencia de la entidad  o sea una muestra estructurada por el investigador. Al mismo tiempo, elegir un valor de LR+ digno de ser detectado, contemplando el nivel de errores alfa y beta que se considere adecuado. Tal comparación sería entre dos proporciones independientes (aunque intrínsecamente relacionadas) y de tamaño casi siempre diferente, con una proporción de verdaderos enfermos habitualmente inferior a 50%, pero ocasionalmente superior. 

La estimación de los falsos positivos determinará, en parte, la LR+ elegible puesto que, si los primeros constituyen 5%,  es poco probable que interese un LR+ de 3 si se considera que 5% x 3 indicará la sensibilidad de la prueba en tal caso, es decir, 15% y ésta seguramente no resultaría de mucho interés al investigador como nivel inicial de detección. Del mismo modo, si la proporción de falsos positivos fuera muy alta, LR+ puede tener como límite un valor sorprendentemente bajo. Por ejemplo, una cifra de falsos positivos del 30% (0,30) tiene una LR+ límite posible de 3,33 ya que una cifra mayor supondría una sensibilidad de la prueba superior al 100%. Como sea, es generalmente aceptado que LR+ en el margen de 2 a 5 suele ser de importancia, aunque cifras de 6 a 10 y en particular mayores de 10 son concluyentes, en el sentido que el cambio de la probabilidad preprueba a aquella postprueba es substancial3

El poder estimar algunos valores, como la proporción de falsos positivos, requiere algún conocimiento previo de la situación o efectuar un estudio piloto para obtenerlo. 

Aceptando que se cumplen los requisitos para efectuar la correspondiente prueba de hipótesis, de acuerdo con Fleiss4, tendríamos lo indicado en la tabla 1


Hasta este punto se desarrollarìa la primera fase de la estimación. Supongamos ahora, en un ejemplo numérico, como debiera operar el cálculo (tabla 2). 

Podemos indicar, entonces, que para detectar una LR+ de 2,5 o mayor (en hipótesis unilateral), con un error alfa de 5% y beta de 10%, es decir una potencia del estudio de 90%, contemplando una prevalencia de afectados de 25% en la muestra y falsos positivos de 22%, es necesario estudiar un total de 111 casos. Estos se encontrarán distribuídos como 28 y 83 casos. Señalaremos que si la estimación de falsos positivos fuera más alta o más baja se requeriría, respectivamente, menos y más casos integrando la muestra, si no se modifica la LR+ escogida. 

Terminada la primera fase de la estimación, podemos perfeccionarla estableciendo el intervalo de confianza (IC) que se considere apropiado o aceptable para la sensibilidad. El intervalo de confianza del 95% (IC95%)  de p1, (0,55 o 55%) puede establecerse, por ejemplo, en  ± 10%. 

El error estándar deseado sería: 10/1,96 = 5,10. 

Se puede calcular el número de casos necesarios para generar é se error estándar, contemplando que el procedimiento se modifica si la proporción se aleja mucho de 0,50. El siguiente cálculo es adecuado para muestras no muy pequeñas y proporción no menor de 0,30 o mayor de 0,70. Procedimientos gráficos permiten identificar “n” si se conoce el IC de la proporciòn así como realizar la determinación inversa5. También programas computacionales proporcionan éste cálculo6. Como sea, para los fines perseguidos, no se requiere extrema precisión. Entonces, 

5,10 = ((100 - 55) x 55/n)^ 0,5 

 Despejando n obtenemos: n = 95 casos. Esto significa que para lograr el intervalo de confianza deseado, el número de afectados por la enfermedad debe ser 95 en vez de 28 casos y por lo tanto, conservando la prevalencia estimada, el segundo grupo debería ser de 285 casos en vez de 83. Esto nos da un N total final, de 383 casos, con lo cual se obtendrá un aumento en el poder del estudio por reducción del tamaño del error beta planteado inicialmente. 

Hay que destacar lo siguiente: Si el nivel de sensibilidad encontrado (0,55), tan cercano a 0,50, fuese mayor o menor, el número de casos encontrado, 95, generaría un intervalo de confianza más estrecho. Dicho de otro modo, en tales circunstancias se requeriría una muestra menor. 
Por otro lado, el intervalo de confianza de p2 será al menos tan estrecho como el de la sensibilidad si la prevalencia es menor que 0,50, como es usual. Pero, si ello no es así y la prevalencia supera 0,50, para la muestra calculada el intervalo de confianza de p2 será más ancho que lo deseado. 
Es necesario tener presente que el tamaño de la muestra, para una misma LR+ cambiará substancialmente con la proporción de falsos positivos. Así, si se establece una LR+ deseable de pesquisar igual o mayor que 3 y  p2 es 0,20 , consecuentemente p1 será 0,60 y la diferencia a detectar 0,40 (40%). Para ello  se requerirá una muestra pequeña por tratarse de una gran diferencia. Sin embargo, si p2 fuese  0,05, p1 debiera ser 0,15 y la diferencia a detectar sólo de 0,10 (10%), por lo que se requeriría una muestra mucho mayor. 
Otro aspecto de interés es que el cálculo de N podría comenzar con una estimación de la sensibilidad de la prueba, calculando p2 que corresponda según la LR+ escogida. 
Si se comenzara con la sensibilidad (p1) y su intervalo de confianza para conocer el respectivo tamaño de la muestra para esa proporción, según  “r” sería posible conocer la segunda muestra parcial. Sin embargo, de todas maneras se requiere verificar  que el N total es suficiente para los errores alfa y beta establecidos o deseables, particularmente -como se señaló- si el valor de p1 se aleja de 0,50, donde se encontrará un “n” más pequeño para el mismo IC y asimismo si la prevalencia supera 0,50, donde la muestra de no afectados sería menor que la de enfermos, con un IC mayor que el deseado para el grupo de afectados. 

1. Departamento de Pediatría, Cirugía infantil y Ortopedia Norte, Facultad de Medicina, Universidad de Chile.  

 Referencias 

1. Duffau G: Tabla de 2 x 2 en el análisis de pruebas diagnósticas por razones de verosimilitud y otros usos. Rev Chil Pediatr 1997; 68: 194-203.          [ Links ]

2. Jaeschke R, Guyatt GH, Sackett DL: User's guide to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients?. JAMA 1994; 271: 703-707.          [ Links ]

3. Sackett D, Haynes B, Guyatt H, Tugwell P: Clinical epidemiology. A basic science for clinical medicine, 2nd edition, Little, Brown and Co, Boston,  USA 1991: 119-139.          [ Links ]

4. Fleiss JL: Statistical methods for rates and proportions, 2nd edition, J Wiley & Sons, New York 1981: 140-151.          [ Links ]

5. Dawson B, Trapp R: Bioestadística médica. Editorial El Manual Moderno S.A., México D.F. 1993: 166-170.          [ Links ]

6. Duffau G: Estadística en el programa Epi.Info 6.0. Rev Chil Pediatr 1995; 66: 341-344. 

        [ Links ]