Interpretación de resultados de pruebas de laboratorio de Covid-19
Etiquetas: Covid-19 , Exámenes de laboratorio , Probabilidad Condicional , Desmos
(English: Interpreting Covid-19 Test Results)
Desde el inicio de la pandemia de Covid-19 me ha estado persiguiendo el asunto de interpretar de manera correcta los resultados de las pruebas de laboratorio de Covid-19.
Sabía que la probabilidad de que una prueba de laboratorio de Covid-19 diera información correcta depende de la proporción de la población que se encuentra infectada en el momento que se hizo la prueba, pero no conocía los detalles ni entendía por qué podía pasar esto. Cada vez que trataba de leer al respecto terminaba leyendo artículos en internet con muchas tablas y números inventados de casos positivos y negativos que no me ayudaban a entender el asunto con claridad.
Finalmente encontré una columna en la página de la American Mathematical Society escrita por Bill Casselman que me permitió entender mejor el asunto. En esta entrada de blog doy una explicación muy gráfica usando árboles de probabilidad algo distinta a la de la columna, doy algunos detalles adicionales y muestro algunas gráficas interactivas que hice para explorar las ideas relacionadas.
Antes de continuar es necesario establecer terminología clave.
Terminología
- Una prueba de laboratorio de Covid-19 puede dar un resultado positivo cuando la persona en realidad no está infectada. A esto se le llama un falso positivo.
- Igualmente, una prueba de laboratorio de Covid-19 puede dar un resultado negativo cuando la persona en realidad está infectada. A esto se le llama un falso negativo.
- Las dos opciones restantes son cuando la prueba dice la verdad: estos son los verdaderos positivos y verdaderos negativos.
Desde una perspectiva de la sociedad, los falsos negativos son probablemente los más serios: hacen que las personas piensen que no están infectadas cuando de hecho lo están, por lo que aumentan las posibilidades de que propaguen la enfermedad. Desde una perspectiva personal, cuál de estas cuatro posibles opciones es más importante depende de quién sea usted y de qué se está preocupando en ese momento en particular.
No crea en una prueba que diga “¡Menos de 1% falsos negativos!”
Una suposición natural es creer que el porcentaje de cada uno de estos casos (falsos negativos, verdaderos positivos, etc.) depende tan solo de la calidad de la prueba:
- Una prueba de alta calidad tiene pocos falsos negativos y pocos falsos positivos.
- Una prueba de baja calidad tiene más falsos negativos y más falsos positivos.
¡Esto no es del todo cierto! Los porcentajes para cada caso dependen de la población en la que se hizo la prueba y el momento en el que se hizo. ¡Uno no puede mirar la hoja de especificación de una prueba de PCR Covid-19 y leer “¡Menos de 1% falsos negativos!”. Una afirmación de este estilo simplemente no se puede dar.
Entender el por qué de este hecho es el contenido de la columna en la página de la American Mathematical Society de Bill Casselman y lo que muestro y explico en esta entrada de blog.
Haré todo lo posible para ser auto-contenido en lo que sigue, por lo que no es necesario leer la columna antes de continuar. ¡Ojalá la columna sea más fácil de entender después de leer esto!
Antes de continuar, ¡estas son las gráficas interactivas que hice!
La gráfica a continuación da las probabilidades de que un resultado de prueba sea realmente verdadero (verdadero negativo o verdadero positivo).
Visite esta página si la gráfica interactiva no carga.
Cómo funciona, y qué dice:
- Mueva el punto $p$ (en el eje horizontal) para especificar la “cantidad de Covid-19 a su alrededor”, como porcentaje (lo estamos identificando aquí con el “porcentaje infectado de la población”, pero luego haremos esto más preciso).
- El eje vertical indica las probabilidades de que un resultado de prueba sea realmente verdadero dado el valor de $p$ que eligió. Hay una curva para la probabilidad de un verdadero negativo y una curva para la probabilidad de un verdadero positivo. Note que son distintas!
- La “calidad” de la prueba está determinada por los valores de $a$ y $b$ que pueden ajustar con los deslizadores. Estos son números entre $0\% $ y $100\% $ que tienen nombres técnicos:
- $a$: la sensibilidad de la prueba.
- $b$: la especificidad de la prueba.
Explicaré lo que significa la sensibilidad y la especificidad más adelante. Por ahora tan solo menciono que son los números que sí va a encontrar en las especificaciones técnicas de una prueba de Covid-19.
Esta es la gráfica interactiva complementaria sobre los resultados de prueba falsos:
La siguiente gráfica muestra las probabilidades de que un resultado de prueba sea falso (falso negativo o falso positivo). ¡Mueva el punto $p$, y ajuste la calidad de la prueba cambiando $a$ y $b$!
Visite esta página si la gráfica interactiva no carga.
Y estas son todas las gráficas juntas (todos los resultados verdaderos y falsos posibles):
Visite esta página si la gráfica interactiva no carga.
¿Cómo hice esas gráficas interactivas?
La respuesta corta es que las creé usando desmos basado en lo que explica Bill Casselman en su columna en la página de la American Mathematical Society. La respuesta larga la doy a continuación en donde explico en detalle y de manera muy gráfica de donde salen esas gráficas.
Algunos conceptos previos - Árboles de Probabilidad
Las probabilidades se multiplican y a menudo es útil visualizar esto usando árboles.
Este es un ejemplo:
Supongamos que tomo una carta de una baraja de cartas, y luego tomo una segunda. ¿Cuál es la probabilidad de que saque un corazón y luego otro corazón? (Una baraja tiene 52 cartas de las cuales 13 – un cuarto – son corazones).
Para responder esta pregunta sirve pensar en los dos pasos por separado.
Hay 4 posibles resultados:
- Primero corazón y después corazón
- Primero corazón y después no corazón
- Primero no corazón y después corazón
- Primero no corazón y después no corazón.
Estos cuatro resultados aparecen en el extremo derecho del siguiente diagrama de árbol:
¿Cuál es la posibilidad de cada resultado del extremo derecho? Lo bueno de representar la situación con un árbol es que podemos analizar cada paso por separado y luego multiplicar.
Específicamente, para la primera carta:
- La probabilidad de que la primera carta sea un corazón es $1/4$ (pues un cuarto de las cartas son corazones). Es decir, hay una probabilidad de $25\%$ de que la carta que uno saque sea un corazón.
- La probabilidad de que la primera carta no sea un corazón es $3/4$ (todas las otras cartas). Es decir, hay una probabilidad de $75\%$ de que la primera carta que uno saque no sea un corazón.
Ponemos estas probabilidades en el árbol:
Para la segunda carta, las posibilidades no son las mismas, ya que hay menos cartas, ¡y el número de corazones varía!
Por ejemplo, si la primera carta es un corazón, entonces solo quedan 12 corazones en las 51 cartas restantes. Así, si la primera carta es un corazón, las posibilidades de sacar un segundo corazón son $12/51$, o $23.53\%$ (menor que $25\%$, como era de esperarse, pues ya se había sacado un corazón). Esta segunda probabilidad es lo que se conoce como una probabilidad condicional, pues es una probabilidad que asume que ya ocurrió otro evento.
Ponemos esta nueva información en el árbol:
¿Qué pasa si la primera carta no es un corazón? Bueno, entonces en las 51 cartas restantes todavía están todos los 13 corazones, por lo que hay un chance de $13/51 = 25.49\%$ de que la segunda carta sea un corazón si la primera no fue un corazón (mayor que $25\%$, como era de esperarse, ya que sigue habiendo la misma cantidad de corazones, pero menos cartas).
También ponemos esta nueva información en el árbol:
Las caminos azules gruesos en la figura anterior corresponden a las dos formas en que se puede obtener un corazón en la segunda carta:
- 1ra carta es el corazón y la 2da es corazón (camino en la parte superior)
- 1ra carta no es corazón y la 2da es corazón (el otro camino)
Un razonamiento similar permite completar el resto del árbol. Esto es lo que se obtiene:
¡Y ahora podemos multiplicar las probabilidades!
Los porcentajes a la derecha en la siguiente figura son la probabilidad de que ocurra cada resultado:
Lo que esto dice:
- Hay $5.88\%$ de probabilidad de que la primera carta sea un corazón y la segunda también sea un corazón.
- Hay $19.12\%$ de probabilidad de que la primera carta sea un corazón y la segunda no sea un corazón (igual que en el tercer resultado en el árbol, que corresponde al orden opuesto).
- Hay $58.88\%$ de probabilidad de que la primera carta no sea un corazón, y la segunda carta tampoco sea un corazón.
Así, hay $5.88\%$ de probabilidad de que uno saque dos corazones. Mucho menor que la probabilidad $55.88\%$ de que uno no saque ningún corazón.
Note que todos los porcentajes en la derecha suman $100\%$, como era de esperarse, ya que son todos los resultados posibles.
De regreso al Covid-19
Este es el árbol relacionado con las pruebas de laboratorio de Covid-19:
¿Qué probabilidades conocemos en este árbol?
Aquí es donde entran en juego la sensibilidad y la especificidad de la prueba. Cuando se crea una prueba, se realizan estudios médicos para averiguar:
- Sensibilidad de prueba ($a\%$): probabilidad de que una prueba identifique correctamente a una persona infectada (es decir, de resultado positivo si la persona está infectada).
- Especificidad de la prueba ($b\%$): probabilidad de que una prueba identifique correctamente a una persona no infectada (es decir, de resultado negativo si la persona no está infectada).
Estos dos números son lo que uno podría llamar “parámetros de calidad” de la prueba. Lo importante es que no dependen de la población en la que uno está haciendo las pruebas. ¡También son unos de los números en nuestro árbol!
Si conocemos estos dos números, entonces conocemos también las otras dos probabilidades en el mismo “nivel de rama” en el árbol, pues son eventos complementarios:
¿Y qué pasa con las dos primeras ramas del árbol?
Las probabilidades de infección cambian de acuerdo con la proporción de personas enfermas en el momento que se hizo la prueba. Si $p\%$ de las personas están infectadas, podemos tomar este porcentaje como la probabilidad de infectarse (más adelante elaboro sobre esto). De manera similar, la probabilidad de no estar infectado es $(100-p)\% $ (todas las demás personas).
Así, ¡nuestro árbol con las probabilidades de cada paso está completo!
Ahora podemos multiplicar las probabilidades para encontrar las probabilidades de cada resultado. Tenga en cuenta que todo depende de dos cosas: los parámetros de la prueba ($a\%$ y $b\%$), y la proporción $p\%$ de la población que está infectada (que es independiente del examen).
Entonces, ¿de dónde salen las curvas en los gráficos interactivos?
Nos falta un poco más, pues las preguntas que uno se hace después de obtener los resultados de una prueba de laboratorio no son precisamente las probabilidades del árbol. Las preguntas que uno se hace en realidad son de la forma:
- “La prueba dió resultado negativo, ¿cuáles son las posibilidades de que en realidad esté infectado?”
- “La prueba dió resultado negativo, ¿cuáles son las posibilidades de que sea cierta (no estoy infectado)?”
- “La prueba dió resultado positivo, ¿cuáles son las posibilidades de que la prueba esté se haya equivocado?”
- “La prueba dió resultado positivo, ¿cuáles son las posibilidades de que el resultado sea correcto?”
Estas no son preguntas sobre la probabilidad de un resultado en el árbol, pero uno puede usar el árbol para entender lo que se debe calcular para poder responderlas.
Así es como funciona: Ejemplo con la pregunta (1).
Asumamos que queremos responder a la pregunta (1): “La prueba dió resultado negativo, ¿cuáles son las posibilidades de que en realidad esté infectado?”
En la pregunta (1) partimos del hecho de que la prueba dió un resultado negativo. Los siguientes (azul, líneas gruesas) son todos los caminos en el árbol con un resultado de prueba negativo:
Mirando el árbol, la pregunta que queremos responder es: De esos dos posibles caminos con resultado de prueba negativo, ¿cuáles son las posibilidades de que esté realmente en el camino superior (el que corresponde a estar realmente infectado)? Para responder simplemente se dividen las posibilidades:
$$ \frac{\text{probabilidad del camino infectado}}{\text{suma de las probabilidades de los caminos negativos}} =\frac{p\%(100\%-a\%)}{p\%(100\%-a\%)+(100\%-p\%)b\%} $$
¡Eso es todo! Esa es la probabilidad de estar infectado aunque uno haya recibido un resultado de prueba negativo:
$$ \begin{array}{c}\text{Probabilidad de tener}\\ \text{Covid-19 si la prueba da un}\\ \text{resultado negativo}\end{array}=\frac{p\%(100\%-a\%)}{p\%(100\%-a\%)+(100\%-p\%)b\%} $$
¿Cómo se ve esto con números reales?
Por ejemplo, digamos que la prueba PCR que se tomó tiene la sensibilidad $a\%=95\%$, y una especificidad $b\%=85\%$ (números posibles), entonces
$$ \begin{array}{c}\text{Probabilidad de tener}\\ \text{Covid-19 si la prueba da un}\\ \text{resultado negativo}\end{array}=\frac{p\%\times 5\%}{p\%\times 5\%+(100\%-p\%)\times 85\%} $$ … ¡todavía depende de $p$!
Bueno, ¿y si asumimos que las posibilidades en mi comunidad de estar infectado en ese momento en particular son $30\%$? Ahí si se obtiene un número: $$ \begin{array}{c}\text{Probabilidad de tener}\\ \text{Covid-19 si la prueba da un}\\ \text{resultado negativo}\\ \text{asumiendo $p=30$}\end{array}=\frac{30\%\times 5\%}{30\%\times 5\%+70\%\times 85\%}=2.459\% $$ ¡Es una probabilidad pequeña!
Pero ahora, digamos que tengo síntomas relacionados con Covid-19 y estuve con alguien que tuvo una prueba con resultado positivo. En ese caso, pensar que $p\%$ es $30\% $ parece ser un error, pues no soy un miembro de mi población seleccionado al azar. ¿Tal vez debería ser $80\%$? $$ \begin{array}{c}\text{Probabilidad de tener}\\ \text{Covid-19 si la prueba da un}\\ \text{resultado negativo}\\ \text{asumiendo $p=80$}\end{array}=\frac{80\%\times 5\%}{80\%\times 5\%+20\%\times 85\%}=19.05\% $$ Esto aumenta las posibilidades ….
Pero además, como $p$ varía con el tiempo y depende de mi entorno, tal vez en lugar de repetir este cálculo una y otra vez, ¡uno debería simplemente graficar la probabilidad en función de $p$!
Esta es la gráfica para una prueba con sensibilidad $a\% = 95 \%$, y especificidad $ b \% = 85 \% $:
En esa gráfica se pueden ver la probabilidades que calculamos para $p= 30 $ y $ p = 80 $. Tan sólo hay que seguirle la pista a la curva. Ver la gráfica que sigue:
Como puede comenzar a ver, ¡no es simple dar respuesta a las preguntas que uno se hace sobre los resultados de las pruebas Covid-19!
Gráficas para diferentes valores de $ a $ y $ b $
A continuación se muestra una gráfica interactiva de Desmos de la gráfica anterior que incluye deslizadores para la sensibilidad y especificidad $a$, $b$ de la prueba. Con ella puede ver cómo afectan $a$ y $b$ la curva que responde la pregunta (1) “La prueba dió resultado negativo, ¿cuáles son las posibilidades de que en realidad esté infectado?” (Puede que sea mejor abrir esto en su propia pantalla siguiendo este enlace)
Visite esta página si la gráfica interactiva no carga.
También puede generar gráficas para otros valores de $ a $ y $ b $ utilizando el
código de Tikz+PGFPlots que escribí para esta entrada de blog. Simplemente hay que cambiar los números en los comandos \pgfmathsetmacro{\SensA}{0.95}
y \pgfmathsetmacro{\SpecB}{0.85}
para ajustar los valores de $a$ y $b$ (se deben dar en forma decimal, no porcentajes) y ejecutar pdfLaTeX.
Probabilidad de infección $p$: probabilidad pre-prueba
Una cosa más antes de cerrar …
Como mencioné anteriormente, en vez de asumir que $p$ es el porcentaje de la población que está infectado, uno debería tener en cuenta la situación particular de la persona para la cual se está interpretando el resultado de la prueba.
Para la estimación de $p$, que depende de la persona y el momento, se debe considerar al menos:
- ¿Qué porcentaje de la población tiene Covid-19 en este momento? (No el porcentaje reportado, sino el valor verdadero esperado). Esta es la primera aproximación al valor de $p$.
- ¿La persona tiene síntomas? De ser así, se debe aumentar $p$.
- ¿La persona ha estado en contacto con alguien con síntomas o que tenga una prueba positiva? De ser así, se debe aumentar $p$.
- …
El valor final de $p$ es lo que a veces se llama la probabilidad de infección pre-prueba. Depende tanto del momento, como de la situación particular de la persona. Solo se puede estimar muy aproximadamente.
Teniendo ese valor, uno puede revisar el resultado de la prueba e interpretarla de acuerdo al resultado, ¡pero todo se basa en supuestos y estimaciones!
Además, está el asunto que no he tocado sobre el momento en el que se hizo la prueba en relación con el posible momento de infección … Los valores de $a$ y $b$ pueden cambiar para una prueba específica si es “demasiado temprano” o “demasiado tarde” para hacer la prueba. Se deben hacer estimaciones en todas partes …
¡Gráfico interactivo de Desmos de nuevo!
Bueno, ahora sí creo que esto cubre todo lo que se requiere para entender lo que se necesitó para generar las gráficas interactivas de desmos que dan las posibilidades de que los resultados de las pruebas Covid-19 sean verdaderos o falsos.
Incluyo la gráfica completa de nuevo a continuación.
¡Tantas partes móviles que es difícil de entender lo que está pasando! Intente pensar en un caso específico que le haya pasado, y revise lo que le diría en ese caso. También considere abrir las gráficas en una pantalla aparte en este link.
Visite esta página si la gráfica interactiva no carga.
¿Qué llevarse de todo esto?
- La probabilidad de que los resultados de una prueba de Covid-19 sean verdaderos o falsos depende de:
- La probabilidad inicial de infección $p$ (probabilidad previa a prueba de infección) que depende tanto del momento del tiempo como de la persona en particular.
- La sensibilidad y especificidad de la prueba.
- La sensibilidad y la especificidad son parámetros de “calidad” de probabilidad condicional para una prueba Covid-19 que son independientes de la población en la que se está haciendo la prueba.
- Sin embargo, la sensibilidad y la especificidad, no son completamente constantes, y pueden ser diferentes si es “demasiado temprano” o “demasiado tarde” para hacer la prueba.
- ¡La probabilidad de que el resultado de una prueba de Covid-19 sea verdadero o falso es distinta si el resultado de la prueba es positivo o negativo! ¡Tal vez esta última es una las cosas más importantes para recordar de esta entrada!