Estadística Inferencial: hipótesis

La inferencia estadística o estadística inferencial se refiere a un conjunto de métodos mediante los cuales podemos hacer afirmaciones con respecto a una población completa a partir únicamente de la observación de una parte de ella.

Dos formas básicas para realizar inferencia estadística son la estimación y el contraste de hipótesis, también llamado "prueba de hipótesis". Una hipótesis estadística es una afirmación con respecto a una distribución de probabilidad (por ejemplo, podríamos decir que un cierto fenómeno se comporta de forma que puede explicarse por una distribución binomial). En particular, una hipótesis estadística puede ser una afirmación con respecto a un parámetro (si sabemos que la distribución es binomial, entonces podríamos establecer la hipótesis de que la probabilidad de éxito es p = 0.5).

Un contraste estadístico de hipótesis es un procedimiento mediante el cual se compara lo propuesto por una hipótesis contra la evidencia empírica que proporciona la observación de datos provenientes de la población sobre la cual se hace la hipótesis. El título que se ha dado a esta discusión tiene qué ver con una cuestión básica en el contraste de hipótesis, por la cual podría considerarse que no es muy adecuado el nombre “prueba”. Lo anterior, porque este sustantivo podría dar al lector la impresión de que el procedimiento implica certeza, lo cual en estadística desde luego difícilmente se tiene.

Adicionalmente, una situación que suele causar dudas en los estudiantes que aprenden por primera vez el método de contraste estadístico de hipótesis con el enfoque de Neyman-Pearson es la de por qué se dice:

     No se rechaza la hipótesis nula

y no puede simplemente decirse

     Se acepta la hipótesis nula

Consideremos la siguiente situación, muy simplificada, pero que nos sirve para aclarar ideas:

Supongamos que se nos presenta una caja opaca y cerrada, dentro de la cual sabemos hay 100 canicas que pueden ser rojas, blancas o una mezcla de ambas. A nosotros nos interesa decir algo con respecto a todas las canicas dentro de la caja (son todas rojas, todas blancas o cuántas hay de cada tipo). ¿Cuál sería una forma completamente segura de hacerlo? Si tuviéramos la posibilidad de vaciar la caja, por ejemplo, y examinar el contenido completo, entonces sabríamos con toda certeza las condiciones que existen dentro de la caja; pero, ¿qué pasa entonces si por algún motivo no podemos examinar todo el contenido, aunque sí una parte de él?

Una forma de lidiar con la imposibilidad de examinar todo el contenido es hacer intervenir a la probabilidad. Supongamos que se nos dice que la caja contiene solamente canicas blancas, pero que nuestra suposición es que en realidad hay algunas rojas dentro.

Podemos plantear nuestro primer contraste de hipótesis prototipo de la siguiente forma:
H₀: En la caja solamente hay canicas blancas
H_a: En la caja hay al menos una canica roja

Ahora necesitamos contrastar nuestra hipótesis nula contra la evidencia que obtenemos al observar datos, para lo cual sacamos una pequeña cantidad de canicas de la caja (sin poder observar las demás) y examinamos su color.

Nuestro estadístico de prueba, al que llamaremos X, en este caso es el número de canicas rojas entre las extraídas. Dado que la aparición de al menos una canica roja haría completamente evidente que la hipótesis nula no es verdadera, la región de rechazo es R = {X ≥ 1}. Por tanto rechazaríamos la hipótesis nula si X ≥ 1.

Supongamos que las limitaciones de recursos nos permiten solamente extraer cinco canicas, lo cual hacemos, y observamos que TODAS son blancas.

Ahora surgen dos preguntas importantes:

¿Los datos observados contradicen la hipótesis nula?
Desde luego no lo hacen, porque el estadístico de la prueba no tomó un valor que estuviera dentro de la región de rechazo, es decir, ninguna de las canicas extraídas fue roja. En este punto estamos en la imposibilidad de comprobar nuestra suposición de que al menos algunas canicas de la caja son rojas, por lo cual lo más que podemos decir es: "No existe evidencia estadística en contra de H₀", con lo que justamente indicamos que la pequeña porción de la realidad que las limitaciones de recursos nos permitieron observar no está en desacuerdo con lo que dice la hipótesis nula. Hasta aquí, entonces, "No podemos rechazar H₀".

Por otro lado, el que ninguna de las canicas que extrajimos sea roja ¿DEMUESTRA que todas las de la caja son blancas?
Claro que no. La única manera en que nuestra observación demostraría que todas las canicas de la caja son blancas sería la situación en que las observáramos todas, lo cual inicialmente dijimos que no era posible.

Por tanto, aunque nuestra observación no contradice la hipótesis nula, tampoco la demuestra de manera irrefutable. En consecuencia, no sería correcto decir "Aceptamos que H₀ es verdadera", porque esto en realidad no nos consta.