Estadística Inferencial

martes, 27 de febrero de 2007

Práctica 04. Análisis de varianza para un experimento con dos factores

Descarga los archivos para la práctica:

Documento de la práctica (Prac04.pdf)

Datos sobre la producción por turnos (Turnos prod.sav) (en formato de SPSS)

Dale cinco estrellas a esta entrada si te parece interesante:

jueves, 22 de febrero de 2007

Las primeras 1,000 visitas

Esta bitácora tuvo el propósito inicial de servir como material de apoyo para los alumnos de mi curso de Estadística Inferencial de este semestre en la Universidad Autónoma de Aguascalientes; sin embargo, además de las veces que ellos se han conectado al sitio, contamos con la satisfacción de que internautas de lugares tan cercanos como Maravillas, en Jesús María, Aguascalientes (que dista apenas unos cinco kilómetros de nuestra universidad), hasta sitios tan lejanos (en el mapa, que no en las afinidades) como el Distrito Federal de Venezuela, Buenos Aires en Argentina o Andalucía en España, hayan tenido a bien favorecernos con una o más visitas.

Quienes hacemos posible la publicación de este blog queremos agradecer a todos nuestros visitantes que nos hayan acompañado hasta ahora, haciéndonos entrar en la lista de los 512 más leídos de Blogalaxia, México y llevándonos a estas primeras 1,000 visitas.

Esperamos seguir contando con su compañía, porque el semestre recién comienza. No duden en hacernos llegar sus comentarios y opiniones a la dirección de contacto y mientras tanto seguiremos trabajando con el mismo gusto e interés que hasta ahora.

Califica esta entrada de la bitácora:

miércoles, 21 de febrero de 2007

¿Prueba? de hipótesis

La inferencia estadística o estadística inferencial se refiere a un conjunto de métodos mediante los cuales podemos hacer afirmaciones con respecto a una población completa a partir únicamente de la observación de una parte de ella.

Dos formas básicas para realizar inferencia estadística son la estimación y el contraste de hipótesis, también llamado "prueba de hipótesis". Una hipótesis estadística es una afirmación con respecto a una distribución de probabilidad (por ejemplo, podríamos decir que un cierto fenómeno se comporta de forma que puede explicarse por una distribución binomial). En particular, una hipótesis estadística puede ser una afirmación con respecto a un parámetro (si sabemos que la distribución es binomial, entonces podríamos establecer la hipótesis de que la probabilidad de éxito es p = 0.5).

Un contraste estadístico de hipótesis es un procedimiento mediante el cual se compara lo propuesto por una hipótesis contra la evidencia empírica que proporciona la observación de datos provenientes de la población sobre la cual se hace la hipótesis. El título que se ha dado a esta discusión tiene qué ver con una cuestión básica en el contraste de hipótesis, por la cual podría considerarse que no es muy adecuado el nombre “prueba”. Lo anterior, porque este sustantivo podría dar al lector la impresión de que el procedimiento implica certeza, lo cual en estadística desde luego difícilmente se tiene.

Adicionalmente, una situación que suele causar dudas en los estudiantes que aprenden por primera vez el método de contraste estadístico de hipótesis con el enfoque de Neyman-Pearson es la de por qué se dice:

     No se rechaza la hipótesis nula

y no puede simplemente decirse

     Se acepta la hipótesis nula

Consideremos la siguiente situación, muy simplificada, pero que nos sirve para aclarar ideas:

Supongamos que se nos presenta una caja opaca y cerrada, dentro de la cual sabemos hay 100 canicas que pueden ser rojas, blancas o una mezcla de ambas. A nosotros nos interesa decir algo con respecto a todas las canicas dentro de la caja (son todas rojas, todas blancas o cuántas hay de cada tipo). ¿Cuál sería una forma completamente segura de hacerlo? Si tuviéramos la posibilidad de vaciar la caja, por ejemplo, y examinar el contenido completo, entonces sabríamos con toda certeza las condiciones que existen dentro de la caja; pero, ¿qué pasa entonces si por algún motivo no podemos examinar todo el contenido, aunque sí una parte de él?

Una forma de lidiar con la imposibilidad de examinar todo el contenido es hacer intervenir a la probabilidad. Supongamos que se nos dice que la caja contiene solamente canicas blancas, pero que nuestra suposición es que en realidad hay algunas rojas dentro.

Podemos plantear nuestro primer contraste de hipótesis prototipo de la siguiente forma:
H₀: En la caja solamente hay canicas blancas
H_a: En la caja hay al menos una canica roja

Ahora necesitamos contrastar nuestra hipótesis nula contra la evidencia que obtenemos al observar datos, para lo cual sacamos una pequeña cantidad de canicas de la caja (sin poder observar las demás) y examinamos su color.

Nuestro estadístico de prueba, al que llamaremos X, en este caso es el número de canicas rojas entre las extraídas. Dado que la aparición de al menos una canica roja haría completamente evidente que la hipótesis nula no es verdadera, la región de rechazo es R = {X ≥ 1}. Por tanto rechazaríamos la hipótesis nula si X ≥ 1.

Supongamos que las limitaciones de recursos nos permiten solamente extraer cinco canicas, lo cual hacemos, y observamos que TODAS son blancas.

Ahora surgen dos preguntas importantes:

¿Los datos observados contradicen la hipótesis nula?
Desde luego no lo hacen, porque el estadístico de la prueba no tomó un valor que estuviera dentro de la región de rechazo, es decir, ninguna de las canicas extraídas fue roja. En este punto estamos en la imposibilidad de comprobar nuestra suposición de que al menos algunas canicas de la caja son rojas, por lo cual lo más que podemos decir es: "No existe evidencia estadística en contra de H₀", con lo que justamente indicamos que la pequeña porción de la realidad que las limitaciones de recursos nos permitieron observar no está en desacuerdo con lo que dice la hipótesis nula. Hasta aquí, entonces, "No podemos rechazar H₀".

Por otro lado, el que ninguna de las canicas que extrajimos sea roja ¿DEMUESTRA que todas las de la caja son blancas?
Claro que no. La única manera en que nuestra observación demostraría que todas las canicas de la caja son blancas sería la situación en que las observáramos todas, lo cual inicialmente dijimos que no era posible.

Por tanto, aunque nuestra observación no contradice la hipótesis nula, tampoco la demuestra de manera irrefutable. En consecuencia, no sería correcto decir "Aceptamos que H₀ es verdadera", porque esto en realidad no nos consta.

Califica esta entrada de la bitácora:

lunes, 19 de febrero de 2007

Práctica 03

Descarga los archivos de la práctica:
Datos y ANVA de nueva ruta de autobuses

Datos de Rudduck Shampoo

Tomados de:
Lind, Douglas A.; Marchal, William G. & Mason, Robert D. Estadística para Administración y Economía. Alfaomega Colombiana, S. A. 11a. edición. Colombia 2004.

Definición de Estadística Inferencial

De acuerdo con el diccionario de la Real Academia Española, inferir significa "sacar una consecuencia o deducir algo de otra cosa".

El principal objetivo de la Estadística consiste en poder decir algo con respecto a un gran conjunto de personas, mediciones u otros entes (población) con base en las observaciones hechas sobre sólo una parte (muestra) de dicho gran conjunto. La capacidad para "decir algo" sobre poblaciones con base en muestras está basada en supuestos con respecto a algún modelo de probabilidad que permite explicar las características del fenómeno bajo observación.

Al conjunto de procedimientos estadísticos en los que interviene la aplicación de modelos de probabilidad y mediante los cuales se realiza alguna afirmación sobre poblaciones con base en la información producida por muestras se le llama Inferencia Estadística o Estadística Inferencial.

viernes, 16 de febrero de 2007

Estadísticos Destacados: Snedecor, George Waddel

George Waddell Snedecor (1882 -1974) nació en Memphis, Tennessee, EUA. Estudió matemáticas y física en las Universidades de Alabama y Michigan y posteriormente se convirtió en profesor de la Universidad Estatal de Iowa.

Trabajó en conjunto con Ronald Fisher y de dicha colaboración surgieron muchos de los resultados en los que se basa el análisis de varianza. Uno de sus textos más famosos es el de Cálculo e Interpretación del Análisis de Varianza y Covarianza, que publicó en 1934.

Traducido del sitio:
http://www.swlearning.com/quant/kohler/stat/ biographical_sketches/bio17.1.html Consultado el 16 de febrero de 2007.

¿Qué es PQRS?

PQRS son las siglas del software estadístico Probabilities, Quantiles and Random Samples, desarrollado por el Dr. Sytse Knypstra

Se trata de una herramienta informática que reemplaza el uso de tablas para el cálculo de probabilidades para las distribuciones más comunes, entre las que se encuentran:

Discretas

Bernoulli

Binomial

Uniforme

Poisson

Hipergeométrica

Continuas

Gamma

Exponencial

Normal

t de Student

F de Fisher-Snedecor

El programa también permite calcular probabilidades, cuantiles y realizar la generación de muestras de cada distribución que presenta.

Es una herramienta muy útil para un curso introductorio de probabilidad y para un primer curso de inferencia estadística.

Visita el sitio de PQRS del Doctor Knypstra

Descarga PQRS para Windows (95, 98, 2000 y XP)

miércoles, 14 de febrero de 2007

Estadísticos destacados: Gosset, William S., alias A. Student

William Sealey Gosset (1876-1937) desarrolló la prueba t para manejar muestras pequeñas para control de calidad en la elaboración de cerveza. Escribía bajo el seudónimo de "A. Student" (Un Estudiante), debido a que la compañía cervecera para la que trabajaba no permitía que sus empleados divulgaran los procesos utilizados en la fábrica.

Lee la biografía completa (en Inglés)

Traducido de:
O'Connor, John J & Robertson, Edmund F. Gosset,William Sealy, en Indexes of Biographies. MacTutor History of Mathematics. School of Mathematics and Statistics. Universidad de St Andrews, Escocia. http://www-history.mcs.st-andrews.ac.uk/Mathematicians/Gosset.html. Consultado el 14 feb 2007

Estadísticos destacados: Fisher, Ronald

Las contribuciones que aportó Fisher (1890-1962) incluyen el desarrollo de métodos adecuados para analizar información derivada de muestras pequeñas, el descubrimiento de las distribuciones precisas de muchos estadísticos muestrales y la invención del Análisis de Varianza.

Cita:
"Llamar al especialista en estadística después de haber hecho el experimento puede no significar más que pedirle que haga un análisis postmortem: es posible que sea capaz de decir a causa de qué murió el experimento"
Congreso Estadístico Hindú, 1938

Lee la biografía completa (en Inglés)

Traducido de:
O'Connor, John J & Robertson, Edmund F. Fisher, Sir Ronald, en Indexes of Biographies. MacTutor History of Mathematics. School of Mathematics and Statistics. Universidad de St Andrews, Escocia. http://www-history.mcs.st-andrews.ac.uk/Mathematicians/Fisher.html. Consultado el 14 feb 2007

Tabla de la distribución T de Student

Descarga la tabla de la distribución t de Student elaborada por el Departamento de Estadística del Centro de Ciencias Básicas (CCB) de la Universidad Autónoma de Aguascalientes (descarga directa del sitio del CCB).