Estadística Inferencial: febrero 2007

martes, 27 de febrero de 2007

Práctica 04. Análisis de varianza para un experimento con dos factores

Descarga los archivos para la práctica:

Documento de la práctica (Prac04.pdf)

Datos sobre la producción por turnos (Turnos prod.sav) (en formato de SPSS)

Dale cinco estrellas a esta entrada si te parece interesante:

jueves, 22 de febrero de 2007

Las primeras 1,000 visitas

Esta bitácora tuvo el propósito inicial de servir como material de apoyo para los alumnos de mi curso de Estadística Inferencial de este semestre en la Universidad Autónoma de Aguascalientes; sin embargo, además de las veces que ellos se han conectado al sitio, contamos con la satisfacción de que internautas de lugares tan cercanos como Maravillas, en Jesús María, Aguascalientes (que dista apenas unos cinco kilómetros de nuestra universidad), hasta sitios tan lejanos (en el mapa, que no en las afinidades) como el Distrito Federal de Venezuela, Buenos Aires en Argentina o Andalucía en España, hayan tenido a bien favorecernos con una o más visitas.

Quienes hacemos posible la publicación de este blog queremos agradecer a todos nuestros visitantes que nos hayan acompañado hasta ahora, haciéndonos entrar en la lista de los 512 más leídos de Blogalaxia, México y llevándonos a estas primeras 1,000 visitas.

Esperamos seguir contando con su compañía, porque el semestre recién comienza. No duden en hacernos llegar sus comentarios y opiniones a la dirección de contacto y mientras tanto seguiremos trabajando con el mismo gusto e interés que hasta ahora.

Califica esta entrada de la bitácora:

miércoles, 21 de febrero de 2007

¿Prueba? de hipótesis

La inferencia estadística o estadística inferencial se refiere a un conjunto de métodos mediante los cuales podemos hacer afirmaciones con respecto a una población completa a partir únicamente de la observación de una parte de ella.

Dos formas básicas para realizar inferencia estadística son la estimación y el contraste de hipótesis, también llamado "prueba de hipótesis". Una hipótesis estadística es una afirmación con respecto a una distribución de probabilidad (por ejemplo, podríamos decir que un cierto fenómeno se comporta de forma que puede explicarse por una distribución binomial). En particular, una hipótesis estadística puede ser una afirmación con respecto a un parámetro (si sabemos que la distribución es binomial, entonces podríamos establecer la hipótesis de que la probabilidad de éxito es p = 0.5).

Un contraste estadístico de hipótesis es un procedimiento mediante el cual se compara lo propuesto por una hipótesis contra la evidencia empírica que proporciona la observación de datos provenientes de la población sobre la cual se hace la hipótesis. El título que se ha dado a esta discusión tiene qué ver con una cuestión básica en el contraste de hipótesis, por la cual podría considerarse que no es muy adecuado el nombre “prueba”. Lo anterior, porque este sustantivo podría dar al lector la impresión de que el procedimiento implica certeza, lo cual en estadística desde luego difícilmente se tiene.

Adicionalmente, una situación que suele causar dudas en los estudiantes que aprenden por primera vez el método de contraste estadístico de hipótesis con el enfoque de Neyman-Pearson es la de por qué se dice:

     No se rechaza la hipótesis nula

y no puede simplemente decirse

     Se acepta la hipótesis nula

Consideremos la siguiente situación, muy simplificada, pero que nos sirve para aclarar ideas:

Supongamos que se nos presenta una caja opaca y cerrada, dentro de la cual sabemos hay 100 canicas que pueden ser rojas, blancas o una mezcla de ambas. A nosotros nos interesa decir algo con respecto a todas las canicas dentro de la caja (son todas rojas, todas blancas o cuántas hay de cada tipo). ¿Cuál sería una forma completamente segura de hacerlo? Si tuviéramos la posibilidad de vaciar la caja, por ejemplo, y examinar el contenido completo, entonces sabríamos con toda certeza las condiciones que existen dentro de la caja; pero, ¿qué pasa entonces si por algún motivo no podemos examinar todo el contenido, aunque sí una parte de él?

Una forma de lidiar con la imposibilidad de examinar todo el contenido es hacer intervenir a la probabilidad. Supongamos que se nos dice que la caja contiene solamente canicas blancas, pero que nuestra suposición es que en realidad hay algunas rojas dentro.

Podemos plantear nuestro primer contraste de hipótesis prototipo de la siguiente forma:
H₀: En la caja solamente hay canicas blancas
H_a: En la caja hay al menos una canica roja

Ahora necesitamos contrastar nuestra hipótesis nula contra la evidencia que obtenemos al observar datos, para lo cual sacamos una pequeña cantidad de canicas de la caja (sin poder observar las demás) y examinamos su color.

Nuestro estadístico de prueba, al que llamaremos X, en este caso es el número de canicas rojas entre las extraídas. Dado que la aparición de al menos una canica roja haría completamente evidente que la hipótesis nula no es verdadera, la región de rechazo es R = {X ≥ 1}. Por tanto rechazaríamos la hipótesis nula si X ≥ 1.

Supongamos que las limitaciones de recursos nos permiten solamente extraer cinco canicas, lo cual hacemos, y observamos que TODAS son blancas.

Ahora surgen dos preguntas importantes:

¿Los datos observados contradicen la hipótesis nula?
Desde luego no lo hacen, porque el estadístico de la prueba no tomó un valor que estuviera dentro de la región de rechazo, es decir, ninguna de las canicas extraídas fue roja. En este punto estamos en la imposibilidad de comprobar nuestra suposición de que al menos algunas canicas de la caja son rojas, por lo cual lo más que podemos decir es: "No existe evidencia estadística en contra de H₀", con lo que justamente indicamos que la pequeña porción de la realidad que las limitaciones de recursos nos permitieron observar no está en desacuerdo con lo que dice la hipótesis nula. Hasta aquí, entonces, "No podemos rechazar H₀".

Por otro lado, el que ninguna de las canicas que extrajimos sea roja ¿DEMUESTRA que todas las de la caja son blancas?
Claro que no. La única manera en que nuestra observación demostraría que todas las canicas de la caja son blancas sería la situación en que las observáramos todas, lo cual inicialmente dijimos que no era posible.

Por tanto, aunque nuestra observación no contradice la hipótesis nula, tampoco la demuestra de manera irrefutable. En consecuencia, no sería correcto decir "Aceptamos que H₀ es verdadera", porque esto en realidad no nos consta.

Califica esta entrada de la bitácora:

lunes, 19 de febrero de 2007

Práctica 03

Descarga los archivos de la práctica:
Datos y ANVA de nueva ruta de autobuses

Datos de Rudduck Shampoo

Tomados de:
Lind, Douglas A.; Marchal, William G. & Mason, Robert D. Estadística para Administración y Economía. Alfaomega Colombiana, S. A. 11a. edición. Colombia 2004.

Definición de Estadística Inferencial

De acuerdo con el diccionario de la Real Academia Española, inferir significa "sacar una consecuencia o deducir algo de otra cosa".

El principal objetivo de la Estadística consiste en poder decir algo con respecto a un gran conjunto de personas, mediciones u otros entes (población) con base en las observaciones hechas sobre sólo una parte (muestra) de dicho gran conjunto. La capacidad para "decir algo" sobre poblaciones con base en muestras está basada en supuestos con respecto a algún modelo de probabilidad que permite explicar las características del fenómeno bajo observación.

Al conjunto de procedimientos estadísticos en los que interviene la aplicación de modelos de probabilidad y mediante los cuales se realiza alguna afirmación sobre poblaciones con base en la información producida por muestras se le llama Inferencia Estadística o Estadística Inferencial.

viernes, 16 de febrero de 2007

Estadísticos Destacados: Snedecor, George Waddel

George Waddell Snedecor (1882 -1974) nació en Memphis, Tennessee, EUA. Estudió matemáticas y física en las Universidades de Alabama y Michigan y posteriormente se convirtió en profesor de la Universidad Estatal de Iowa.

Trabajó en conjunto con Ronald Fisher y de dicha colaboración surgieron muchos de los resultados en los que se basa el análisis de varianza. Uno de sus textos más famosos es el de Cálculo e Interpretación del Análisis de Varianza y Covarianza, que publicó en 1934.

Traducido del sitio:
http://www.swlearning.com/quant/kohler/stat/ biographical_sketches/bio17.1.html Consultado el 16 de febrero de 2007.

¿Qué es PQRS?

PQRS son las siglas del software estadístico Probabilities, Quantiles and Random Samples, desarrollado por el Dr. Sytse Knypstra

Se trata de una herramienta informática que reemplaza el uso de tablas para el cálculo de probabilidades para las distribuciones más comunes, entre las que se encuentran:

Discretas

Bernoulli

Binomial

Uniforme

Poisson

Hipergeométrica

Continuas

Gamma

Exponencial

Normal

t de Student

F de Fisher-Snedecor

El programa también permite calcular probabilidades, cuantiles y realizar la generación de muestras de cada distribución que presenta.

Es una herramienta muy útil para un curso introductorio de probabilidad y para un primer curso de inferencia estadística.

Visita el sitio de PQRS del Doctor Knypstra

Descarga PQRS para Windows (95, 98, 2000 y XP)

miércoles, 14 de febrero de 2007

Estadísticos destacados: Gosset, William S., alias A. Student

William Sealey Gosset (1876-1937) desarrolló la prueba t para manejar muestras pequeñas para control de calidad en la elaboración de cerveza. Escribía bajo el seudónimo de "A. Student" (Un Estudiante), debido a que la compañía cervecera para la que trabajaba no permitía que sus empleados divulgaran los procesos utilizados en la fábrica.

Lee la biografía completa (en Inglés)

Traducido de:
O'Connor, John J & Robertson, Edmund F. Gosset,William Sealy, en Indexes of Biographies. MacTutor History of Mathematics. School of Mathematics and Statistics. Universidad de St Andrews, Escocia. http://www-history.mcs.st-andrews.ac.uk/Mathematicians/Gosset.html. Consultado el 14 feb 2007

Estadísticos destacados: Fisher, Ronald

Las contribuciones que aportó Fisher (1890-1962) incluyen el desarrollo de métodos adecuados para analizar información derivada de muestras pequeñas, el descubrimiento de las distribuciones precisas de muchos estadísticos muestrales y la invención del Análisis de Varianza.

Cita:
"Llamar al especialista en estadística después de haber hecho el experimento puede no significar más que pedirle que haga un análisis postmortem: es posible que sea capaz de decir a causa de qué murió el experimento"
Congreso Estadístico Hindú, 1938

Lee la biografía completa (en Inglés)

Traducido de:
O'Connor, John J & Robertson, Edmund F. Fisher, Sir Ronald, en Indexes of Biographies. MacTutor History of Mathematics. School of Mathematics and Statistics. Universidad de St Andrews, Escocia. http://www-history.mcs.st-andrews.ac.uk/Mathematicians/Fisher.html. Consultado el 14 feb 2007

Tabla de la distribución T de Student

Descarga la tabla de la distribución t de Student elaborada por el Departamento de Estadística del Centro de Ciencias Básicas (CCB) de la Universidad Autónoma de Aguascalientes (descarga directa del sitio del CCB).

martes, 13 de febrero de 2007

Tabla de la distribución F de Fisher-Snedecor

Descarga aquí la tabla de la distribución F de Fisher-Snedecor elaborada por el Departamento de Estadística del Centro de Ciencias Básicas (CCB) de la Universidad Autónoma de Aguascalientes (descarga directa desde el sitio del CCB).

Si lo prefieres, descarga la tabla de la distribución F de Fisher-Snedecor desde FileDen (la misma tabla de la liga anterior, pero tal vez más rápido).

Práctica 02

Resuelva los siguientes ejercicios utilizando el módulo de análisis de varianza unifactorial de Excel de Microsoft ©.
(Problemas tomados de Lind, Douglas A.; Marchal, William, G. & Mason, Robert D. Estadística para administración y economía. Alfaomega Colombiana, S. A. Colombia 2004.

Se tiene un nuevo limpiador de uso múltiple cuya demanda se prueba exhibiéndolo en tres lugares diferentes dentro de diversos supermercados. A continuación se muestra el número de botellas de 12 onzas de "Limpiatodo" cuya venta se realizó en cada ubicación.
```
 Lugar                       Ventas
--------------------------------------
Cerca del pan              20 15 24 18
Cerca de las cervezas      12 18 10 15
Cerca de otros limpiadores 25 28 30 32
```
¿Existen diferencias entre los promedios de botellas vendidas en las tres ubicaciones? Utilice α = 0.05.
Para resolverlo:
1. Plantee la hipótesis nula y la alternativa
2. ¿Cuál es la región de rechazo?
3. ¿Cuál es la regla de conclusión
4. Calcule la tabla de ANOVA con Excel
Descarga estos datos en formato Excel

El gerente de una compañía de programas para computadoras desea analizar, de acuerdo con el tipo de industria, la cantidad de horas que los ejecutivos de alto nivel pasan frente a sus computadoras. Se obtuvo una muestra de cinco ejecutivos de cada una de las tres industrias. Al nivel de significancia de 0.01, ¿puede concluirse que existe una diferencia, entre las empresas, en el número promedio de horas por semana que los ejecutivos dedican a trabajar en sus computadoras?
```
Banca Comercio    Seguros
      al menudeo
-----------------------------
 12      8          10
 10      8           8
 10      6           6
 12      8           8
 10     10          10
```
Descarga estos datos en formato Excel

viernes, 9 de febrero de 2007

Formularios

Descarga los formularios para el curso:

Formulario de Probabilidad Básica o bien, usa este sitio alterno

Formulario de Diseño de Experimentos, o bien, descárgalo de este sitio alterno

Todos estos formularios fueron elaborados por los profesores del Departamento de Estadística del Centro de Ciencias Básicas de la Universidad Autónoma de Aguascalientes.

jueves, 8 de febrero de 2007

Cita esta bitácora

El material publicado en esta bitácora puede ser utilizado sin fines de lucro. Se agradecerá citar el blog cuando se utilice material aquí contenido.

La siguiente es una cita de esta entrada de la bitácora en el Estilo Chicago, como debería lucir si la consulta se hubiera realizado el día en que se escribió este post.

Editores de la Bitácora Estadística Inferencial, "Cita esta bitácora" en Estadística Inferencial, http://eilae12007.blogspot.com/2007/02/cita-este-blog.html (consultado el 08 de febrero de 2007).

(El resaltado de texto es de Estadística Inferencial)

Aviso legal

Todo el material de esta bitácora electrónica o blog incluyendo, pero sin limitarse a, los textos, ejemplos, datos, imágenes y apuntes se proporciona sin costo y "tal como está". Los editores del blog realizan su mejor esfuerzo, dentro de sus posibilidades, por mantener el contenido en un nivel general que sea adecuado para el curso para el que está planeado; pero niegan cualquier garantía, implícita o explícita, con respecto a la exactitud, integridad y grado de actualización de la información aquí presentada.

Cuando se haga uso de un nombre comercial o marca registrada, ello se indicará con el símbolo de derechos reservados o copyright, ©. Las marcas y nombres comerciales se utilizan únicamente como referencia y sin fines de lucro y pertenecen a sus respectivos propietarios.

Apuntes del curso

Descarga los apuntes del curso actualizados al 26 de marzo 2007
(Para ser precisos, falta parte de las notas referente a análisis de varianza para diseños aleatorizados por bloques y bifactorial. Estaremos completando esta parte en días próximos)

Nuestro curso estará en desarrollo de enero a junio de 2007. En ese lapso habrá actualizaciones periódicas de estas notas. La actualización de las notas incluye lo visto en clase hasta el viernes de la semana anterior.

Recuerda nuestro Aviso Legal.

¿Te parece útil el contenido de la bitácora? Entonces ayúdanos citando el blog

martes, 6 de febrero de 2007

Tarea 02

Descarga esta tarea en formato de texto

Resuelva los siguientes problemas y entréguelos por escrito el día jueves 08 de enero de 2007, al inicio de la clase.

Se realizó un experimento para comparar los precios de un producto (de una marca particular) en cuatro lugares de una ciudad. Se obtuvo muestras aleatorias de tamaño 4 en los lugares 1, 2 y 3, pero solamente se obtuvo una muestra de tamaño 2 en el lugar 4 (sólo dos tiendas ofrecieron el producto). Note que dado que se utilizó muestreo aleatorio, se utilizó un diseño completamente aleatorizado. Utilice Excel para realizar un análisis de varianza para los datos que se muestra en la siguiente tabla. Indique su conclusión en el contexto del problema con base en dicho procedimiento estadístico.
```
            Lugar   
           ---------
      Obs. 1   2  3  4
      -----------------
       1  59  58  54 69
       2  63  61  59 70
       3  65  64  55 
       4  61  63  58 

    
```
Descarga aquí la solución al problema de ANVA de precios de un producto en distintas ubicaciones en formato Excel©

A continuación se muestra una tabla de ANOVA para un diseño completamente aleatorizado.
```
    Fuente      SC     gl   CM    F
    --------------------------------
    Tratamiento 26.3   4  
    Error       52.8   
    Total              29      
    
```
1. ¿Cuántas muestras independientes se usó en el experimento?
2. ¿Proporciona la tabla ANOVA la información necesaria para determinar los tamaños de cada muestra?
3. ¿Cuántas observaciones se incluyó en el diseño completo?
4. Complete la tabla ANOVA
5. Concluya sobre la información que proporciona la tabla si se fija un nivel de significancia alfa = 0.05.
6. ¿Cuál es el Valor-p de la prueba?

(Problemas tomados de Mendenhall, William.Estadística para administradores. Grupo Editorial Iberoamérica. México 1988. pp. 354-355)

Dale cinco estrellas a esta entrada si te parece interesante:

Tarea 01

Recuerde que la Tarea 01 consistió en leer el artículo que se encuentra en esta liga, a fin de discutir su contenido en clase.

lunes, 5 de febrero de 2007

Temario

Descarga el temario en formato de texto

Recuérdese que el Programa oficial del curso se entregó durante la primera semana del mismo. A ese documento se debe referir siempre que exista alguna duda respecto al contenido particular. En cualquier situación que existiese duda, prevalecerá lo establecido en el Programa oficial del curso. El actual temario se ofrece únicamente con la finalidad de servir como referencia.

Contenido del curso

Análisis de experimentos

Conceptos básicos del diseño de experimentos en la solución de problemas de su área

Diseño de bloques aleatorizados en la solución de problemas sencillos de su área de estudio

Diseño factorial en solución de problemas sencillos de su área de estudio

Regresión lineal simple

Propiedades y estructura de la covarianza y correlación entre variables

Características, principios y propósitos del Análisis de Regresión Simple

Realizará pruebas de hipótesis para los parámetros del modelo de regresión lineal simple

Valorará los supuestos básicos del modelo de regresión

Identificará observaciones influyentes

Regresión lineal múltiple

Características del Análisis de Regresión Múltiple

Pruebas de significancia en el modelo de regresión múltiple

Valoración de ajuste y supuestos básicos del modelo de regresión múltiple

viernes, 2 de febrero de 2007

Análisis de varianza de la altura de estantes

Descarga la tabla de análisis de varianza para el ejemplo de altura de estantes en formato Excel aquí.

Se concluye que existe evidencia estadística de que las ventas promedio diarias no son iguales para las tres alturas a las que se colocó el estante.

Altura de estantes

Descarga estos datos en formato texto

Descarga el problema y los datos en formato de texto

Con el fin de investigar el efecto de la altura de los estantes en un supermercado sobre las ventas de los alimentos para perro Arf, se llevó a cabo un experimento consistente en utilizar tres niveles para el estante: a la rodilla, a la cintura y a los ojos. Durante un periodo de 8 días, la altura del estante se cambió aleatoriamente en tres ocasiones cada día. A las secciones restantes de la góndoloa que contenía la marca de interés se les llenó con latas de otras marcas de alimento para perro que eran familiares y no familiares para los compradores de la región.
La tabla siguiente muestra las ventas, en cientos de dólares, para cada nivel del estante en cada uno de los ocho días. ¿Existe evidencia estadística contra la suposición de que los valores promedio de venta son iguales para los distintos niveles en los que se colocó el estante?


             Altura del estante
            ---------------------
Observación Rodilla Cintura Ojos
---------------------------------
     1        77      88      85
     2        82      94      85
     3        86      93      87
     4        78      90      81
     5        81      91      80
     6        86      94      79
     7        77      90      87
     8        81      87      93