Good Limits from Bad
Data
Existen formas correctas e incorrectas de calcular
los límites. Muchas publicaciones técnicas y muchos programas informáticos
utilizan métodos incorrectos.
Parte I: Buenos límites a partir
de datos erróneos
Charles, de la oficina central, estaba presionando al
gerente de la planta para que comenzara a utilizar gráficos de control. El
gerente de la planta no sabía por dónde empezar, así que le preguntó qué debería
trazar. Charles respondió que tal vez quisiera comenzar con los datos que ya
estaban recopilando en la planta.
Para empezar, revisaron la hoja de registro para los
datos, un registro en el que los operadores habían anotado los datos sin orden.
Charles comenzó a trazar los datos en una hoja de papel cuadriculado. Después
de llenar la primera página, calculó los límites para un gráfico XmR. Por
supuesto, el gráfico estaba fuera de control y el proceso era impredecible.
Aunque cada dato se anotaba, el registro no les permitía observar datos consistentes.
Los datos impredecibles significaban que el comportamiento de las observaciones
cambiaba de manera impredecible, lo que se traducía en una sensación poco
estable del proceso.
¿Cómo pudo Charles determinar que el proceso era
impredecible cuando estaba usando los datos reales del proceso para calcular
los límites?
La respuesta tiene que ver con la forma en que se
calculan los límites. Existen formas correctas e incorrectas de calcular los límites.
Esta columna ilustra esta diferencia para el gráfico XmR.
Tabla
# 1: Observaciones:
920 |
925 |
830 |
855 |
905 |
925 |
945 |
915 |
940 |
940 |
910 |
860 |
865 |
985 |
970 |
940 |
975 |
1,000 |
1,035 |
1,040 |
|
La línea central del gráfico X es, por lo general,
el promedio de los valores individuales. Para estos 20 valores, el promedio es
934 (también se puede usar la mediana como línea central).
Ambos métodos correctos para calcular los límites
del gráfico XmR comienzan con el cálculo de los rangos móviles. Los rangos móviles
son las diferencias entre valores sucesivos. Por convención, siempre son
positivos.
Para los 20 datos
anteriores, los 19 rangos móviles son:
Tabla
# 2: Rangos:
|
5 |
95 |
25 |
50 |
20 |
20 |
30 |
25 |
0 |
30 |
50 |
5 |
120 |
15 |
30 |
35 |
25 |
35 |
5 |
|
Método Correcto # 1:
El método más común para calcular los límites de los
gráficos XmR es utilizar el rango móvil promedio, que se suele denotar con uno
de los símbolos: R o mR.
Los límites para el gráfico
X se hallarán multiplicando el rango móvil promedio por el factor de
escala de 2.660 y, a continuación, sumando y restando este producto de la línea
central. Para estos datos, el rango móvil promedio es: mR = 32.6, por lo que al multiplicar
por 2.660 se obtiene 86.8, y los límites para los
valores individuales se establecen en: 934 ± 86.8 = 847.2 a 1,020.8.
El límite superior del gráfico de rango móvil
se obtiene multiplicando el rango móvil promedio por el factor de escala 3.27. Para estos datos, este límite
es 106.7. La Figura 1 muestra el gráfico
XmR para estos 20 datos.
Figura # 1:
En el gráfico X (Figura # 1), se muestran tres señales de ruido o datos separados con variación impredecible, ya que se utilizaron los datos del proceso para calcular los límites.
El otro método correcto para calcular los límites de
un gráfico de valores individuales es utilizar el rango móvil de la mediana,
que se suele denotar con uno de los símbolos: R o mR. Los límites para el gráfico
X se pueden encontrar multiplicando el rango móvil medio por el factor de
escala de 3.14 y luego sumando y restando este producto de la línea
central. Para estos 19 rangos móviles, el rango móvil medio es mR = 25.
Al multiplicar por el factor de escala de 3.14 se obtiene 78.5 y los límites
para el gráfico X se establecen en: 934
± 78.5 = 855.5 a 1,012.5. El límite superior para el gráfico mR es: 3.87 x 25 = 96.8.
Estos límites son ligeramente más amplios que los de
la Figura
1. Sin embargo, los mismos puntos que quedaron fuera de los límites de la
Figura 1, también están quedando fuera de los límites basados en el rango móvil
medio. No existe ninguna diferencia práctica entre estos dos conjuntos de límites
calculados correctamente.
Un método Incorrecto:
Un método común, pero incorrecto, para calcular los
límites de un gráfico X es utilizar alguna medida de dispersión que se calcula
utilizando todos los datos. Por ejemplo, los 20 datos se podrían introducir en
una calculadora estadística o en una hoja de cálculo y se podría calcular la
desviación estándar, que para este conjunto de datos es "s", s = 56.68.
Luego, este número se multiplica erróneamente por 3.0
(desviaciones estándar) y el producto se suma y se resta a la línea central
para obtener límites incorrectos para el gráfico X: 934 ± (3*56.68)
= Límite Inferior =
764 a Límite Superior =
1,104.
Figura 2: Muestra estos límites, según 3 σ
Esta es una metodología de cálculo de una medida de
dispersión, más que una elección de qué metodología utilizar para evaluar
nuestra dispersión de datos consistentemente.
Conclusión
Las formas correctas de calcular los límites nos
permitirán detectar las “señales” dentro de los datos, a pesar de que estemos utilizado
datos fuera de límites de control en nuestros cálculos. Siempre se basan en una
estadística de dispersión de datos de media (promedio) o mediana.
Las formas incorrectas de calcular los límites
inevitablemente darán como resultado límites inflados y, por lo tanto, tienden
a ocultar las señales que estamos buscando. Las formas incorrectas tienden a
basarse en una única medida de dispersión que se calculó utilizando todos los
datos.
Esta distinción entre las formas correctas e
incorrectas de calcular límites no se ha aclarado en la mayoría de los libros
sobre SPC. Aún muchos artículos y software estadísticos utilizan métodos
incorrectos, debido a la falta de experiencia durante años. La enseñanza del SPC
está fuera de control.
|
|
En esta parte mostramos la diferencia entre las
formas correctas e incorrectas de calcular límites para gráficos promedio.
Comenzamos con un conjunto de datos que consta de k
= 6 subgrupos de tamaño n = 4
Tabla
# 3: Datos de 6 subgrupos, con 4 tipos de datos (tamaño del subgrupo = 4)
Subgrupo |
1 |
2 |
3 |
4 |
5 |
6 |
Datos |
4 |
0 |
8 |
6 |
3 |
8 |
5 |
2 |
4 |
9 |
2 |
7 |
|
5 |
1 |
3 |
9 |
0 |
9 |
|
4 |
5 |
7 |
7 |
3 |
9 |
|
Promedio |
4.5 |
2.0 |
5.5 |
7.75 |
2.0 |
8.25 |
Rangos |
1 |
5 |
5 |
3 |
3 |
2 |
La línea central del gráfico de promedios (gráfico
de barras X) se considera comúnmente como el promedio general. Para estos
datos, el promedio general es 5.00.
Gráficos X barra (promedio)
bien hechos
El método más común para calcular los límites de los
gráficos de promedios es utilizar el rango promedio. Los límites del gráfico
de promedios se pueden encontrar multiplicando el rango promedio por el factor
de escala A2 y luego sumando y restando este producto de la línea
central.
El rango promedio (del total de datos) es 3.167 y el valor de A2 (ver tabla) del tamaño del subgrupo n = 4 es A2
= 0.729, y los límites de control del
gráfico X barra son: 5.00 ± 2.31 = 2.69 a 7.31.
En lugar de utilizar A2 multiplicado por el rango promedio, puede utilizar cualquiera de varias alternativas siempre que utilice los factores de escala correctos. Algunas sustituciones adecuadas son:
- A4 multiplicado por la mediana
del rango (2.27)
- A1 multiplicado por el
promedio de la raíz cuadrada promedio de la desviación (2.44)
- A3 multiplicado por el
promedio de la desviación estándar (2.44).
Si bien existen otras alternativas válidas, las
cuatro anteriores son las que se utilizan con más frecuencia. Las tablas de los
factores de escala se encuentran en la mayoría de los libros de texto sobre
SPC. Independientemente de cuál de las alternativas utilice, el gráfico es el
mismo: los subgrupos 2 y 5 tienen promedios por debajo del límite inferior, y
los subgrupos 4 y 6 tienen promedios por encima del límite superior.
Por lo tanto, todas las formas correctas de calcular
los límites para un gráfico de promedios permiten obtener buenos límites para
medir datos erróneos, es decir, podemos detectar la falta de control estadístico
incluso aunque estemos utilizando los datos fuera de control para calcular los
límites.
Por supuesto, esta propiedad está sujeta al
requisito de que la sub-agrupación sea racional, es decir, que cada subgrupo
sea lógicamente homogéneo. Como observó Shewhart, la cuestión de la sub-agrupación
es esencialmente una cuestión de criterio. Basándonos en el contexto de
los datos, poder argumentar que los valores recopilados en conjunto dentro de
cualquier subgrupo pueden considerarse como si hubieran sido recopilados en las
mismas condiciones.
Gráficos X barra (promedio)
mal hechos
El error más común que se comete al calcular los límites
para un gráfico de promedios es el uso de una única medida de dispersión
calculada utilizando todos los datos. Si se ingresaran los 24 valores en una
hoja de cálculo o un software estadístico y se calculara la desviación estándar,
y obtendríamos el valor: s
= 2.904.
Cuando se utiliza (de manera inapropiada) esta medida global de
dispersión para calcular los límites de un gráfico promedio se divide por la raíz
cuadrada del tamaño del subgrupo y se multiplica por 3,0. Esto daría como
resultado un valor de 4.356, lo que arrojaría límites
incorrectos para el gráfico promedio de: 5.00 ± 4.36 = 0.64 a 9.36.
Este método de cálculo de límites para el gráfico de
promedios es incorrecto porque da como resultado límites que no detectan las señales
contenidas en los datos.
Este enfoque le proporciona límites incorrectos a
partir de datos incorrectos porque el cálculo de una única medida de dispersión
utilizando todos los datos supone implícitamente que los datos son globalmente
homogéneos. En resumen, este cálculo supone que no existe la posibilidad de que
haya señales dentro de los datos y, por lo tanto, se asegura de que no
encuentre ninguna señal.
Los Gráficos X barra (promedio) muy mal hechos
El segundo error más común al calcular los límites
para un gráfico de promedios es el uso de una única medida de dispersión
calculada utilizando todos los promedios de los subgrupos.
Si los promedios de los seis subgrupos se ingresaran
en una hoja de cálculo o en una calculadora estadística y se calculara la
desviación estándar, obtendríamos el valor:
s
= 2.706. Debido a que esta es la desviación estándar de los promedios de los
subgrupos, se multiplica (inapropiadamente) por 3.0 y se utiliza para
construir límites incorrectos para el gráfico de promedios de: 5.00 ± (3.0) (2.706) = 5.00
± 8.12 = 3.12 a 13.12.
Conclusión
La única forma de obtener buenos límites a partir de
datos erróneos es utilizar los métodos estadísticos correctos. Todos estos métodos
correctos se basan en una estadística de dispersión promedio o una estadística
de dispersión mediana y el factor de escala adecuado.
Los métodos erróneos tienden a basarse en una única
medida de dispersión calculada en una sola pasada, utilizando todos los datos o
todos los promedios de los subgrupos.
La distinción entre las formas correctas e
incorrectas de calcular los límites fue hecha por primera vez por Shewhart en
la página 302 de su libro, Economic Control of Quality of Manufactured Product
(ASQC Quality Press).
¿Cómo se puede saber la diferencia?
Se puede utilizar cualquier
conjunto de datos fuera de control para evaluar los softwares estadísticos:
deben coincidir con los límites calculados manualmente.
Se pueden observar las fórmulas
o los cálculos utilizados: si los límites se basan en cualquier medida de
dispersión que no tenga una barra encima, entonces los límites son incorrectos.
Parte III: Buenos Límites para
malos datos
Cuando
usar el muestreo racional y la sub-agrupación racional, obtendrá gráficos
poderosos.
Ahora
me gustaría analizar cómo puede hacer que los gráficos funcionen para usted.
El cálculo
de los límites de control no es el final del ejercicio, sino más bien el
comienzo. La principal ventaja de los gráficos de control es la forma en que
permiten a las personas separar de manera confiable las señales potenciales del
ruido probable que es común en todos los tipos de datos. Esta capacidad de
caracterizar el comportamiento de un proceso como predecible o impredecible y,
por lo tanto, saber cuándo intervenir y cuándo no, es el resultado real del uso
de los gráficos de Shewhart. Los cálculos son parte de las técnicas, pero el
objetivo real es la comprensión, no los números.
Para
este fin, deberá organizar sus datos de manera apropiada para obtener la
comprensión. Esta organización adecuada de los datos se ha denominado muestreo
racional y sub-agrupamiento racional.
En primer lugar, debe conocer
el contexto de los datos. Esto implica los detalles de cómo se obtuvieron los
datos, así como cierta apreciación del proceso o las operaciones representadas
por los datos.
El
muestreo racional implica recopilar datos de tal manera que las características
interesantes del proceso sean evidentes en los datos. Por ejemplo, si está
interesado en evaluar el impacto de una nueva política en las operaciones de
una sola oficina, deberá recopilar datos que pertenezcan a esa oficina, en
lugar de a una región entera.
El
subagrupamiento racional tiene que ver con la forma en que se organizan los
datos con fines de graficarlos. Esto está estrechamente vinculado con las
formas correctas de calcular los límites. Con gráficos de promedio y rango (Gráficos
de y R), habrá “k” subgrupos de datos. La forma correcta
de calcular los límites para estos gráficos implica el cálculo de alguna medida
de dispersión dentro de cada subgrupo (como el Rango para cada subgrupo). Estas “k” medidas se combinan luego en una medida
promedio de dispersión (como el - Rango promedio) o una medida de la mediana de dispersión (como un Rango de la Mediana), y esta medida combinada de dispersión se utiliza
luego para calcular los límites.
El
objetivo del gráfico de control es separar el ruido probable de las señales
potenciales. La variación dentro de los subgrupos se utilizará para establecer
los límites, que utilizaremos como filtros. Por lo tanto, querremos que la
variación dentro de los subgrupos represente el ruido probable, es decir,
queremos que cada subgrupo sea lógicamente homogéneo. Shewhart dijo que deberíamos
organizar los datos en subgrupos en función de nuestro juicio de que los datos
dentro de cualquier subgrupo se recopilaron esencialmente en las mismas
condiciones.
Para
tener una subagrupación significativa, debe tener en cuenta el contexto de los
datos al crear los subgrupos. Tiene que organizar los datos en subgrupos de
manera activa e inteligente para tener gráficos de promedio y rango efectivos.
Cuando colocas dos o más valores juntos en un único subgrupo, estás juzgando
que, para tus propósitos, estos datos solo difieren debido al ruido de fondo.
Si tienen el potencial de diferir debido a alguna señal, entonces no pertenecen
al mismo subgrupo.
Es por eso por lo que el gráfico de promedios busca
diferencias entre los subgrupos mientras que el gráfico de rangos verifica la
coherencia dentro de los subgrupos.
Esta
diferencia entre los gráficos es inherente a la estructura de los cálculos: ignórala
bajo tu propio riesgo.
Pero ¿qué
sucede si cada valor tiene el potencial de ser diferente de sus vecinos, como
sucede con los valores mensuales o semanales? Con datos recopilados periódicamente,
el gráfico preferido es el gráfico para valores individuales y un rango móvil (Gráfico
XmR). Aquí, cada punto puede hundirse o flotar por sí solo. El enfoque de
rango móvil para calcular límites utiliza la variación a corto plazo para
establecer límites a largo plazo. En este sentido, es como el gráfico de
promedios, donde utilizamos la variación dentro de los subgrupos para
establecer los límites para la variación entre los subgrupos.
Si
bien las formas correctas de calcular límites le permitirán obtener buenos límites
a partir de datos incorrectos, el gráfico no será mejor que su organización de
los datos. Cuando utilice un muestreo racional y una sub-agrupación racional,
tendrá gráficos poderosos. Si organiza sus datos de manera deficiente, puede
terminar con gráficos débiles que oculten las señales.
Donald J. Wheeler es un consultor estadístico conocido internacionalmente y autor de Understanding Variation: The Key to Managing Chaos y Understanding Statistical Process
EMD Consulting | info@emd.com.pe | www.emd.com.pe | 985-850-073
No hay comentarios.:
Publicar un comentario
Agradecemos sus comentarios!
Contacto: info@emd.com.pe