Introducción a la Teoría de la Generalizabilidad
Mientras la Teoría Clásica de los Test toma tan solo en cuenta la existencia del error aleatorio de las mediciones, definiéndolo como la diferencia entre la puntuación observada de los sujetos y su puntuación verdadera (e= X – V), la Teoría de la Generalizabilidad pretende analizar todo el universo posible de fuentes de variación y determinar la cuantía de esta variación, por cada una de estas fuentes, apoyandose en el análisis de varianza ANOVA, para la estimación de los parámetros de varianza.
Como afirmó Cronbach (Fundamentos de los Test Psicológicos, pp.226), en general, los estudios de generalizabilidad son útiles para diseñar procedimientos de medida y no tan solo para validarlos, como en la TCT.
Las siguientes referencias sobre los conceptos más importantes de la T.G., los he encontrado en la literatura psicométrica actual disponible, los que me permitiré reproducir a continuación:
En primer lugar está el concepto de “objeto de medición”, que Muñiz (Teoría Clasica de los Test, pp. 85) define como las “unidades medidas” (que en ciencias sociales, comúnmente, son los individuos). Aunque Martínez Arias (1995, pp.171) indica que también pueden ser objeto de medición los evaluadores, resultados de algún programa, etc.
En este caso el estimador de varianza del objeto de medición es considerado en la T.G. la “varianza verdadera”, mientras que la variación de los otros aspectos incluidos en el diseño es considerada varianza error.
Otro concepto importante de la T.G. es el de “faceta”, acuñado por Cronbach et al; designa a cada una de las características de la situación de medida, éste término es equivalente al de "factor en el análisis de varianza".
En el análisis de generalizabilidad, regularmente, se consideran facetas a todos los factores o variables presentes en el diseño de medida, menos al objeto de medición.
El efecto de cada faceta, reflejado en su estimador de varianza, es considerado “efecto principal", mientras que las distintas combinaciones de varianzas entre facetas son consideradas “interacciones”.
Luego se tienen los conceptos de "puntuación observada (xPI)" y "puntuación universo (mp)". La puntuación observada es, por ejemplo, la puntuación empírica que obtiene un individuo al aplicársele un test.
En el caso que se le pudiera aplicar múltiples veces al individuo, con todos los instrumentos disponibles que midan el mismo rasgo o conducta, entonces obtendríamos la puntuación universo de este individuo.
En T.G. se suele utilizar el término universo para las condiciones de evaluación (evaluadores, items, situaciones, momentos, etc.), mientra que cuando se habla de grupos de individuos (objetos de medida) se habla de poblaciones.
De esta forma, cuando usamos el concepto de “universo de observaciones admisibles”, de forma amplia, nos referimos a la población escogida por el investigador y todos los posibles resultados que esta población pueda obtener, dadas las condiciones impuestas por el diseño de investigación.
Dado que es muy común trabajar con muestras de la población, utilizamos e concepto de “universo de generalización” para describir la o las facetas en las que el investigador tiene interés de generalizar resultados hacia un universo más amplio que la propia muestra.
Por otra parte tenemos el llamado “coeficiente de generalizabilidad”, que es el equivalente del "coeficiente de fiabilidad", en la Teoría Clásica de los Test y toma valores entre 0 y 1,par expresar el grado en que una medición dada puede generalizarse a toda la población de mediciones posibles, contempladas en el diseño de investigación.
Para estimar el coeficiente de generalizabilidad en la T.G. es fundamental el concepto de error absoluto y error relativo. Cronbach describió el “error sobre la medida absoluta” (sD) como la desviación del valor observado con respecto a la puntuación universo, es decir al universo de puntuaciones posibles de un individuo.
En el caso de “error sobre la medida relativa” (sd), sería el que se comete al estimar la desviación entre la puntuación observada y la media de la puntuación en la población correspondiente de objetos de estudio.
El cálculo del error absoluto nos brinda el "coeficiente de error absoluto", que se conforma con la sumatoria de todos los estimadores de varianza resultantes del ANOVA, menos el referido al objeto de medida.
En el caso del coeficiente de error relativo, se conforma con la sumatoria de todos los estimadores de varianza (menos el del objeto de medida) y las interacciones que tengan entre sus subíndices con el objeto de medida.
En T.G. Se puede hablar de múltiples coeficientes de generalizabilidad, los cuales van a estar determinados por el universo de generalización escogido por el investigador.
Al respecto Muñiz (idem, pp.86) indicó que el coeficiente de generalizabilidad no es el único indicador de la magnitud de los errores de medida, puesto que también se pueden utilizar los estimadores de los componentes de varianza resultantes del ANOVA.
Análogamente al concepto del coeficiente de fiabilidad de la TCT, el coeficiente de generalizabilidad se expresa como el cociente entre la puntuación universo y la puntuación observada.
En la medida que el investigador quiera generalizar los resultados que tiene, utilizará el coeficiente de error relativo o absoluto para calcular el coeficiente de generalizabilidad, entendidos en la fórmula siguiente como la varianza de error, ubicada como el denominador:
rg = s2p / s2p + s2e
A continuación veremos otros conceptos que no son específicos de la T.G.,sin embargo son fundamentales para un análisis desde su perspectiva técnica y procesal.
Correlación intra-clase: En en análisis de varianza se realiza la descomposición de la variabilidad total en dos componentes aditivos: la correlación intra-clase y la correlación entre-clases.
La correlación intra-clase aparece en estudios longitudinales, es decir cuando se trata de estudiar cambios a lo largo del tiempo y cuando los sujetos están agrupados en conglomerados.
Esto se da cuando se toman varios datos de un mismo sujeto (medidas repetidas) y en casos en que los sujetos de un mismo conglomerado se parecen entre sí.
Los investigadores del comportamiento y todos los analistas de fenómenos sociales están claros de las consecuencias de no tomar en cuenta la correlación intraclase (CIC) en sus estudios.
Al no tomar en cuenta la CIC, En primer lugar nos puede parecer que tenemos más información de la que en realidad se tiene; esto nos obliga a construir modelos innecesariamente complejos, mientras los errores típicos son demasiado pequeños.
Esto se debe a que la CIC modifica el alfa nominal; por ello, en estos casos es conveniente determinar la diferencia entre el alfa nominal y el alfa real. También, para evitar el efecto de la correlación intra-clase, hay que tomar en cuenta que siendo esta una medida de homogeneidad interna entre los grupos, cuando los datos están naturalmente agrupados las unidades de análisis tienden a parecerse (alumnos en clases, clases en escuelas).
De esta manera la información proporcionada por dos alumnos procedentes de la misma clase es menor que la proporcionada por alumnos de clases distintas, por tanto, además de determinar el tamaño adecuado de la muestra, se deben analizar apropiadamentelas características de cada conglomerado.
Al respecto, Kreft y Leeuw (1998) señalaron que observaciones que están cercanas en tiempo y espacio, son probablemente más similares que observaciones aisladas en el tiempo y el espacio.
Por lo tanto, estudiantes en la misma escuela son más semejantes que estudiantes en diferentes escuelas, debido a que comparten experiencias, el medio ambiente, etc. La vivencia del mismo contexto es una causa probable de la dependencia entre las observaciones.
El más alto grado de dependencia puede ser encontrado entre observaciones de dos gemelos monozigóticos o niños nacidos y criados en la misma familia. Otro ejemplo de observaciones dependientes se refiere a las medidas repetidas sobre la misma persona (Ídem).
De la misma forma Kreft y Leewn (1998) expusieron que la existencia de la correlación intra-clase cambia la varianza del error en los modelos tradicionales de regresión lineal. Dicha medida representa el efecto de todas las variables omitidas y los errores de medida, bajo el supuesto que estos errores no están relacionados.
En los modelos tradicionales de regresión lineal se asume que las variables omitidas tienen efectos aleatorios y no estructurales, un supuesto debatible en datos que contienen observaciones agrupadas.
Recomendado por LinkedIn
Por ejemplo, en estudios de eficacia escolar, la influencia estructural de variables no medidas puede ser el clima de la escuela o la presión que ejerce en los individuos la competencia entre los compañeros.
De esta forma se puede afirmar que el grado de covarianza en los términos de error de individuos agrupados en la misma escuela o clase esta expresado en los coeficientes de correlación intra-clase.
La CIC generalmente está indicada por el símbolo r e indica, como se dijo anteriormente el nivel de homogeneidad de los grupos en estudio. Esto también puede ser definido, trabajando con datos de una estructura jerárquica de dos niveles, como la proporción de varianza en el resultado que se encuentra entre las unidades del segundo nivel.
De una forma u otra si la correlación intraclase está presente, como podría pasar cuando tratamos con datos agrupados, el supuesto de observaciones independientes del modelo tradicional lineal es violado.
Tipos de Diseños de los Estudios T.G.
De acuerdo al número y características de las facetas que interesan al investigador se pueden desarrollar múltiples diseños para el análisis de generalizabilidad. En primer lugar se puede decir que existen dos diseños básicos, el factorial completamente cruzado y el Jerárquico o anidado.
Factorial completamente cruzado: En los diseños factoriales completamente cruzados se debe disponer al menos un dato para cada combinación de niveles de un factor con los niveles de otros factores (Martínez Arias, 1995, pp.173), el ejemplo clásico de un diseño cruzado es el de p x i, en el que “p” son los sujetos e “i” la faceta “instrumentos de evaluación” o “items”, este diseño implica que todos los sujetos serán evaluados con todos los instrumentos de evaluación elegidos.
Diseños anidados: Otro tipo de diseños son los jerárquicos o anidados, una jerarquía consiste en observaciones de bajo nivel anidadas dentro de niveles superiores, en este caso deben cumplirse dos condiciones (M. Arias, 1995, pp. 174) a) niveles múltiples de un factor están asociados con cada nivel de otro factor y b) diferentes niveles de un factor están asociados con cada uno de los niveles de otro factor.
El planteamiento teórico que sustenta el análisis de diseños anidados parte de la idea que todos los datos están organizados en jerarquías anidadas, como indican Moelleng y Tolber (1972) es decir que están organizados de manera natural.
Un ejemplo de jerarquías estructuradas en dos niveles puede ser:
-Alumnos en una escuela o escuelas de un distrito
-casas en un barrio, barrios de un distrito o distritos de una ciudad
-Pacientes de una clínica o clínicas de un hospital.
Un ejemplo de jerarquías estructuradas en tres o más niveles puede ser:
-Alumnos en cada nivel de escuelas.
-Pacientes en clínicas de hospitales en municipios de cada departamento, estado o provincia.
-Familias en casas de barrios en distritos de ciudades.
Una variante de los diseños anidados son los llamados diseños confundidos, que se utilizan en el caso que solo se cumpla la condición a) de los diseños anidados, es decir que solo “niveles múltiples de un factor están asociados con cada nivel de otro factor”,
En este caso el investigador no puede separar las fuentes de variación en algunas facetas de su diseño, sea por las condiciones de medición o por la disponibilidad de información.
Para finalizar, es necesario efectuar un señalamiento sobre las facetas y su vinculación a los conceptos de efecto "fijo" y "aleatorio". Con respecto a los factores o facetas, estas pueden ser fijas o aleatorias.
Que sea considerada fija implica que en ella se toman en cuenta todos los valores posibles de una población, por el contrario si se le considera aleatoria es porque sus valores son tomados como una muestra aleatoria de un universo más amplio de valores.
De lo anterior se infiere que dependiendo de si las facetas son fijas o aleatorias se podrán generalizar resultados a un universo o población restringido o amplio.
Kreft y Leewn (1998), ante la confusión que podrían traer los términos ‘aleatorio’ y ‘fijo’, trataron de explicarlo en el contexto de los modelos lineales, indicando dichos términos se aplican a tres diferentes entidades: efectos aleatorios o fijos, variables aleatorias o fijas y coeficientes aleatorios o fijos.
El concepto de coeficientes aleatorios o fijos es comúnmente usado en la investigación experimental, donde el tratamiento y los grupos de tratamiento están relacionados y para el análisis de los datos se utiliza el análisis de varianza.
La explicación más simple es que se dice que un factor tiene un efecto fijo si todos los posibles tratamientos, en los cuales el investigador se encuentra interesado, están presentes en el experimento.
Por su parte el efecto aleatorio se define cuando se considera resultado de una muestra del universo de todos los tratamientos relevantes. Kreuf y Leewn reconocen que las referencias clásicas en esta área son las de Scheffé (1956) y Wilk y Kempthorne (1955).
La distinción entre efectos fijo y aleatorios es muy útil para la inferencia y la generalización de los resultados. Por ejemplo, los efectos fijos solamente permiten hacer inferencias con respecto a los tratamientos usados en el experimento. Los efectos son considerados como constantes y sin medida de error.
En el modelo de efectos aleatorios, las inferencias se extienden más allá de los sujetos dentro de la muestra. El intento es generalizar los resultados a la población o universo y no solamente a los sujetos sometidos al tratamiento.
El efecto descrito antes no se asume como constante, porque se encuentra en una escala diferente y es medido con un término de error muestral. Éste es resultado directo del hecho que se utiliza una muestra, cuyos resultados se quieren generalizar al resto de la población.
Se esperarían mas o menos diferentes resultados si el mismo experimento se repite en otra muestra. Hay que señalar también que los mismos conceptos de ‘constante’ y ‘aleatorio’ son usados como prefijo para variables.
De nuevo, la idea de medida del error se aplica aquí. El concepto de aleatoriedad no es relevante sin embargo, en el caso de los modelos de coeficientes aleatorios.
Dichos modelos asumen variables fijas. Las variables aleatorias son discutidas solamente para clarificar la distinción entre éstas y los coeficientes aleatorios.
El concepto de variables fijas y aleatorias es un concepto de la teoría estadística y una aproximación suficiente del mismo es que “son aquellas cuyos valores son seleccionados de una distribución de probabilidad”. De esta forma una variable aleatoria tiene un valor esperado (la media) y una varianza (valores que pueden ser, ambos o cualquiera de los dos, desconocidos).
En general asumimos que las variables aleatorias son medidas con un margen de error y difieren de medida a medida. Un ejemplo de ello pueden ser las mediciones del Coeficiente Intelectual (IQ).
En el análisis de varianza las variables son generalmente consideradas como variables fijas, cuando se especifica en el diseño del análisis.
De nuevo, el interés en los resultados de las variables fijas es el valor que presenta. En las variables aleatorias interesa principalmente los parámetros definidos de la probabilidad de distribución.
Licenciada en Psicología
1 añoMe llama a la concientización en la selección del objeto de estudio ya que puede tenes diferentes facetaste y debo considerarlas si o si ya que cada perspectiva puede aportar algo valioso y enriquecedor a mi investigación. Saludos.
Business Developer
1 añoBuenísimo. Un abrazo