QCA
Qualitative Comparative
Analysis

Autor: Profesor Jorge Carlos Carrá

Tabla de contenidos

Tabla de contenidos

Introducción

Aplicaciones del QCA

1 Datos

2 Tabla de verdad

3 Análisis

a Análisis exploratorio

b Análisis gráfico

c Análisis numéricos

1 Specify Analysis

Solución compleja

Solución intermedia

Solución parsimoniosa

2 Standard Analyses

Solución Compleja

Solución Intermedia

Solución Parsimoniosa

Anexo A Condición necesaria y/o suficiente

Bibliografía

Introducción

Existen 3 métodos básicos para establecer proposiciones generales de tipo empírico: experimentales, estadísticos y comparativos (Caramani, D 2005).
En los métodos experimentales se modifican artificialmente las variables en condiciones de laboratorio, para poder investigarlas por separado. En los restantes, esto no sucede. Por su parte, la diferencia entre los estadísticos y los comparativos es que en los primeros, el número de casos es suficiente para establecer el análisis, en tanto en los segundos, existen menos casos que variables.

En particular, el análisis estadístico de regresión tiene por objetivo encontrar la mejor curva que ajuste una serie de puntos en un diagrama X-Y. La técnica más utilizada es el análisis cuantitativo de regresión LSA, Least Square Analysis (análisis por mínimos cuadrados) cuya meta es la recta que minimice la suma de los errores cuadráticos entre los puntos estimados por la recta y los puntos experimentales.

Por su parte, el análisis comparativo conduce a una interpretación similar al análisis estadístico de regresión, pero es especialmente adecuado para pocos casos. Se apoya en una técnica lógica de análisis cualitativo y se denomina formalmente: Qualitative Comparative Analysis, QCA.
Fue desarrollada desde hace relativamente pocos años (1987) por el profesor de Sociología y de Ciencias Políticas de la Universidad de Arizona, Charles C. Ragin y basa el análisis en
técnicas lógicas como el álgebra booleana, tablas de verdad y métodos de minimización lógica. Esta técnica se está utilizando cada vez más en la investigación sociológica.

En esencia es la extensión matemática de los métodos de John Stuart Mill (Mill J. S. System of Logic, Ratiocinative and Inductive. Libro 3, capítulo VIII y Copi, I. 2006, pag 425) llamados: Método de las Concordancias, MMA (Mill Method of Agreements), Método de las Diferencias, MMD (Mill Method of Differences) o Método Conjunto de Concordancias y Diferencias. Se debe recordar que estos métodos parten de la hipótesis de que existe unicidad en las causas (Copi, I. 2006, pag 420), es decir que hay una causa única para todo efecto y por lo tanto no son aplicables donde exista pluralidad en las causas.
Por ejemplo el MMD prueba la hipótesis de que las condiciones (causas) sean suficientes, eliminando aquellas que no cumplan dicha condición (es decir causa presente, con efecto o salida ausente), pues claramente no influencian a la salida. Nada puede ser la causa de un fenómeno si el fenómeno no sucede cuando la causa está presente. Para repasar los conceptos relacionados con
condición necesaria y/o suficiente, ver el anexo A.
Quedarán entonces sin eliminar las causas que están en sincronismo con la salida (existen o no existen en total concordancia). Se aprecia que en esta metodología la hipótesis acerca de la influencia de determinados factores se confirma por la eliminación de los restantes.

A las variables eliminadas se las suele llamar variables de contexto y a las que quedan, variables operativas (Lijphart 1975, pag 159).
Sea por ejemplo la tabla de verdad hipotética de la figura QCA-1. Si CAL es la salida y el resto son las entradas (excepto PAIS que es una variable alfanumérica y MED que es la negación de la salida), deberán ser eliminadas las variables que estén presentes con salida ausente, en por lo menos un caso (en este ejemplo: LEY, ANT y RIQ en el caso ARG, cualquiera sea el valor de los restantes casos). Serán entonces causas probables de la salida las restantes, pues existen o no existen en total concordancia con la salida (es decir: ESEC, INS y FHUM).

[image]

Figura QCA-1

Observar que las variables de contexto eliminadas se mantienen constantes aunque cambie la salida por lo cual se las llama también de control. Por esta razón se dice que las variables operativas se manifiestan manteniendo constantes o controladas otras variables.

 

Existen 3 tipos de análisis QCA en función del tipo de variables. Las dos primeras opciones se encuentran en el software QCA y fsQCA y la tercera en el software Tosmana. Todos ellos se pueden descargar sin cargo en la dirección electrónica incluida en la bibliografía bajo el nombre de Compasss. 2008.

1 csQCA, Crisp sets QCA

Es el análisis más simple en el cual las variables solo toman los valores 0 y 1 (Booleana). El valor 1 indica inclusión y 0 no inclusión.
Para transformar una variable de escala en tipo Booleana, se debe dicotomizar a cada variable de acuerdo con cierto umbral.
Una forma es asignar el valor 1 a los valores de la variable que superen la mediana y 0 para los que no la superen.
El investigador puede también asignar el signo – llamado en este software: “Don’t Care”, el cual permitirá luego colocar en esa configuración, una salida presente o ausente dependiendo de la situación o deseos del investigador.
La dicotomización de variables continuas o multicategóricas en binarias (0, 1), se produce con pérdida de información. Esto se remedia en parte con alguna de las siguientes alternativas. La primera es la utilización de variables fuzzy, comprendidas en un contínuo entre 0 y 1 (fsQCA). La segunda utiliza variables multicotómicas (Tosmana). Estas metodologías realizan un análisis más cuantitativo, mejoran la precisión y hacen mejor uso de la evidencia.

2 fzQCA, Fuzzy sets QCA

Los valores de las variables pueden adoptar un contínuo entre 0 y 1

Para transformar una variable de escala (cualquier valor perteneciente al campo de los números reales) en otra variable fuzzy, el software tiene la función:

calibrate(x,n1,n2,n3),

donde:

En general esta codificación requiere un profundo conocimiento de los casos y de la variable (Ragin C. 2007 capítulo 5, pag 19).
Para el lector que conoce las operaciones lógicas NOT, AND y OR del algebra Booleana, la versión fuzzy de estas operaciones es:

3 mvQCA, Multivalue sets QCA

Los valores de las variables son discretos pero en este caso pueden ser múltiples. Esta prestación se encuentra en el software Tosmana, Tool for Small-N Analysis, del investigador alemán Lasse Cronqvist del Institute of Political Science, Philipps-University, Marburg, Germany (Tosmana, 2008). Su comprensión no ofrece dificultades, luego de conocer el software QCA.

Aplicaciones del QCA

  1. Es una alternativa para muestras pequeñas, en especial para más variables que casos, lo cual hace inaplicables las técnicas LSA. Los procedimientos lógicos son independientes del número de casos, pero no deben ser muy grandes para que el número de configuraciones sea manejable.

  2. Conveniente cuando el investigador tiene un buen conocimiento de los casos y se desea investigar las causas.
    Se debe tener en cuenta que los métodos de Mill no indican cuales son las variables
    relevantes que deben incluirse en el análisis. Esta decisión es previa al método y es decidida por el conocimiento del investigador. Luego de elegidas, estos métodos ayudan a determinar las causas más probables.

  3. Conveniente cuando existen hipótesis o creencias justificadas acerca de las causas subyacentes en los resultados analizados y se desea probarlas.
    Similar aclaración respecto de la selección de las variables relevantes.

  4. Conveniente cuando el investigador desea interpretar los resultados en términos de condiciones necesarias y suficientes.

  5. Conveniente cuando se espera que la estructura causal presente diferentes caminos en una salida y que las condiciones sean a menudo suficientes solo en combinación.

1 Datos

Se pueden introducir desde cero en el mismo programa con File > New o importar desde otro archivo con File > Open.

Esta última variante permite varios formatos:

Para ejemplificar importemos el archivo LA.dat, el cual contiene datos crisp (en el navegador guardar la página que se abre, con la extensión .dat).
Se observará la ventana de la figura QCA-2, en donde en las celdas con el símbolo – fue colocado un 0 (o indistintamente un 1, pues por el método MMD, una combinación existente con 1 en la entrada y 0 en la salida, conduce a la eliminación de esa variable en la ecuación final).

[image]

Figura QCA-2

2 Tabla de verdad

Una tabla de verdad tiene: 2k filas (llamadas en este software configurations) donde k es el número de variables independientes (llamadas aquí causal conditions). Este número surge del número de grupos de variables independientes (negadas o no) que se pueden agrupar, tomadas de a k.
El procedimiento es:
Analyze > Crisp (Fuzzy) Sets > Truth table Algorithm

Elegir una (solo una) variable dependiente (Outcome) y las variables independientes (Causal Conditions) que se deseen > Run.
Si los datos fueran fuzzy, se representa con un valor de 1 (dato presente) un valor fuzzy mayor o igual a 0.5 y con 0 (dato ausente) un valor fuzzy menor que 0.5
.

El archivo LA.dat, contiene datos binarios (crisp). Elijamos en el cuadro de diálogo de la figura QCA-3, MED como variable de salida y ESEC, INSUMOS, FHUMANO, AUTONOMIA; LEYES; ANTECEDENTES y RIQUEZA como variables de entrada.

[image]
Figura QCA-3

Se presenta la tabla de verdad que se observa en la figura QCA-4.

[image]

Figura QCA-4

Cada fila presenta una determinada combinación de todas las variables independientes (presentes o ausentes). Por lo tanto en una comparación Booleana, las causas no son vistas en forma aislada sino en dentro del contexto de la presencia o ausencia de las otras condiciones causales.
En el ejemplo de la figura QCA-4,
mediocridad es la variable dependiente y el resto son las independientes.
Si se amplía la ventana se puede observar que se han generado las siguientes variables:

La variable de salida no aparece codificada todavía. Para borrar los casos que no tienen combinación (remainders) y codificar, utilizar Edit > Delete and Code > Elegir el valor inferior de la variable number (por defecto es 1) y la consistencia (por defecto es 0.8) > OK

Como se observa en la figura QCA-5, se mostrarán solo los casos que cumplen los filtros de la selección anterior. La variable de salida tendrá el valor 1 para niveles de consist mayor que el elegido y 0 para el resto.

[image]

Figura QCA-5

Si se deseara cambiar el valor de una celda, hacer clic en ella, teclear el valor (aparece en la caja de texto superior) y aceptar con Enter.

3 Análisis

Los análisis de texto y tabulares se muestran en una ventana separada (visor) en donde se puede escribir y borrar. Las sucesivas salidas se van colocando debajo de las anteriores. Las tablas y textos se pueden imprimir, seleccionar copiar y pegar, o guardar como archivo de texto.
Los gráficos se presentan en su propia ventana y se pueden guardar como archivos
*.ps (post scrip).

a Análisis exploratorio

Es similar al de cualquier paquete estadístico y se obtiene con:

Analyze > Statistic > Descriptive/Frequency/Crosstabs

b Análisis gráfico

Es útil para presentar diagramas ilustrativos de los análisis numéricos.

Los gráficos se pueden guardar en formato ps (abrir con el programa Ghostview, GSview) o capturar la imagen con un programa como SnagIt

c Análisis numéricos

Es el análisis típico de QCA (crisp or fuzzy) y describe las combinaciones de condiciones que son suficientes para la salida.
Existen 2 valores que miden la fortaleza de la relación:

Quine-Mc Cluskey

El primer paso para minimizar una tabla de verdad, es buscar las filas que difieren en solo una variable (negada y sin negar) pero que tienen la misma salida. Esta variable, por una expresión conocida del algebra de Boole, se puede simplificar. Estas expresiones simplificadas se llaman Implicantes Primos, IP.
Como segundo paso se buscan los IP esenciales, es decir el menor número de IP necesarios para cubrir la expresión lógica original (previa a la simplificación).

Cuando el número de variables es alto, se precisa un algoritmo más sencillo con el cual procesar la minimización. El más adecuado es de tipo tabular creado por Quine y mejorado por Mc Cluskey.
Este proceso genera las condiciones suficientes de las causas para que se produzca la salida y en este sentido es la formulación matemática del método
de las diferencias de Mill.
En este software se utiliza la siguiente notación:


En la parte inferior de la tabla de verdad de la figura QCA-5 se observan dos opciones:

  1. Specify Analysis

  2. Standard Analyses

1 Specify Analysis

Como indica su nombre permite especificar el tipo de procesamiento.

Aparece una ventana como en la figura QCA-6, en la que se pueden elegir especificaciones para construir las distintas soluciones:

[image]

Figura QCA-6

Recordemos que:

Don't Care Cases se especifican con – en la tabla de datos con la finalidad de tratarlos ahora como presentes o como ausentes.

Contradiction es la configuración que presenta salidas distintas para iguales entradas. Esta particularidad tiene mayor probabilidad de presentarse si el número de casos es alto.
La presencia de estas contradicciones revela que la lista de variables es incompleta. La mejor forma (y la más costosa) de resolver el problema es agregar nuevas variables o redefinir las existentes. La peor forma (y la más sencilla) es ignorar las contradicciones.

Remainders son las configuraciones que no se presentan en la experiencia.

Según la elección que se especifique en el anterior cuadro de diálogo se pueden crear soluciones en un continuo de Complejidad-Parsimoniosidad (entendido como menor cantidad de condiciones).
Según como se tilden
Remainders, el software los usa para colocarles una salida de 0 o 1. En cualquier caso el investigador está asumiendo un comportamiento figurado que no resulta de la experiencia, por lo cual se lo llama contrafáctico. Este procedimiento es similar a la utilización de las hipótesis simplificativas de la estadística, en el proceso de producir una inferencia. El método comparativo se vuelve experimental pues el experimentador produce casos artificiales que no se presentan en la realidad.

Solución compleja

1 Especificación

[image]

Figura QCA-7

La variable de salida se asume con valor 0 para los casos Remainders. Esta solución coincide con la expresión lógica original sin simplificar y es la más conservadora pues no agrega nuevos casos a los de la experiencia.

2 Resultados

[image]

Figura QCA-8

Es decir:

MEDIOCRIDAD=esec*insumos*fhumano*autonomia*
leyes*antecedentes*riqueza+
esec*insumos*fhumano*autonomia*
LEYES*ANTECEDENTES*RIQUEZA

Recordar que las letras minúsculas significan la variable negada.
La combinación AND de las variables anteriores indica que todas juntas son suficientes (y necesarias) para producir la salida (ver Anexo A).
La operación OR de las variables indica que cualquiera de los términos separados por este signo es
suficiente para producir mediocres resultados (ver Anexo A).

Solución intermedia

1 Especificación

[image]

Figura QCA-9

2 Resultados

[image]

Figura QCA-10

Es decir:

MEDIOCRIDAD=esec*insumos*fhumano*autonomia*
leyes*antecedentes*riqueza+
esec*insumos*fhumano*autonomia*
LEYES*ANTECEDENTES*RIQUEZA

Solución parsimoniosa

Esta solución coincide con la aplicación a la tabla de verdad original, del método conjunto de Mill de la concordancia y de la diferencia.

1 Especificación

[image]

Figura QCA-11

La variable de salida se asume con valor 1 para los casos Remainders. Esta solución agrega nuevos casos a los de la experiencia, con lo cual se produce una mayor minimización y una solución con menos variables.

2 Resultados

[image]

Figura QCA-12

Es decir:

MEDIOCRIDAD= autonomía+ fhumano+ insumos +esec

Cualquiera de los términos es suficiente para producir malos resultados. Esta conclusión, algo extremista, es debida a la dicotomización de variables continuas o multicategóricas en binarias (0, 1), con pérdida de información. Recordemos que esto se remedia en parte con la utilización de variables fuzzy, comprendidas en un contínuo entre 0 y 1 (fsQCA) o con variables multicotómicas (Tosmana).
Si consideramos que cada una de las variables representa calidad, el valor 1 significará presencia de la misma y el valor 0, su ausencia o mediocridad. Naturalmente la variable Mediocridad tendrá la interpretación contraria.
Dado que la ecuación indica que los resultados mediocres pueden producirse por la presencia de al menos uno de estos factores, con referencia específica a la variable Factor Humano, es lícito expresar:

Si la calidad del Factor Humano es mediocre, entonces la calidad de los resultados se encontrará en correspondencia.

Si aplicamos las leyes de De Morgan a la expresión anterior (Copi, I. 2006, pag 317), resulta:

CALIDAD=ESEC*INSUMOS*FHUMANO*AUTONOMÍA

El símbolo *, simboliza la operación AND de las variables e indica que todos los componentes son necesarios para producir buenos resultados (ver Anexo A).

Dado que entonces la calidad del recurso Humano es condición necesaria para la presencia de calidad de los resultados, se puede expresar:
Es condición necesaria para obtener una mejor calidad en los resultados, mayor calidad en el Factor Humano. Si ésta condición está ausente, la primera también.

Nota: esta conversión por las leyes de De Morgan proporciona una solución distinta a la generada para la variable de salida CALIDAD, pues en este caso se siguen procesando los
Remainders asignándoles salida 1.

2 Standard Analyses

Standard Analyses automáticamente provee al usuario con 3 soluciones: compleja, parsimoniosa e intermedia.
Se presenta la tabla de Implicantes Primos,
Prime Implicant Chart (o PI Chart) de la figura QCA-13.

[image]

Figura QCA-13

Tildar Mark All > OK

Tildar la configuración deseada para cada variable independiente en la ventana Intermediate Solution (figura QCA-14)

Ejemplo

[image]

Figura QCA-14

Solución Compleja

[image]

Figura QCA-15

Es decir:

MEDIOCRIDAD=esec*insumos*fhumano*autonomia*
leyes*antecedentes*riqueza+
esec*insumos*fhumano*autonomia*
LEYES*ANTECEDENTES*RIQUEZA

Solución Intermedia

[image]

Figura QCA-16

Es decir:

MEDIOCRIDAD=esec*insumos*fhumano*autonomia*
leyes*antecedentes*riqueza+
esec*insumos*fhumano*autonomia*
LEYES*ANTECEDENTES*RIQUEZA

Solución Parsimoniosa

[image]

Figura QCA-17

Es decir:

MEDIOCRIDAD =esec+insumos+fhumano+autonomia

Ver comentario anterior en la solución parsimoniosa del punto Specify Analysis.

Anexo A
Condición necesaria y/o suficiente

Dada la relación que tiene este tema con la operación lógica Implicación, resumo previamente sus principales propiedades en la Figura A-1.

Notación:

 

p=>q
Teorema Contra Recíproco, TCR
¬q=>¬p
1 Tabla de verdad
 
p
q
=>
0
0
1
0
1
1
1
0
0
1
1
1

Observar que la combinación de p y ¬q (10), es siempre inválida

Características
(p = V) => (q = V).
p = F => nada puede decirse de q.
(q = F) => (p = F).
q = V => nada puede decirse de p.
2 Modus Ponens y Modus Ponens
MP (Modus Ponens): En presencia de p, q aparece.
P(¬q|p)=0 => P(q|p)=1
MT (Modus Tollens): En ausencia de q, p no aparece:
P(p|¬q) =0 => P(¬p|¬q) =1
Equivale al TCR

Figura A-1

En el cuadro de la figura A-2, se resumen 4 definiciones equivalentes de las condiciones necesarias y suficientes.

C es Suficiente
C es Necesaria
1 Concepto
Si C existe, E también.
En su presencia ocurre.
Si C no existe, E también.
En su ausencia no ocurre.
2 Implicación
C=>E
E=>C
Si p es CN de q => q es CS de p
3 Ecuación lógica
E = C+resto
C puede provenir de termino común:
(C+a)*(C+b)=C+(a*b)
E = C*resto
C puede provenir de factor común:
(C*a)+(C*b)=C*(a+b)
Aplicando De Morgan, resulta
¬E=¬C*¬ resto,
Es decir:
¬C es CN de ¬E
Por lo tanto:
¬E=>¬C
De Morgan equivale a Modus Tollens
¬E=¬C+¬ resto,
Es decir:
¬C es CS de ¬E
Por lo tanto:
¬C=>¬E
De Morgan equivale a Modus Tollens
4 Diagramas
Venn
C < E
Pues C=0, E=1 es posible (ver cuadro implicación).
Diagrama cartesiano C-E (datos fuzzy)
Para verificar el cuadro implicación, los puntos deben estar en el triángulo superior de una recta a 45°. Si C es 1, E no puede ser 0, etc.
De otra forma:
valores (C) < valores (E)
Venn
E < C
Pues E=0, C=1 es posible (ver cuadro implicación).
Diagrama cartesiano C-E (datos fuzzy)
Para verificar el cuadro implicación, los puntos deben estar en el triángulo inferior de una recta a 45°. Si C es 0, E no puede ser 1, etc.
De otra forma:
valores (C) > valores (E)

Figura A-2

 

Bibliografía