sábado, 31 de octubre de 2015

Cortame la boleta...

Una pregunta que surge de las elecciones pasadas es: ¿cuál es la dirección del corte de boleta en Provincia de Buenos Aires? Es decir, se verifica una diferencia entre la cantidad de votos para los diferentes candidatos a presidente y los candidatos a gobernador en este distrito. Eso puede verse en la siguiente tabla:


Votos presidenteVotos gobernadorDiferencia% diferencia sobre presidente% diferencia sobre gobernador
FPV3,419,041 3,098,900 320,141 9.36%10.33%
Cambiemos3,031,168 3,478,505 -447,337 -14.8%-12.86%
UNA2,062,610 1,693,151 369,459 17.9%21.82%
FIT341,734 329,432 12,302 3.6%3.73%
Progresistas264,583 209,021 55,562 21.0%26.58%

Para los dos frentes mayoritarios (FPV y Cambiemos), ese corte de boleta representa en términos absolutos 320 141 votos y 447 337 votos, respectivamente; dicho de otra manera, entre el 9 y el 15% aproximadamente con respecto al caudal total de votos a para presidente y para gobernador. En cambio, para UNA se advierte una diferencia importante: 369 459 votos de diferencia entre Sergio Massa y Felipe Solá, lo cual implica un 18% del total de votos al primero y un 21% del segundo.

Tabla 2. Proporción y diferencias en votos a presidente y gobernador en Buenos Aires, elecciones generales octubre de 2015

% Votos presidente% Votos gobernadorDiferencia % entre ambos
FPV
37.13%
35.18%
1.95%
Cambiemos
32.92%
39.49%
-6.57%
UNA
22.40%
19.22%
3.18%
FIT
3.71%
3.74%
-0.03%
Progresistas
2.87%
2.37%
0.50%


En términos relativos, la cosa se invierte: hay casi 7 puntos porcentuales de diferencia entre la performance de Cambiemos en la elección provincial y en el FPV, se verifica el fenómeno inverso: incrementa en casi 2 puntos su performance en la contienda nacional. Finalmente, UNA también presenta una diferencia

Entonces, ¿cómo fueron los "patrones" de corte de boleta? Particularmente, ¿qué sucedió con los votantes de Sergio Massa? ¿Cómo votaron las personas que votaron a los diferentes candidatos? Obviamente, es imposible dar una respuesta "directa" a este problema. Por el contrario, tenemos un clásico problema de inferencia ecológica. Corrimos el modelo EI de Gary King para tablas RxC, es decir, tablas con R filas y C columnas, Hay mucha información (bibliografía, código, datos, etc.) sobre el problema acá. También habíamos hecho un ejercicio similar hace tiempo acá y acá.

Utilizando los datos del escrutinio provisorio a nivel de mesa (35 884 mesas en la provincia) estimamos las matrices de "transición" entre los candidatos a presidente y gobernador en la provincia de Buenos Aires. De más está decir que se trata de resultados provisorios y, aún, muy agregados. 

La primera estima la proporción en el sentido del voto presidencial, es decir, qué proporción de los votos de cada candidato presidencial proviene de cada candidato a gobernador. La segunda estima la proporción inversa: cuál es la proporción de votos de cada candidato provincial que proviene de cada candidato presidencial.

Tabla 3. Matriz de transferencia para estimar el corte de boleta presidente y gobernador en Buenos Aires, elecciones generales octubre de 2015 (% sobre votos a presidente)

A. Fernández (FPV)M. E. Vital (Cambiemos)F. Solá (UNA)N. Pitrola (FIT)J. Linares (Progresistas)BlancoResto
D.Scioli (FPV)
83.4%
*
3.2%
0.1%
0.0%
12.2%
0.9%
M.Macri (Cambiemos)
*
99.9%
*
*
*
*
*
S.Massa (UNA)
0.2%
4.0%
70.6%
2.2%
0.6%
7.7%
14.6%
N. del Caño (FIT)
0.6%
20.8%
3.4%
67.1%
2.3%
0.4%
3.7%
M. Stolbizer (Progresistas)
0.3%
28.6%
0.7%
7.2%
60.8%
0.3%
2.9%
A. R. Saá (C. Federal)
3.9%
51.4%
1.3%
1.6%
3.5%
30.3%
7.8%
Blanco
7.5%
6.9%
3.9%
4.2%
3.9%
41.0%
31.2%
Resto
7.9%
5.5%
3.7%
0.7%
0.3%
1.4%
80.7%

* Datos con alto error

En primer lugar, puede verse que el voto a Daniel Scioli proviene (además, del voto a Aníbal Fernández) del voto en blanco a goberntador (12%) y, en menor medida, del voto a Felipe Solá (3%).

M. Macri obtiene sus votos casi exclusivamente de los votos a M. E. Vidal (99%).

Massa, por otro lado, obtiene votos de una diversidad mayor de fuentes. Por un lado, es el que menor "concordancia" presenta de los candidatos mayoritarios: el 70% proviene del voto a F. Solá (UNA), contra el 83% de Scioli y el ya mencionado 99% de M, Macri. A su vez, un 4% de sus votantes lo hicieron por M. E. Vidal, un 7% en blanco y un 2% por N. Pitrola (FIT).

Al mirar la segunda tabla, vemos que Aníbal Fernández obtiene el 99% de sus votos de votantes que, a su vez, votaron a Daniel Scioli en la elección presidencial.

Tabla 4. Matriz de transferencia para estimar el corte de boleta presidente y gobernador en Buenos Aires, elecciones generales octubre de 2015 (% sobre votos a gobernador)

D.Scioli (FPV)M.Macri (Cambiemos)S.Massa (UNA)N. del Caño (FIT)M. Stolbizer (Progresistas)A. R. Saá (C. Federal)BlancoResto
A. Fernández (FPV)
99.9%
*
*
*
*
*
*
*
M. E. Vital (Cambiemos)
*
87.6%
8.4%
0.6%
2.6%
0.1%
0.1%
0.5%
F. Solá (UNA)
4.8%
0.0%
87.6%
3.4%
0.4%
0.6%
0.6%
1.3%
N. Pitrola (FIT)
21.5%
0.4%
2.4%
61.3%
3.4%
1.4%
1.0%
2.8%
J. Linares (Progresistas)
0.9%
2.2%
2.0%
9.0%
73.4%
2.1%
1.3%
3.3%
Blanco
30.6%
0.1%
30.3%
3.3%
0.4%
5.5%
26.3%
3.2%
Resto
*
*
0.3%
0.3%
0.2%
0.4%
0.3%
98.3%

Datos con alto error

M. E. Vidal, en cambio, presenta una proporción de "concordancia" muy similar al candidato de UNA, Felipe Solá, alrededor del 87%. Lo cual indica que obtienen alrededor del 13%  de sus votos de personas que han votado a otro candidato.

En el caso de Vidal, estos provienen de votantes a Sergio Massa (8%) y a M. Stolbizer (2.5%) en la eleccion presidencial.

Felipe Solá, en cambio, obtiene sus votos de Daniel Scioli (casi 5%) y del Frente de Izquierda (3.4%).

Quedará para la semana hacer un análisis conceptual de estos resultados preliminares (además de verificar el modelo). Y pensar si esto puede decir algo con respecto a las hipótesis de "fuego amigo" que se barajaron en el FPV...

PS 02/11/2014: Realizamos algunas correcciones en función del comentario de Julio Argentino. 

lunes, 26 de enero de 2015

Simulando espero

Hace unos días me acordé de este problemita posteado hace mucho tiempo acá 
En un vuelo completamente vendido hay n asientos. Los pasajeros van subiendo uno detrás del otro al avión. En el primer lugar sube una vieja loca que en lugar de tomar su asiento elige aleatoriamente un lugar donde sentarse. El resto de los pasajeros siguen subiendo de a uno. Si su asiento está libre, lo toman. Si está ocupado, eligen entre aquellos que estén libres de manera aleatoria. ¿Cuál es la probabilidad de que el último pasajero pueda sentarse en su lugar?
El caso más simple, obviamente, sería un avión de dos asientos. La cosa es simple: la vieja loca elige al azar. Hay dos posibilidades: o bien, se sienta en su asiento o no. En caso de que se siente en su asiento, el pasajero “U” –último- se sentará en su asiento. En la segunda opción, no. La probabilidad es 0.5. Ahora, ¿qué pasa si n empieza a aumentar?
Nunca les tuve demasiada paciencia a estos “acertijos” de probabilidad. Pero este tenía una característica atractiva: parecía a priori relativamente fácil de programar y resolver vía simulación. En realidad resultó no ser tan fácil –llevó una tarde con ayuda de mi hermano-, pero se pudo. La idea era tratar de armar un algoritmo simple para resolverlo con la menor reflexión “analítica” posible.
Imaginemos que nos tomamos un Boeing 737 de Aerolíneas de 128 asientos (n=128). La vieja loca elige al azar (supongamos, por simplicidad, que el primer asiento es suyo y que todos los pasajeros ingresan en orden de acuerdo a sus asientos). En principio, hay dos posibilidades: o elige su asiento o no. Pero después se complica…
Bueno, acá está el código en R y algunas salidas para diferentes valores de n. Todas son con 60.000 repeticiones (sí, estaba al pedo y quería ver cuánto tardaba en colgar la máquina; fueron 500.000).

sims<-100000 # Nro. de simulaciones
p<-128 # Nro. de pasajeros
result<-vector()
correcto<-0
incorrecto<-0

for (s in 1:sims){

        asientos<-seq.int(1,p,1) #setea el vector de asientos totales
        vieja<-sample(asientos,1) # la vieja selecciona un asiento entre 1 y el total de asientos al azar
        asientos<-subset(asientos,asientos!=vieja) #se excluye de próximas selecciones el asiento
                for (i in 2:p){
                if (is.element(i,asientos)==FALSE){ # si el pasajero siguiente tiene su asiento ocupado -es decir, se busca si el asiento esta disponible en el vector
                        pasajero<-sample(asientos,1) # el pasajero selecciona el asiento al azar entre los disponibles
                        asientos<-subset(asientos, asientos!=pasajero)} # se excluye el asiento seleccionado
                else {
                        pasajero<-i # si el asiento esta disponible, entonces, 
                        asientos<-subset(asientos, asientos!=i)} # el pasajero selecciona dicho asiento

        }
        if (pasajero==p) {
                correcto=correcto+1
                result[s]<-pasajero
        }
        if (pasajero!=p) {
                incorrecto=incorrecto+1
                result[s]<-pasajero
        }
}

table(result)
## result
##     1   128 
## 50068 49932
cat("Prob(Ultimo pasajero en su asiento)=", correcto/sims, "\n")
## Prob(Ultimo pasajero en su asiento)= 0.49932
cat("Prob(Ultimo pasajero NO en su asiento)=", incorrecto/sims, "\n")
## Prob(Ultimo pasajero NO en su asiento)= 0.50068

n
Pr(“U” en asiento correcto)
Pr(“U” en asiento incorrecto)
32
0.49895
0.50105
64
0.50162
0.49838
96
0.50237
0.49763
128
0.49983
0.50017

Para n=32, además, hay solamente dos resultados posibles en las 60.000 repeticiones: o bien, “U” se sienta en el asiento 1 (el de la vieja) o el 32 (suyo). Lo mismo pasa para n=64: o bien, se sienta en el 1 o en el 64 (el suyo) y así para todos los n.
La cosa es interesante: independientemente de la cantidad de asientos hay un 50% de probabilidades de que “U” se siente en su asiento. Es más, el último pasajero solamente tendrá dos opciones: o bien se sienta en su asiento o bien se sienta en el de la vieja…

En fin… una aproximación muy poco analítica (y sin fórmulas) en una tarde aburrida.

PS: me acabo de dar cuenta de que le robé el título a Andy Tow... 



sábado, 2 de agosto de 2014

Número efectivo de partidos en elecciones presidenciales 1983-2011

En este post vamos a tratar de armar una serie histórica de un indicador ampliamente utilizado en los estudios electorales: el número efectivo de partidos. El mismo está definido como sigue:

$\LARGE N_{2}=\frac{1}{\sum_{i}^{n}p_{i}^2}$

donde $p_{i}^2$ es la proporción de votos que el partido i obtiene sobre el total de votos emitidos.
Taagepera y Laakso (1979) dan una definición conceptual del "ENP" (effective number of parties):

"es el número hipotético de partidos de igual tamaño que tendrían el mismo efecto total en la fraccionalización del sistema que el número 'real' [actual] de tamaño desigual" (p. 4)

O sea, es una medida de la concentración de los votos en un sistema electoral determinado. Si todos los partidos tuvieran la misma participación en el total de votos N2 sería igual al número "real" de partidos. Si un solo partido la totalidad de los votos, N2 sería igual a 1. A mayor N2 mayor "competencia" o "fragmentación" (depende de la orientación teórica de cada uno... en mi caso, fragmentación). Y viceversa. No nos vamos a meter en la cuestión fina (para esto está el link al artículo) pero este índice tiene algunas propiedades "deseables" en relación a otros.

Entonces, armamos una serie de N2 para todas las elecciones presidenciales entre 1983 y 2011 (estas últimas corresponden a las definitivas; habría que armar uno para las PASO) desagregadas por provincia. Los cálculos desde 1983 a 2003 están sacados de este libro de Calvo y Escobar. Para 2007 y 2011 los armé en base a datos del atlas de (¿quién si no?) Andy Tow. Luego de una discusión, accedí a la presión de la comunidad de politólogos y lo calculé sobre el total de votos positivos (y no sobre el total de votos emitidos como era mi intención). Pero como no me resigno tan fácil puse en el mismo gráfico el cálculo de N2 sobre el total de votos (en rojo). No hay demasiadas diferencias: como era esperable el incorporar las categorías "blanco" y "nulo" incrementan un poco el número efectivo de partidos.

Evolución del número efectivo de partidos por provincia 1983-2011.
Fuente: Escobar y Calvo (2005),"La ´nueva política de partidos en Argentina", Prometeo.
Atlas electoral de Andy Tow

(Click con botón derecho en la imagen para ampliar)

Es interesante ver que a partir de 2007 parece revertirse la tendencia al aumento de la fragmentación en el total del país y en la gran mayoría de las provincias. Las excepciones a esta tendencia son San Luis y Santa Cruz. En 2011 esta tendencia se mantiene en el total del país aunque el panorama es más disperso a nivel provincial. Las provincias más grandes aparecen divididas: Buenos Aires, Córdoba y Santa Fe mantienen esta tendencia. CABA, en cambio, no. Chubut, La Rioja, Mendoza, Salta y San Luis son los distritos en que parece quebrarse la baja en el número efectivo de partidos y, por ende, en la fragmentación. Sería interesante avanzar en el problema de cómo afectó la implementación de las PASO en la fragmentación del voto y del sistema del partido.

En próximos posts iremos viendo otros aspectos. La relación entre el tamaño del distrito y el movimiento de la fragmentación, por ejemplo. La idea en el mediano plazo es ir armando una serie larga desde 1912: en el libro de Darío Cantón "Elecciones y partidos políticos en la argentina. Historia, interpretación y balance 1912-1963" hay un lindo compendio de toda esa información (aunque con algunos problemas a resolver como una categoría "otros partidos").

Base de datos de ENP en sus dos versiones, acá.

lunes, 28 de julio de 2014

PANELIZE. Una función -preliminar- en R para transformar datos a formato panel

Hace un tiempo @ftiberti planteó un problema: tenía una base de datos (formato serie de tiempo) de la evolución de PBI per cápita por país. Pero el formato era incómodo: los países estaban en las columnas y los años en las filas*.
Year Austria Belgium ...
1946 1.956 4.574 ...
1947 2.166 4.800 ...
... ... ... ...
Era necesario llevarlos a formato de datos de panel para trabajarlos más cómodamente. O sea, a algo parecido a esto:
Year Country PBIpc
1946 Austria 1.956
1946 Belgium 4.574
... ... ...
1947 Austria 2.166
1947 Belgium 4.800
... ... ...
Hacerlo a mano iba a resultar una tarea muy engorrosa. Especialmente si se tiene en cuenta que eran alrededor de 65 años -filas- y 165 países -columnas-. Esto da una base de datos (en formato panel) de 10.660 registros. A partir de ahí se me ocurrió tratar de automatizar el proceso. Así que armé esta función (mi primera función en R) que trata de resolver ese problema, bastante común: convertir tablas de datos de series de tiempo con las unidades (países, provincias, individuos, etc.) en las columnas a un formato similar a un panel de datos.
En mi caso, sirvió para llevar dos bases de datos de cantidad de nacimientos y defunciones para la provincia de Chaco por departamento entre 1970 y 2010 con ese mismo formato (40 años en filas y 24 unidades en columnas) a formato panel. También la probé con la base de Madisson desde 1870 con casi todos sus campos (183 países y 141 años). Hasta ahora parece funcionar bastante bien.
Para correr la función sin problemas el data.frame debe tener los períodos de tiempo en las columnas y debe tratarse de una sola variable. A su vez, dicha variable debe estar en la primera columna. En caso de tener un data.frame o matriz con las unidades en las filas y los períodos en las columnas será necesario transponerla antes de correr la función.
panelize<-function(x,n.units,n.per){
        x<-as.matrix(x)
        n.units<-ncol(x)-1
        n.per<-nrow(x)
        col1<-rep(x[,1],n.units)
        col2<-c(x[,2:(n.units+1)])
        names<-colnames(x[,1:n.units+1])
        xpanel<-cbind(col1,col2)
        xpanel<-as.data.frame(xpanel)
        xpanel<-xpanel[order(xpanel$col1),]
        xpanel<-data.frame(cbind(names,xpanel))
}
Los argumentos de la función son:
(OBLIGATORIO) x=es la matriz o data.frame que desea ser convertido
(OPCIONAL) n.units= es la cantidad de unidades de análisis
(OPCIONAL) n.per=es la cantidad de periodos
Obviamente, una vez corrida la función es necesario editar el data.frame resultante correctamente: nombres de columnas y filas, tipo de campo, etc..
Perdón por el desprolijo html. Ojalá sirva... Como siempre, los comentarios y mejoras son bienvenidas.
-------------------------------------------------------------------------
*Los datos eran del viejo Angus Maddison. Acá, los habíamos usado en su momento.

viernes, 4 de abril de 2014

Datos del Censo Penitenciario de Argentina - Año 2012

Descargar en formato csv.
Elaborados en base a este informe.
No sean canutos y mencionen el blog...

Un primer indicador: el porcentaje de superpoblación carcelaria por provincia en 2012. El indicador se define simplemente como la población encarcelada en la unidad dividido el total de plazas de la unidad, multiplicado por 100.


La interpretación es simple: si es mayor a 100% hay superpoblación, si es menor, no. Cuanto mayor sea a 100%, mayor es el porcentaje de superpoblación y viceversa. Es bastante elocuente, ¿no?

martes, 11 de marzo de 2014

Un comentario MUY puntual sobre QCA y la argumentación

A veces, por enfatizar demasiado un punto propio se termina por hacer afirmaciones incorrectas o imprecisas. Este es el caso de un pasaje (uno solo, hasta dónde leí) del libro de Charles Ragin "Redesigning social inquiry". Es sumamente interesante el planteo del libro acerca del análisis cualitativo y la especificidad que tiene respecto de aproximaciones cuantitativas, particularmente respecto a la "naturaleza" de las afirmaciones/inferencias (simétricas-asimétricas).
Sin embargo, su afán de diferenciarse de las aproximaciones cuantitativas lo lleva a hacer afirmaciones que son (al menos parcialmente) incorrectas. Propone el siguiente ejemplo: estudiar la relación entre el "fracaso de las democracias de 3ra. ola" y la forma de gobierno (parlamentaria o presidencialista). Así, podría construir las siguientes dos tablas (suponiendo que cada caso es un país). 
Aclaración: no entremos a discutir la validez empírica ni teórica de la hipótesis (relación entre las formas de gobierno y los "éxitos" o "fracasos" de las democracias). Mantengamos el ejemplo solamente en carácter de ejemplo.

Tabla 1.1

Presidential form Parlamentary form Total
3rd. way democray failed 
7
11
18
3rd. way democray not failed 
17
5
22
Total
24
16
40

Tabla 1.2

Presidential formParlamentary formTotal
3rd. way democray failed 
15
16
18
3rd. way democray not failed 
9
0
22
Total
24
16
40
The key difference between correlational and set-theoretic connections is illustrated in tables 1.1 and 1.2. Table 1.1 shows a pattern of results consistent with the existence of a correlational connection between parliamentary government and failure among third-wave democracies. The first column shows the tendency for nonparliamentary governments to survive; the second column shows the tendency for the parliamentary governments to fail. While very satisfying from a correlational viewpoint, this table would be unsatisfying to a researcher interested in set-theoretic connections, for there are no connections in the table that could be described as explicit or consistent. Table 1.2, however, would be of great interest to this researcher because it shows a consistent connection between parliamentary form and failure—all sixteen cases with this governmental form failed, as shown in the second column of this table. While significant to the researcher interested in set-theoretic connections, this table would disappoint the researcher interested in correlational connections, for the correlation between form of government and survival versus failure is relatively weak. -Ragin, Charles (2008) Redesigning Social Inquiry. Fuzzy Sets and Beyond social inquiry. Fuzzy sets and beyond, University of Chicago Press: 16-17-
En la primera se vería una situación en la que un "análisis correlacional"  (sic) arrojaría buenos resultados (hay muchos casos en una de las diagonales). La segunda, en cambio, no presentaría resultados aceptables en este tipo de análisis correlacionales.
Esto es parcialmente cierto. Sería cierto solamente para aquellos coeficientes basados en chi-cuadrado (Phi, V de Cramer, etc.). Toda esta "familia" de coeficientes utilizan una definición "operacional" de asociación muy restrictiva. Solamente arrojarán valores máximos (+1 o -1) cuando todos los casos se concentren en alguna de las diagonales. En efecto, en la segunda tabla propuesta Phi arroja un valor de -0,44. Es más, de hecho en la primera tabla (la que tendría una buena distribución) arroja un valor moderado, también (-0,39). O sea, se trata de valores más bien moderados y no tan diferentes entre sí.
La cosa cambia cuando utilizamos otra "familia" de coeficientes: las medidas de reducción proporcional del error (RPE). Todas estas medidas se basan en un principio simple: tratar de reducir el error de "predicción" de una variable conociendo la distribución de la otra. No estoy seguro pero pareciera tener alguna lógica similar a la bayesiana. De cualquier forma, estas medidas operan con una definición de asociación mucho menos restrictiva. Por ejemplo, el coeficiente Q de Yule arrojará su máximo valor por ejemplo en una distribución "rinconal", es decir, no todos los casos deberían estar en la diagonal principal para que este coeficiente arroje un valor máximo. Veamos (perdón por el horrible formato; no manejo bien aún LaTex):

Tabla 1.1
Q = (a*d) - (b*c) / (a*d) + (b*c) = (7*5) - (11*17)] / [(7*5) + (11*17)]
Q = -0,68


Tabla 1.2
Q = (a*d) - (b*c) / (a*d) + (b*c) = (15*0) - (9*16)] / [(15*0) + (9*16)]
Q = -1


En la tabla 1.1 la asociación es de grado "moderado", es cierto... pero no nulo. Pero en la tabla 1.2 tendríamos un caso de asociación perfecta (en los términos definidos por la medida utilizada). Es decir, que si planteáramos que existe asociación entre la forma parlamentaria y el "fracaso" de las democracias y no supusiéramos la asociación "perfecta" en términos de las diagonales, sino en términos de una distribución rinconal, podríamos usar Q de Yule y llegar a un resultado que validaría tal hipótesis. Entonces, dependiendo de la definición de asociación* que utilicemos, el "análisis correlacional" puede llegar a arrojar resultados más que "satisfactorios". 
Todo esto, no obstante, no quita que buena parte del argumento de Ragin acerca de la especificidad de la aproximación cualitativa se sostenga. Es importante el énfasis que pone en las hipótesis "asimétricas" tratando de diferenciarlas (con diferente grado de éxito) de las hipótesis correlacionales (fundamentalmente simétricas). Sobre todo nos parece sumamente interesante el intento de fundamentar la necesidad de un "control de las inferencias" en el análisis cualitativo. Hemos visto muchas veces en análisis cualitativos en ciencias sociales inferencias que (independientemente de problemas de diseño muestral) no parecen desprenderse del análisis de los casos. Esto parece notablemente claro cuando se analizan entrevistas en profundidad. Es más, hemos llegado a escuchar argumentos tales "se trata de interpretaciones... los sentidos y las interpretaciones no funcionan si se intenta encorsetarlas [sic] a la lógica formal". En fin... el oscurantismo. El QCA (en sus diversas variantes) es un intento de aplicar la lógica booleana que permita dotar al análisis cualitativo de un mayor rigor en las inferencias que se realizan. 
Ahora, ¿a qué viene todo este post, entonces? A tratar de plantear que, a veces, no es necesario forzar un argumento para marcar mejor un punto si el argumento se sostiene bien en una formulación simple.

No es el punto acá, pero seguramente, usando modelos un poco más sofisticados que un simple coeficiente -un tanto obsoleto- llegaríamos a resultados parecidos.

domingo, 24 de noviembre de 2013

PRELIMINAR. Inferencia ecológica I. El voto al FPV 2007-2011

En el post anterior habíamos hecho una introducción al problema de la inferencia ecológica y como aplicarlo al caso de los cambios en el voto al Frente para la Victoria. (Ante cualquier duda sobre lo que viene, ver acá). La idea, ahora, es exponer unos numeritos (preliminares) que comienzan a llevar esa tabla que habíamos armado antes.
Una aclaración: la proporción de votos al FPV y no al FPV fueron computadas sobre el total de electores del padrón electoral y no sobre el total de votos efectivos.

Tabla 1. Inferencia ecológica entre el voto FPV en 2007

Voto FPV 2011 Voto no FPV 2011 Error std.
Voto FPV 2007 0,8066 (2011)
0,8068 (2007)
0,1934 (2011)
0,1932 (2007)
0,0164 (2011)
0,0186 (2007)
Voto no FPV 2007 0,1992 (2011)
0,1969 (2007)
0,8008 (2011)
0,8031 (2007)
0,0080 (2011)
0,0090 (2007)

Nota de lectura: el primer renglón de cada fila (con 2011 entre paréntesis) computa el modelo de King tomando como base la cantidad de electores del padrón del año 2011; el segundo renglón de cada fila, computa el mismo modelo, pero tomando como base la cantidad de electores de 2007. Puede verse  que los valores no varían sustancialmente.


La "retención" del voto al FPV entre 2007 y 2011 (el indicador b1) alcanzaría el 80% de los votantes al kirchnerismo 2011. Es decir, el 80,66% de las personas que votaron al kirchnerismo en 2011. A su vez, la "ganancia" del FPV entre 2007 y 2011 (el indicador b2) alcanzaría casi un 20% de los votantes. O sea, el 19,92% de los votantes que votaron al FPV en 2011, habían votado a otro agrupamiento partidario en 2007.
En ese sentido, puede verse que la pérdida de votos entre 2007 y 2011 (1-b1) es de19,3%, es decir, es compensada (y ligeramente compensada) en términos porcentuales por la ganancia de votos del FPV.
A continuación un gráfico de dispersión de ambas variables (por departamento) y un "gráfico de tomografía".


Gráfico 1. Dispersión. Voto al FPV en 2007 (eje X) y Voto al FPV en 2011 (eje Y); 
Gráfico 2. Gráfico de "tomografía" de estimación b1 (eje X) y b2 (eje Y)

 









Dado que el modelo de King permite realizar estimaciones para cada una de las unidades menores (departamentos) el próximo paso (luego de revisar más finamente estas estimaciones) será construir un mapa de la retención, pérdida y ganancia del voto al FPV entre 2007 y 2011.