viernes, 4 de abril de 2014

Datos del Censo Penitenciario de Argentina - Año 2012

Descargar en formato csv.
Elaborados en base a este informe.
No sean canutos y mencionen el blog...

Un primer indicador: el porcentaje de superpoblación carcelaria por provincia en 2012. El indicador se define simplemente como la población encarcelada en la unidad dividido el total de plazas de la unidad, multiplicado por 100.


La interpretación es simple: si es mayor a 100% hay superpoblación, si es menor, no. Cuanto mayor sea a 100%, mayor es el porcentaje de superpoblación y viceversa. Es bastante elocuente, ¿no?

martes, 11 de marzo de 2014

Un comentario MUY puntual sobre QCA y la argumentación

A veces, por enfatizar demasiado un punto propio se termina por hacer afirmaciones incorrectas o imprecisas. Este es el caso de un pasaje (uno solo, hasta dónde leí) del libro de Charles Ragin "Redesigning social inquiry". Es sumamente interesante el planteo del libro acerca del análisis cualitativo y la especificidad que tiene respecto de aproximaciones cuantitativas, particularmente respecto a la "naturaleza" de las afirmaciones/inferencias (simétricas-asimétricas).
Sin embargo, su afán de diferenciarse de las aproximaciones cuantitativas lo lleva a hacer afirmaciones que son (al menos parcialmente) incorrectas. Propone el siguiente ejemplo: estudiar la relación entre el "fracaso de las democracias de 3ra. ola" y la forma de gobierno (parlamentaria o presidencialista). Así, podría construir las siguientes dos tablas (suponiendo que cada caso es un país). 
Aclaración: no entremos a discutir la validez empírica ni teórica de la hipótesis (relación entre las formas de gobierno y los "éxitos" o "fracasos" de las democracias). Mantengamos el ejemplo solamente en carácter de ejemplo.

Tabla 1.1

Presidential form Parlamentary form Total
3rd. way democray failed 
7
11
18
3rd. way democray not failed 
17
5
22
Total
24
16
40

Tabla 1.2

Presidential formParlamentary formTotal
3rd. way democray failed 
15
16
18
3rd. way democray not failed 
9
0
22
Total
24
16
40
The key difference between correlational and set-theoretic connections is illustrated in tables 1.1 and 1.2. Table 1.1 shows a pattern of results consistent with the existence of a correlational connection between parliamentary government and failure among third-wave democracies. The first column shows the tendency for nonparliamentary governments to survive; the second column shows the tendency for the parliamentary governments to fail. While very satisfying from a correlational viewpoint, this table would be unsatisfying to a researcher interested in set-theoretic connections, for there are no connections in the table that could be described as explicit or consistent. Table 1.2, however, would be of great interest to this researcher because it shows a consistent connection between parliamentary form and failure—all sixteen cases with this governmental form failed, as shown in the second column of this table. While significant to the researcher interested in set-theoretic connections, this table would disappoint the researcher interested in correlational connections, for the correlation between form of government and survival versus failure is relatively weak. -Ragin, Charles (2008) Redesigning Social Inquiry. Fuzzy Sets and Beyond social inquiry. Fuzzy sets and beyond, University of Chicago Press: 16-17-
En la primera se vería una situación en la que un "análisis correlacional"  (sic) arrojaría buenos resultados (hay muchos casos en una de las diagonales). La segunda, en cambio, no presentaría resultados aceptables en este tipo de análisis correlacionales.
Esto es parcialmente cierto. Sería cierto solamente para aquellos coeficientes basados en chi-cuadrado (Phi, V de Cramer, etc.). Toda esta "familia" de coeficientes utilizan una definición "operacional" de asociación muy restrictiva. Solamente arrojarán valores máximos (+1 o -1) cuando todos los casos se concentren en alguna de las diagonales. En efecto, en la segunda tabla propuesta Phi arroja un valor de -0,44. Es más, de hecho en la primera tabla (la que tendría una buena distribución) arroja un valor moderado, también (-0,39). O sea, se trata de valores más bien moderados y no tan diferentes entre sí.
La cosa cambia cuando utilizamos otra "familia" de coeficientes: las medidas de reducción proporcional del error (RPE). Todas estas medidas se basan en un principio simple: tratar de reducir el error de "predicción" de una variable conociendo la distribución de la otra. No estoy seguro pero pareciera tener alguna lógica similar a la bayesiana. De cualquier forma, estas medidas operan con una definición de asociación mucho menos restrictiva. Por ejemplo, el coeficiente Q de Yule arrojará su máximo valor por ejemplo en una distribución "rinconal", es decir, no todos los casos deberían estar en la diagonal principal para que este coeficiente arroje un valor máximo. Veamos (perdón por el horrible formato; no manejo bien aún LaTex):

Tabla 1.1
Q = (a*d) - (b*c) / (a*d) + (b*c) = (7*5) - (11*17)] / [(7*5) + (11*17)]
Q = -0,68


Tabla 1.2
Q = (a*d) - (b*c) / (a*d) + (b*c) = (15*0) - (9*16)] / [(15*0) + (9*16)]
Q = -1


En la tabla 1.1 la asociación es de grado "moderado", es cierto... pero no nulo. Pero en la tabla 1.2 tendríamos un caso de asociación perfecta (en los términos definidos por la medida utilizada). Es decir, que si planteáramos que existe asociación entre la forma parlamentaria y el "fracaso" de las democracias y no supusiéramos la asociación "perfecta" en términos de las diagonales, sino en términos de una distribución rinconal, podríamos usar Q de Yule y llegar a un resultado que validaría tal hipótesis. Entonces, dependiendo de la definición de asociación* que utilicemos, el "análisis correlacional" puede llegar a arrojar resultados más que "satisfactorios". 
Todo esto, no obstante, no quita que buena parte del argumento de Ragin acerca de la especificidad de la aproximación cualitativa se sostenga. Es importante el énfasis que pone en las hipótesis "asimétricas" tratando de diferenciarlas (con diferente grado de éxito) de las hipótesis correlacionales (fundamentalmente simétricas). Sobre todo nos parece sumamente interesante el intento de fundamentar la necesidad de un "control de las inferencias" en el análisis cualitativo. Hemos visto muchas veces en análisis cualitativos en ciencias sociales inferencias que (independientemente de problemas de diseño muestral) no parecen desprenderse del análisis de los casos. Esto parece notablemente claro cuando se analizan entrevistas en profundidad. Es más, hemos llegado a escuchar argumentos tales "se trata de interpretaciones... los sentidos y las interpretaciones no funcionan si se intenta encorsetarlas [sic] a la lógica formal". En fin... el oscurantismo. El QCA (en sus diversas variantes) es un intento de aplicar la lógica booleana que permita dotar al análisis cualitativo de un mayor rigor en las inferencias que se realizan. 
Ahora, ¿a qué viene todo este post, entonces? A tratar de plantear que, a veces, no es necesario forzar un argumento para marcar mejor un punto si el argumento se sostiene bien en una formulación simple.

No es el punto acá, pero seguramente, usando modelos un poco más sofisticados que un simple coeficiente -un tanto obsoleto- llegaríamos a resultados parecidos.

domingo, 24 de noviembre de 2013

PRELIMINAR. Inferencia ecológica I. El voto al FPV 2007-2011

En el post anterior habíamos hecho una introducción al problema de la inferencia ecológica y como aplicarlo al caso de los cambios en el voto al Frente para la Victoria. (Ante cualquier duda sobre lo que viene, ver acá). La idea, ahora, es exponer unos numeritos (preliminares) que comienzan a llevar esa tabla que habíamos armado antes.
Una aclaración: la proporción de votos al FPV y no al FPV fueron computadas sobre el total de electores del padrón electoral y no sobre el total de votos efectivos.

Tabla 1. Inferencia ecológica entre el voto FPV en 2007

Voto FPV 2011 Voto no FPV 2011 Error std.
Voto FPV 2007 0,8066 (2011)
0,8068 (2007)
0,1934 (2011)
0,1932 (2007)
0,0164 (2011)
0,0186 (2007)
Voto no FPV 2007 0,1992 (2011)
0,1969 (2007)
0,8008 (2011)
0,8031 (2007)
0,0080 (2011)
0,0090 (2007)

Nota de lectura: el primer renglón de cada fila (con 2011 entre paréntesis) computa el modelo de King tomando como base la cantidad de electores del padrón del año 2011; el segundo renglón de cada fila, computa el mismo modelo, pero tomando como base la cantidad de electores de 2007. Puede verse  que los valores no varían sustancialmente.


La "retención" del voto al FPV entre 2007 y 2011 (el indicador b1) alcanzaría el 80% de los votantes al kirchnerismo 2011. Es decir, el 80,66% de las personas que votaron al kirchnerismo en 2011. A su vez, la "ganancia" del FPV entre 2007 y 2011 (el indicador b2) alcanzaría casi un 20% de los votantes. O sea, el 19,92% de los votantes que votaron al FPV en 2011, habían votado a otro agrupamiento partidario en 2007.
En ese sentido, puede verse que la pérdida de votos entre 2007 y 2011 (1-b1) es de19,3%, es decir, es compensada (y ligeramente compensada) en términos porcentuales por la ganancia de votos del FPV.
A continuación un gráfico de dispersión de ambas variables (por departamento) y un "gráfico de tomografía".


Gráfico 1. Dispersión. Voto al FPV en 2007 (eje X) y Voto al FPV en 2011 (eje Y); 
Gráfico 2. Gráfico de "tomografía" de estimación b1 (eje X) y b2 (eje Y)

 









Dado que el modelo de King permite realizar estimaciones para cada una de las unidades menores (departamentos) el próximo paso (luego de revisar más finamente estas estimaciones) será construir un mapa de la retención, pérdida y ganancia del voto al FPV entre 2007 y 2011.

jueves, 21 de noviembre de 2013

Inferencia ecológica (o una introducción a algunos posts que se vendrán)

La idea de este post es presentar algunas cuestiones que deberían servir para "interpretar" y hacer comprensibles algunos posts que se vienen. Una clave de lectura, digamos. Habíamos planteado antes que íbamos a tratar de estimar de alguna manera, la evolución del "voto kirchnerista" sobre la base de los datos de las elecciones de 2007, 2011 (presidenciales) y 2009 y 2013 (legislativas) desagregados a nivel departamental, la proporción del cambio de voto al kirchnerismo en esos momentos. Podríamos, también, tratar de estimar la pérdida del kirchnerismo entre 2011 y 2013. Sigamos el orden cronológico. Comencemos, entonces, por las elecciones presidenciales de 2007 y 2011. El mismo razonamiento que sigue podría utilizarse para los siguientes momentos.
Lo que necesitamos conocer, para cada votante, el voto que emitió en 2007 y el que emitió en 2011. Podríamos representar el problema en una tabla de contingencia 2 x 2 (el planteo podría extenderse a una tabla r x c, pero no nos vamos a meter con eso ahora). Sobre la base de los datos electorales, nosotros conocemos solamente los marginales de esa tabla (las celdas que están en cursiva y subrayadas). El problema es que nosotros quisiéramos conocer son las celdas interiores de la tabla. La cuestión, entonces, es estimar dichas celdas.


Voto FPV 2011 Voto no FPV 2011 Total 2011
Voto FPV 2007 b1 (1 - b1) FPV07
Voto no FPV 2007 b2 (1 - b2) (1 - FPV07)
Total 2007 FPV11 (1 - FPV11) N

- FPV11: proprción de total votantes al FPV en 2011
- 1 - FPV11: proprción de total votantes NO al FPV en 2011
- FPV07: proprción de total votantes al FPV en 2007
- 1 - FPV07: proprción de total votantes NO al FPV en 2007

Si llamamos b1 a la proporción de votantes que votaron al FPV en 2007 y al FPV en 2011, podemos definir su complemento como 1 - b1 (la proporción de votantes que apoyaron al FPV en 2007 y a otro partido en 2011). Finalmente, también podríamos construir una medida llamada b2 (proporción de votantes que no votaron al FPV en 2007 y sí lo votaron en 2011) y su complemento 1 - b2 (proporción de votantes que NO votaron al FPV en 2007 y NO lo hicieron en 2011).
Para cada departamento podríamos construir una tabla similar. El objetivo, entonces, es poder estimar b1 y b2 a nivel agregado y, también, hacer una estimación para cada departamento. Y, si fuera posible, mapear b1 y b2 para cada departamento.
Esto es un típico problema de "inferencia ecológica", es decir la estimación de comportamientos (o datos) de un nivel bajo de agregación (por ejemplo, de individuos) sobre la base de información procesada a un nivel de agregación mayor (por ejemplo, departamentos). Ernesto Calvo y Marcelo Escobar trataron de hacer algo parecido a esto que estamos haciendo nosotros, pero bastante más complejo y en un período de tiempo bastante más largo.
Muchas veces se ha planteado este mismo problema para tratar de estimar algunas características de los votantes: en el caso argentino se ha usado clásicamente para estimar el peso de los obreros en el voto peronista: Cantón y Jorrat, Balsa, etc. (*).  En estos casos, la variable independiente sería la pertenencia obrera o no de los votantes y la variable dependiente, el voto al peronismo o no. En realidad, esta técnica debería ser aplicable no solamente para estudios electorales, sino para cualquier objeto d eestudio en el que se intenten estimar a partir de información agregada, datos, conductas o atributos de unidades situadas a un menor nivel de agregación.
Ahora bien, de la tabla anterior surge la siguiente identidad básica para cada departamento:
FPV11 = FPV07 * b1 + (1-FPV07) * b2
Hay varias técnicas de estimación de estas celdas interiores. Puede verse que la forma de esta identidad es equivalente a la ecuación de una recta. Con esta idea en mente, Goodman (en un artículo de 1956) demostró que si se asume que la relación entre las dos variables es constante en todas las unidades (supuesto necesario para poder estimar los dos parámetros b1 y b2 desconocidos), se cumplen los supuestos del teorema de Gaus-Markov, por lo cual las celdas interiores pueden estimarse mediante una regresión de mínimos cuadrados ordinarios.

Sin embargo, este método particular fue bastante criticado, especialmente por el supuesto de "invariancia" de la relación a lo largo de los diferentes departamentos. Existen otro método para esta regresión que se llama "de los límites".
Sin embargo, Gary King elaboró un método alternativo (una especie de síntesis de los dos) que consiste en intentar extraer la información presente en cada distrito para tratar de "optimizar" la estimación final de los parámetros. La cuestión es un poco compleja para tratar de "embutirla" en un post. Pero al final hay algunos links interesantes (*). Este último es el método que vamos a tratar de replicar. Hay que aclarar que este método también ha sdo criticado (*). Pero hoy es lo que hay. Para ello vamos a utilizar el software dieñado específicamente para dicha estimación: EzI.
Para ir terminando y pasando en limpio, lo que vamos a tratar de estimar son los siguientes indicadores: 
  • b1: la proporción de votantes que votaron al FPV en 2007 y volvieron a votarlo en 2011. Este coeficiente expresaría el voto "fiel" al FPV, es decir, el procentaje de votantes que ha mantenido el kirchnerismo. 
  • 1 - b1: la proporción de votantes que votaron al FPV en 2007 y NO volvieron a votarlo en 2011. Este valor expresaría la pérdida de votos por parte del kirchnerismo 
  • b2: la proporción de votantes que NO votaron al FPV en 2007 y lo votaron en 2011 y podría ser considerado como una aproximación a la "ganancia" de votos por parte del kirchnerismo. 
  • 1 - b2: la proporción votantes que NO votaron al kirchnerismo en 2007 y tampoco en 2011. Éste parámetro constituiría una aproximación al voto opositor "duro".
Bueno, veremos que nos dan los numeritos.
---------------------------
  (*) Si a alguno le interesa, dejo algunos links con ínformación y bibliografía sobre el tema de la inferencia ecológica. En la red hay mucho más, obviamente.

miércoles, 30 de octubre de 2013

Una vuelta en momentos electorales

Estamos con ganas de retomar el boliche. Así que vamos a tratar de ir posteando algún dato interesante que podamos construir. En estos días electorales (y dado que hay mucha data al respecto... acá y acá) vamos a tratar de armar una serie de posts sobre el asunto. 

Uno de los temas que indefectiblemente van a empezar a aparecer (si es que no han comenzado ya) será el problema del cambio del voto kirchnerista (creo que hay un término para este fenómeno que utilizan los politólogos), es decir, tratar de identificar las características, los determiantes, etc., etc., etc. del cambio en el voto hacia el kirchnerismo. ¿Qué factores determinaron que una fuerza política que tenía un 54% de intención de voto haya alcanzado dos años después 32% (haciendo abstracción, obviamente, del hecho de que se trata de una elección de medio término)? Nos reservamos (por ahora) interpretaciones sobre este cambio. No obstante, nos gustaría marcar que en su peor momento (con su principal referente fuera de la escena por razones de salud, sin candidato para el 2015, sin la bonanza económica de otros momentos, etc.) el kirchnerismo continúa concentrando un 30-32% del electorado.

Antes de empezar a guitarrear, veamos un mapita (provisorio, así que no la bardeen innecesariamente...).  No son los mapas del amigo Andy, pero bueh, es lo que hay por estos lares. Tenemos en la imagen que sigue la tasa de variación en la cantidad de votos al kirchnerismo entre las elecciones presidenciales definitivas de 2011 y las elecciones de octubre (solamente los votos correspondientes a diputados). Las fuentes de datos son las bases electorales de acá.


En verde están los pocos departamentos en los que la tasas de variación es positiva. Es decir, en aquellos en los que el kirchnerismo aumentó el número de votos. Puede verse el rojo bastante dominante en el mapa. Sin embargo, hasta acá tenemos solamente una tasa de variación porcentual entre votos. Nada nos dice de la cantidad de personas (o los porcentajes) que habiendo votado al kirchnerismo en 2011, han decidido cambiar su voto. Esa es la pregunta del millón. Se trata de un típico problema de regresión/inferencia ecológica, técnica que trata de estimar los porcentajes internos de una tabla conociendo los marginales de la misma. Ese es exactamente nuestro problema: conocemos cuál es la proporción del electorado que votó al kirchnerismo y cuál es la proporción que no lo hizo en 2011 y en 2013 (marginales). Necesitamos saber qué proporción de las personas que lo votó en 2011, no lo hizo en 2013. Acá hay bastante información al respecto.

En eso estamos. Veremos que sale. Por hoy, como para empezar de a poco, dejamos acá.

viernes, 22 de junio de 2012

Una vuelta rápida para discutir...

Quizás volvamos más adelante a postear algo. Extrañamos un poco la "blogósfera". Andamos sin tiempo, pero esto no se puede dejar pasar.

Un argumento falso –pero muy efectivo– es forzar el significado de las palabras y sostener que “el salario no es ganancia”. El término “ganancia” puede parecer poco apropiado, aunque todo el mundo, para conocer el sueldo de un compañero, le pregunta “¿cuánto ganás?”. El diccionario de la Real Academia Española informa:
–ganancia: 1. f. Acción y efecto de ganar.
–ganar: 2. tr. Obtener un jornal o sueldo en un empleo o trabajo.

En otros países, como en México, el mismo impuesto se denomina “sobre la renta” y en España “IRPF-Impuesto sobre la Renta de las Personas Físicas”. ¿Queda mejor referirse al salario como “renta” en lugar de “ganancia”? También se lo suele designar “impuesto a los ingresos”, pero aquí traería confusión con el denominado “ingresos brutos”. Como vemos, no es fácil encontrar un nombre más adecuado. Pero lo que importa no es el nombre sino el concepto, estamos discutiendo sobre política y economía, no sobre filología. De paso, conviene aclarar que este tipo de impuesto se aplica a los asalariados en casi todos los países. http://www.pagina12.com.ar/diario/suplementos/cash/17-6060-2012-06-22.html


Hasta el neoclásico más acérrimo admitiría que el salario es la retribución al factor trabajo, la ganancia la retribución al factor capital y la renta la retribución del factor tierra.

Igual, como dice el artículo, no es una cuestión filológica. Tampoco es una cuestión del monto del "ingreso" percibido. El problema no es si se gana mucho o poco. El problema, en nuestra opinion, es quién lo percibe. Lo que hay que discutir (independientemente de la letra de la ley) es a quiénes se grava: ¿al trabajo o al capital? ¿Al trabajo o a la renta de tierra?

Una aclaración no menor: no es lo mismo un gerente que un camionero. No cumplen la misma función en la producción... Acá algo habíamos chauyado al respecto.

lunes, 2 de mayo de 2011

Sábato, necrológica de un oscurantista

Teníamos pensado escribir algo sobre "el tío", como lo quieren lavar demasiados intelectuales.

Teníamos pensado glosar algunos de sus ensayos para intentar, si no convencer de lo contrario, al menos matizar esa opinión tan generalizada acerca de que Ernesto Sábato era "progresista", "defendió como nadie los Derechos Humanos y la democracia".

Teníamos pensado hacer eso... pero nos encontramos con ésta nota, que ya lo ha hecho y de manera contundente.

Copiamos algunos párrafos que, creemos, ilustran nuestra posición. No vamos a "hablar" de los apoyos a las dictaduras, ni almuerzos con genocidas, tampoco vamos a hacer juicios estéticos (que como sabemos, son juicios de valor). Vamos a citar algunos párrafos
de esta nota, que citan, a su vez, algunas posiciones filosóficas, éticas y epistemológicas de Sábato con la esperanza de hacer dudar, aunque sea un poco, de ese "progresismo".
Pero Ernesto Sábato no fue un ser despreciable sólo por su apoyo a las dictaduras que le ofrecían almorzar con asesinos mientras desaparecían sus colegas y vecinos. Su producción intelectual en el campo del ensayo lo muestran como un líder del oscurantismo, y del cual se desprende su odio hacia la sociedad y el bien común.
Sábato es el neo-ludita argentino o el Schopenhauer criollo, tiene una larga militancia contra la ciencia y la razón, a pesar de su doctorado en física. Su pensamiento romántico lo expone en el ensayo La Resistencia, que supuestamente se configura como una defensa del ser humano y de la vida. Sin embargo se trata de un alegato contra la ciencia, la técnica, la razón y la solidaridad, y se encamina a favor del oscurantismo y del individualismo.

(...)

No deja de cuestionar a la medicina “occidental” tildando de mito a la separación entre alma y cuerpo para tratar las enfermedades, a las cuales considera una moda que cambia según las ganas de los médicos, los cuales usarían la tecnología como un ritual:
La medicina es una de las áreas donde puede verse una contraola que golpea esta trágica creencia en la abstracción.” ”Pero durante mucho tiempo subsistió en ellos (los médicos) el fetichismo por las máquinas, la razón y la materia, y se enorgullecían de los grandes triunfos de su ciencia, por el solo hecho de haber reemplazado el auge de la viruela por el del cáncer.” (pp. 24).
Al fin de cuentas es más probable que una diarrea sea producida por el pavor de un conflicto personal que por no sé que microbio de esos que están en boga.” (La Robotización del Hombre y Otras Páginas, 1981, pp. 16)"

(...)

Pero, su mayor esfuerzo lo hace al copiar a Nietzsche y a Schopenhauer para plantear como un valor negativo a los ideales del progreso (ciencia, razón, secularización) aunque proponiendo contraposiciones falsas: la ciencia vs. la vida, el arte y el mito. Sin embargo oculta que el arte o el mito no son disciplinas para adquirir conocimiento. Todo esto para denunciar que en nuestra sociedad la razón, la ciencia y la técnica están sobre valoradas, lo cual sería un condicionante del supuesto detrimento de lo subjetivo, los sentimientos, los afectos y las pasiones.

En un reportaje televisivo Sábato afirmó que:
La inteligencia no sirve para nada. Sirve para demostrar teoremas, para fabricar un telescopio, para hacer cosas, incluso cosas así muy gigantescas como esos aparatos que usan los americanos ahora que mandaron un cohete a no sé donde para no sé qué.” “La ciencia y la técnica han servido para arruinar el planeta. Si este país, y en general nuestra civilización, se van a salvar, no va a ser por la ciencia, que lo único que ha hecho hasta ahora es destruir el planeta”. (Aldao. El Ojo Ecéptico 9/10)

Mientras que retoma esta idea en La Resistencia:
Aquella ciencia que iba a dar solución a todos los problemas físicos y metafísicos del Hombre contribuyó a facilitar la concentración de los Estados gigantescos, a multiplicar la destrucción y la muerte con sus hongos atómicos y sus nubes apocalípticas.” (pp. 98). “Esta crisis no es la crisis del sistema capitalista, como muchos imaginan: es la crisis de toda una concepción del mundo y de la vida basada en la idolatría de la técnica y de la explotación del Hombre.” (pp. 99).

La nota completa, acá.