Un’analisi statistica dei flussi elettorali nel comune di Milano (2008-2010)

Un’analisi statistica dei
flussi elettorali

nel comune di Milano (2008-2010)

Premessa

L’analisi statistica dei flussi elettorali è una disciplina che si è sviluppata a partire dagli
studi del Goodman^[1][2] per poi giungere a modelli di elevata complessità statistica ^[3][4].

Il problema –classico- che ci si pone di fronte a questi studi è la possibilità di inferire il comportamento dei singoli individui dall’osservazione dei comportamenti dei gruppi, un problema, appunto, d’inferenza ecologica.

Nel caso dei flussi elettorali l’intuizione di Goodman fu che essi possono essere descritti da una funzione lineare. Detto cioè P_i(a) il risultato del partito P_i nell’anno a, il risultato del medesimo partito, o di altri, nell’anno b può essere così descritto dal punto di vista matematico

P_i(b) = G_i1P₁(a)+…..G_inP_n(a)

Il problema quindi si risolve nella ricerca dei coefficienti G_ij di una matrice i cui marginali di riga e di colonna non sono altro che i risultati dei partiti negli anni b e a.

Dato quindi un qualsiasi territorio lo si suddivide in più parti e si raccolgono i dati a livello di queste celle di territorio, tipicamente le sezioni elettorali, per poi utilizzarli per un fit multilineare volto al calcolo dei coefficienti G_ij.

Questo modello, semplice e potente, si basa su due assunzioni. La prima è che la popolazione della cella osservata non vari tra gli anni a e b, l’altra è che i coefficienti G_ij siano gli stessi in ogni cella del territorio.

Ovviamente queste condizioni non sono rispettate nella realtà e possono dar luogo a coefficienti al di fuori dell’intervallo atteso, che è compreso tra 0 e 1.

Per ovviare a questo problema sono state sviluppate tecniche statistiche molto complesse, che però non sembrano avere particolari vantaggi rispetto a un’analisi condotta con le metodologie di Goodman su un territorio ristretto e con una severa cernita delle celle/sezioni da considerare per i calcoli.

L’Analisi

L’analisi dei flussi elettorali del comune di Milano tra le elezioni politiche del 2008 e quelle regionali del 2010 riveste particolare interesse laddove si voglia studiare la composizione dell’astensionismo elettorale assieme al rimescolamento degli elettori entro i grandi contenitori del centrodestra e del centrosinistra. Tuttavia l’analisi si presenta difficoltosa a
causa della discreta distanza temporale tra le due elezioni, periodo nel quale il corpo elettorale di Milano^[5]risulta aumentato del 2,2%. Inoltre anche la composizione di un discreto numero di seggi risulta variata.

Si e’ quindi proceduto ad una scrematura delle sezioni elettorali per cercare di minimizzare
questi impatti sull’analisi.

Un primo taglio è stato effettuato eliminando tutte le sezioni ospedaliere. In seguito sono state individuate le sezioni che hanno visto cambiata la loro topografia ed escluse anch’esse dai calcoli. Infine, considerata la media delle differenze del numero di elettori in una sezione tra le due diverse elezioni, si sono scartati tutti seggi che hanno avuto una
differenza di elettori maggiore del doppio della deviazione standard della media precedentemente calcolata. Questo per provare ad isolare situazioni anomale.

Alla fine di queste operazioni il numero di sezioni utilizzate per l’analisi si è ridotto di circa il 10%, da 1251 a 1118.

Infine, per tener conto almeno in parte dei nuovi elettori, siano essi neo-maggiorenni o neo-residenti, nelle sezioni dove è risultato che il numero degli elettori del 2010 fosse maggiore di quello del 2008, si è deciso di considerare a parte questa categoria, trattandola come un partito vero e proprio. Nelle sezioni in cui questa differenza è risultata negativa invece si è posto arbitrariamente a zero il numero di neo-elettori.

Dato poi il gran numero di liste presenti nelle due tornate elettorali si è deciso di accorpare alcune di queste, tipicamente quelle che hanno ottenuto un risultato inferiore all’1%.
Nella Tabella 1 sono riportate le aggregazioni

Il risultato dell’analisi sarà quindi una tabella 9X10 in quanto i Nuovi Elettori (NE) dovranno essere considerati come una colonna e non come una riga.

La tabella, ottenuta con un regressione lineare multivariato^{[6] ,}è la seguente

Dei 90 coefficienti calcolati circa un quarto risultano fuori dall’intervallo atteso [0:1]. Tuttavia la gran parte di essi sono vicinissimi allo 0 e come suggerisce il Goodman^[3]
possono essere eguagliati allo 0. Destano qualche perplessità i coefficienti relativi a SA/PDL, IDV/NonVoto e Altri/PDL. Tuttavia essendo il totale dei voti affetti da coefficienti
negativi, o comunque oltre i limiti, inferiore al 15%, e più esattamente pari all’11%, in accordo con la letteratura^[3]possiamo ancora ritenere valida l’analisi.

Riguardo all’unico coefficiente superiore a 1, cioè quello che descrive il flusso tra i non votanti del 2008 e quelli del 2010, si e’ proceduto in questa maniera. Prima si sono azzerati tutti i coefficienti negativi sulla colonna del Non Voto, e quindi si è imposta la regola che la somma dei coefficienti sulla colonna debba necessariamente essere eguale a 1. Si è quindi sottratto a 1 la somma di tutti coefficienti positivi della colonna e il risultato è stato assunto come coefficiente corretto.

Alla fine di questi aggiustamenti la matrice risultante è la seguente:

Infine i voti scartati con l’azzeramento dei coefficienti negativi sono stati riassegnati
alle celle con valori positivi tramite un algoritmo ipf^[6] che ha calcolato la matrice definitiva che rappresenta i flussi di voti in uscita dai partiti del 2008

A questa matrice dei flussi in uscita corrisponde una matrice di flussi in entrata che ci
illustrano la composizione interna del voto ai partiti del 2010.

Considerazioni

L’area dell’astensionismo pare abbastanza solida. Nel 2010 oltre a riconfermare tutti gli astensionisti del 2008 conquista ampie porzioni di voto dai due partiti maggiori: oltre il 35% degli elettori che nel 2008 han votato PDL e oltre il 21% di ex-elettori del PD. Sebbene quantitativamente inferiori appaiono significativi anche altri due dati. Oltre il 30%
degli elettori della sinistra radicale (SA) non ha votato nel 2010, scelta condivisa con l’80% dei nuovi elettori, che comprendono neo-maggiorenni e nuovi immigrati.

Riguardo quest’area, tra coloro che votano PDL e SA son quelli che riscuotono i maggiori consensi, sebbene le cifre siano veramente minime. Da notare anche come il PD non abbia alcuna presa su questa fascia di elettori.

Il PDL esce dissanguato dalle elezioni del 2010. Come detto il 35% dei suoi elettori del 2008 sceglie di rifugiarsi nell’astensionismo, più del 5% opta per la Lega Nord, il 6% si
disperde nel voto alle liste minori o al solo presidente.

Non migliore appare la situazione del PD che rispetto al PDL contiene le perdite verso
l’astensionismo, ma i suoi ex-elettori fuggono praticamente in tutte le direzioni, fatta significativa eccezione per la Lega, con un rimarchevole picco di oltre il 17% che
molto probabilmente vota il solo presidente.

Anche la Lega Nord presenta dinamiche interessanti. Nonostante sia il partito con il maggiore tasso di fedeltà, con il 56% degli elettori del 2008 che riconfermano il loro
voto nel 2010, tuttavia registra flussi importanti in uscita, verso il PDL e anche verso il PD.

L’IDV presenta una dinamica dei flussi molto elevata. Tra tutti i partiti storici e’ quello che
presenta il minor tasso di fedeltà, confermando solo il 37% dei suoi elettori.
Cede una consistente parte dei suoi voti, oltre il 23% al Movimento 5 Stelle, oltre il 20% al PD e perfino un 10% al PDL e quasi altrettanto alla Lega Nord.

Situazione analoga abbiamo per l’UDC che cede un terzo dei suoi voti del 2008 al PDL e circa un settimo al PD e ne riceve in entrata circa il 15% da ambo i partiti.

Interessante appare la scomposizione del voto della Sinistra Arcobaleno. Se un terzo dei
suoi elettori si rifugiano nell’astensione quasi il 20% si riversa in FDS, mentre circa il 12% sceglie nel 2010 il PD e altrettanti l’IDV. Rimarchevole anche un 5% di elettori che si muove verso la Lega Nord, mentre solo meno del 10% sceglie di riporre la sua fiducia in SEL.

La medesima SEL mostra una grandissima contiguità con il PD, visto che
il 77% dei suoi elettori del 2010 han votato per il Partito Democratico nel
2008, e solo un terzo provengono dall’esperienza di SA.

FDS invece si presenta come il partito che ha saputo strappare più elettori dall’area del non
voto, elettori che costituiscono ben il 13% del suo elettorato nel 2010, per la restante parte il suo elettorato di provenienza si divide in due con poco meno del 40% dei voti che provengono dal PD e da SA.

Il Movimento 5 Stelle raccoglie voti praticamente da tutte le forze politiche, ma non recupera alcunché dall’astensione. I principali portatori di voti appaiono essere il PD e IDV, mentre SA e Lega Nord contribuiscono in misura simile.

[1] Goodman L.A., Ecological Regression and Behavior
of Individuals, in “American Sociological Review” 1953, Vol. 6 pp. 663-4

[2] Goodman L.A., Some alternatives in Ecological Correlation,
in “American Journal of Sociology” 1959,
Vol. 6 pp. 610-625

[3] Lorenzo De Sio, Oltre
il modello di Goodman: l’analisi dei flussi elettorali in base a dati
aggregati in Polena 2009, n. 1, p. 9-35

[4]Rosen, Jiang,King,Tanner,
2001 Bayesian and frequentist
inference for ecological inference: the RXC case in Statistica
Neerlandica (2001) Vol 55,
nr 2, pp 134-156

[5] Tutti i dati
qui utilizzati sono stati ottenuti dalla Banca Elettorale del Comune di Milano http://www.comune.milano.it/dseserver/statistica/bancadatielettorale/consultazione.html

[6] Le
elaborazioni statistiche sono state effettuate con il software open source R, qui
disponibile http://www.r-project.org/. Qui una utile collezione di esempi per esplorarne le notevoli potenzialità http://statisticaconr.blogspot.com/

L’articolo e’ uscito su Termometro Politico

Pubblicato il 28 marzo 2011, in Politica con tag elezioni, Flussi elettorali, Goodman, Milano, Moratti, Pisapia. Aggiungi il permalink ai segnalibri. 27 commenti.

Lascia un commento
Trackbacks 5
Comments 22

anellidifum0 | 29 marzo 2011 alle 6:54 PM

Bravo!

Rispondi
- Il Metapapero | 30 marzo 2011 alle 7:42 AM
  
  grazie!
  
  Rispondi
- isla1982 | 21 giugno 2012 alle 5:47 PM
  
  Ciao sono una studentessa di sociologia e mi sto cimentando nell’analisi dei flussi…ma…
  non so come applicare l’algoritmo ipf. Mi potresti aiutare? Arrivo giusto alla matrice derivante dalle regressioni e poi… 😦 nulla!!!
  
  Rispondi
  - Il Metapapero | 22 giugno 2012 alle 8:47 AM
    
    Ciao Isabella,
    il problema e’ che una volta che hai scartato alcuni coefficienti devi assicurarti che i marginali che otteresti usando quei coefficienti siano quelli reali. Ergo devi redistribuire un po’ di voti in ogni cella della matrice. Io lo faccio usando un algoritmo ipf, la cui funzione ho trovato gironzolando sui vari blog dedicati a R. Per cui, se usi R, te la posso passare, se usi altri tool come SPSS non saprei cosa consigliarti.
    
    Ciao
    Eugenio
    
    Rispondi
    - isla1982 | 22 giugno 2012 alle 9:28 AM
      
      Ciao! Pur di riuscire mi converto a R!!! Anzi lo scarico subito…
      Se riuscissi a passarmelo mi faresti un enorme favore, davvero enorme. Purtroppo le mie scarse conoscenze matematiche non mi consentono di impostarmelo da sola..sigh
      Ti ringrazio moltissimissimo della disponibilità e aspetto tue nuove
      
      Rispondi
      - Il Metapapero | 22 giugno 2012 alle 10:31 AM
        
        ciao,
        ti ho spedito una mail con tutte le info
        
        Rispondi
Massimo Sernesi | 31 marzo 2011 alle 10:37 AM

Il fatto che il MoVimento a 5 Stelle non recuperi niente dal non voto mi sembra strano.
Ai banchetti a Modena parecchi dicevano di ritornare a votare grazie al MoVimento.
Comunque ottima analisi con tanto di spiegazione del metodo….

Rispondi
- Il Metapapero | 31 marzo 2011 alle 10:44 AM
  
  Devo dire che ho visto analisi simili che dicevano la stessa cosa. Del resto a me sembra che l’elettore M5S sia di solito uno molto attento e informato e difficilmente opti per l’astensione.
  Mi sembrano sempre cittadini molto motivati. Poi ovviamente questa e’ un analisi statistica su Milano, magari a Modena e’ andata diversamente.
  
  Rispondi
duccio | 1 aprile 2011 alle 8:34 AM

Pero’ prima del 2010 in molti si auguravano che finalmente le cose cambiassero piu drasticamente che in passato ( cio che si era verifcato per esempio in gb con il crollo di Brown) e invece si era visto che le variazioni furono minime
Le previsioni furono accurate, si prevedeva che il pd perdesse in certe regioni e cio’ successe, l’ operato della maggioranza era quello che era, ma mentre gli scandali venivano alla luce: la cricca di bertolaso scajola verdini berlusconi, il pdl aumentava il numero di regioni da governare
E ora pero’ lei fa sapere che solo il 56% dei vecchi elettori ha rivotato per la lega , il 65 per cento il pdl ….. per non dire pd e sinistra arcobaleno
Nel seggio della mia zona hanno votato piu ‘ o meno esattamente come due anni fa, i problemi degli scandali o della debolezza dell opposizione sono stati ininfluenti
e lo stesso in tutti i seggi dove han votato i miei conoscenti
Da quello che ha scritto lei invece sembra un turbillon di flussi impressionante: che poi per combinazione ha lasciato le cose quasi immutate….
boh…….

Rispondi
- Il Metapapero | 1 aprile 2011 alle 8:49 AM
  
  Rimescolamenti ce ne sono stati, ma interni ai due schieramenti che peraltro han perso nella stessa maniera rispetto all’astensione. Per questo le sembra che non sia cambiato niente. Ma e’ una calma apparente, o un gioco delle 3 carte se preferisce
  
  Rispondi
Michelangelo Gentilini | 23 Maggio 2012 alle 8:50 AM

Complimenti per l’articolo. Che script ha usato per R?

Rispondi
- Il Metapapero | 23 Maggio 2012 alle 8:53 AM
  
  beh me lo sono scritto da solo ovviamente anche perché nel mezzo occorre prendere qualche decisione euristica sulla ripulitura della matrice
  
  Rispondi
  - Michelangelo Gentilini | 23 Maggio 2012 alle 9:12 AM
    
    se hai salvato il file .R me lo potresti inviare?
    
    Rispondi
    - Il Metapapero | 23 Maggio 2012 alle 9:20 AM
      
      e a che ti serve uno script tarato per questa analisi?
      
      Rispondi
      - Michelangelo Gentilini | 23 Maggio 2012 alle 9:26 AM
        
        vorrei confrontarlo con il mio script per analisi dei flussi sui ballottaggi di Piacenza (io mio script non usa dell’infrenza ecologica di goodman ma su questo articolo http://unibs.prod.cineca.it/sites/default/files/ricerca/allegati/2008-Un%20metodo%20ingenuo%20per%20l%27analisi%20dei%20flussi%20elettorali%20_con%20M.%20Trentini.pdf) e inoltre vorrei elaborare un modelo attrattivo-gravitazionale
        
        Rispondi
        
        Il Metapapero | 22 giugno 2012 alle 8:52 AM
        
        Ciao Michelangelo,
        scusa per il ritardo della risposta, comunque io non ho uno script, ma un paio, uno per calcolarmi la matrice, l’altro per “rifinirla” dopo aver scartato i coefficienti fuori range.
        Quindi non penso di poterti essere d’aiuto, nel senso che non ho una “funzione” nel senso classico del termine (i.e. data una matrice di risultati ottengo una matrice di coefficienti)
        
        Rispondi
        
        Michelangelo Gentilini | 23 giugno 2012 alle 9:07 AM
        
        Non ti preoccupare! Grazie ancora per la disponibilità
        
        Rispondi
Riccardo | 28 febbraio 2013 alle 5:49 AM

Ciao Metapapero,
ho trovato il tuo blog molto interessante. Sono uno studente di economia di Roma e vorrei provare a calcolare i flussi, potresti per cortesia farmi provare il tuo script IPF per ambiente R?
grazie in anticipo.
Riccardo C.

Rispondi
- Il Metapapero | 28 febbraio 2013 alle 9:15 AM
  
  ciao riccardo, lo script ipf serve solo a redistribuire in maniera omogenea i voti restanti sulla matrice, in modo da far “tornare” i marginali…
  
  Rispondi
Riccardo Fanti | 6 marzo 2013 alle 3:06 AM

Grazie della riposta Metapapero. Non vorrei approfittare troppo ma l’occasione di porre domande ad un esperto è ghiotta, quindi ci provo: nella matrice X dei dati al tempo (t-1) devo inserire le percentuali dei partiti o i dati assoluti? Domando questo perché se metto le percentuali avrò multicollinearità e dunque (x’x)^-1 singolare, giusto?

Rispondi
- Il Metapapero | 6 marzo 2013 alle 7:20 AM
  
  Ovviamente devi usare i voti assoluti, in quanto tra le due elezioni il numero totale degli aventi diritto cambia e quindi l’uso delle percentuali introduce un altro errore, benche’ minimo
  
  Rispondi
sabatolimonciello Limonciello | 27 febbraio 2018 alle 5:13 PM

Molto interessante l’articolo. Ho provato a ricavare la Tabella2 attraverso l’uso della Regressione di excel ma mi esce solo il valore dell’intercetta e non quello dei coefficienti angolari. Sicuramente sbaglio qualcosa ma non so cosa…

Rispondi