Perchè questa indagine: qualche numero
Esistono diversi database pubblicamente accessibili: nella maggioranza dei casi si tratta di raccolte non curate soggette a scarsi controlli di consistenza e veridicità dei dati. Inoltre i diversi target di visitatori e diverse capacità di diffusione sul web oltre metodi di raccolta dati parziali fanno si che i dati siano altamente frammentati con una scarsa sovrapposizione tra banche dati.
Minima sovrapposizione di dati.
Abbiamo confrontato un set di dati proprietario, generato da diverse fonti pubblicamente accessibili e soprattutto attraverso tecniche di information retrieval (nota 1), qui denominato set "www", e due database di pubblico dominio: il database "DaVinci" predisposto dal Ministero per gli Affari Esteri (nota 2) e la lista dei membri e degli affiliati di "Issnaf", la Italian Scientists and Scholars in North America Foundation, consultabile dal loro sito (nota 3).
Gli elementi comuni tra banche date sono stati determinati compilando un database interno a partire dai dati ricavati dal database DaVinci e dalle pagine di Issnaf tra il 2 e il 3 settembre 2009. L'unicità degli elementi viene garantita dalla combinazione dell'indirizzo email (non sempre disponibile), nome e cognome. I duplicati vengono eliminati e il controllo di eventuali omonimie viene fatto in maniera semimanuale. In figura 1 il diagramma di Venn mostra che la sovrapposizione tra i tre dataset non supera il 10% nel migliore dei casi (l'intersezione tra i due set più numerosi - DaVinci e www). Gli elementi comuni a tutti i 3 dataset sono 72, pari al 2.3% del totale (3146 elementi unici).

- FIGURA 1. Sovrapposizione tra banche dati -
Possibilità di meta-analisi e dati erronei.
Molte raccolte dati che riguardano gli scienziati sono specializzate in particolari aree geografiche o in specialità professionali. Questo limita di molto la possibilità di metaanalisi. Tra i tre qui considerati il dataset più numeroso ed eterogeneo èil database DaVinci. Abbiamo analizzato la distribuzione geografica dei 2004 elementi unici. Secondo i dati del database DaVinci (figura 2) oltre un quarto dei ricercatori/scienziati all'estero risiede negli Stati Uniti d'America (26%), e che oltre l'80% nelle sole prime 8 nazioni. Ben il 15% nel solo Brasile: il controllo manuale delle professioni immesse per questo paese ha evidenziato che in un numero significativo di elementi la professione inserita non è assimilabile alla definizione di "ricercatore italiano operante all'estero. Tra i 298 "ricercatori italiani" registrati come residenti in Brasile, almeno 90 sono probabilmente non italiani (come si evince da nome, curriculum e lingua utilizzata per la compilazione). Un'altra ventina di registrati con evidente nome, cognome e curriculum stranieri sono uniformemente registrati come residenti in altre nazioni. Ciò indica la mancanza di un controllo con conseguente filtro allo scopo di garantire veridicità e assicurare l'aderenza tra dati raccolti e scopo dichiarato del database. I dati in figura 2 soffrono pertanto di elevato rumore di fondo. Di qui la necessità di un maggiore controllo sui dati raccolti.

- FIGURA 2. Distribuzione geografica dati DaVinci -
Distribuzione nello spazio e nel tempo.
Il database DaVinci non contiene indicazioni sulla dimensione temporale dei dati e degli eventuali cambiamenti, rendendo impossibile la correlazione con eventi e politiche economiche, universitarie e nazionali.
Abbiamo analizzato la distribuzione geografica in funzione della distanza dall''Italia (nota 4). Se si escludono gli Stati Uniti, che possono essere considerati storicamente una meta preferenziale per i ricercatori e gli scienziati, metà dei ricercatori (45%) abita a non più di 2000 Km di distanza (Figura 3): il 22.1% a non più di 1000 Km e il 23.6% a non più di 2000 Km; nella figura 4 il dettaglio della percentuale dei ricerdatori nei paesi considerati ordinati per crescente distanza dall'Italia.

- FIGURA 3. Distribuzione in funzione della distanza dall'Italia, dati DaVinci -

- FIGURA 4. Paesi ordinati per distanza dall'Italia e relative %, dati DaVinci -
Quali domande?
L'analisi dei flussi migratori e di conoscenza che è possibile a partire da banche dati esistenti è assai limitata e soprattutto non è correlabile ad avvenimenti, politiche sociali ed economiche o congiunture economiche: è assente infatti ogni riferimento temporale. Non è quindi possibile rispondere in maniera immediata a domante del tipo "Quanti scienziati italiani sono andati all'estero prima dell'introduzione del dottorato in Italia e quanti dopo?, Quale specializzazione scientifica l'Italia ha maggiormente esportato negli anni 80 e verso quale paese?".
Il progetto MaRE raccoglie dati strutturati nel tempo e nello spazio, insieme ad una serie di altre covariabili descrittive che renderanno più facile rispondere a domande complesse di interesse storico, sociale ed economico.
L'iscrizione al progetto è gratuita e permette l'accesso al modulo di raccolta dati: tutti gli scienziati, accademici e professionisti della scienza che lavorano all'estero o che abbiano lavorato all'estero nel passato sono invitati ad aderire al progetto iscrivendosi e fornendo i dati della propria cronistoria, contribuendo allo studio dei flussi di conoscenza così come sono avvenuti nel passato. I dati vengono registrati nel database e possono successivamente essere aggiornati dagli iscritti nel caso si verifichino cambiamenti di status, affiliazione, lavoro, luogo o altro; i cambiamenti stessi vengono registrati come dati e la cronistoria temporale rispettata.
Note
(1) http://en.wikipedia.org/wiki/Information_retrieval
(2) http://www.esteri.it/davinci/
(3) http://www.issnaf.org/web/
(4) La distanza dall'Italia e gli altri paesi è stata determinata mediante le funzioni di GoogleMap come distanza tra Roma e le capitali dei rispettivi paesi.





