La base de dades del Banc Mundial amb els “World Development Indicators” (WDI) és la font de dades sobre característiques socioeconòmiques més rellevant, tant en termes temporals (bona part de les sèries temporals comencen a mitjans del segle XX), d’unitats cobertes (nombre de països) i de variables. En realitat el Banc Mundial no és qui genera les dades de manera primària, sinó que són cadascun dels països els que s’encarreguen de proporcionar-les i el Banc Mundial les ordena, sistematitza i presenta de manera comprensiva.
El valor fonamental de la base de dades dels WDI, més enllà de l’abast que acabem de comentar, és que són indicadors oberts a l’accés i la consulta de qualsevol. D’aquesta manera, el primer lloc al qual has de recórrer a l’hora de fer un treball sobre qualsevol país, o per comparar països i regions, o, en definitiva, per encarar qualsevol investigació, és aquest. Tenir xifres al cap i poder-les contextualitzar en la geopolítica mundial és clau per entendre què passa, com passa i per què passa quelcom en relacions internacionals.
Hi ha dues qüestions a destacar per posar en perspectiva l’ús dels WDI com a font de dades. La primera és que les dades més noves sempre estan subjectes a canvis. És a dir, els instituts d’estadística estatals revisen la comptabilitat nacional regularment i no és estrany veure que hi ha canvis entre la primera xifra que es reporta un any i el que queda marcat com a dada històrica cinc anys després. Si bé no seran mai canvis exagerats, no és estrany trobar que la riquesa d’un país s’ha mogut en fins a un 5 per cent amunt o avall amb les successives revisions. Per tant, cal posar sempre les dades en perspectiva quan es tracta de dades recents.
La segona qüestió és que la qualitat i la disponibilitat de les dades estan clarament relacionades amb la capacitat organitzativa de l’estat. Dit d’una altra manera: un estat que funciona bé, amb capacitat per registrar transaccions, amb personal qualificat per comptabilitzar el que passa dins de les seves fronteres, per revisar-ho i per publicar-ho, ha de tenir certes capacitats organitzatives. I no és estrany que siguin els estats més rics els que puguin fer això. Si un estat té una baixa capacitat de funcionar, és més probable que les dades que genera siguin o de més baixa qualitat o, directament, que sigui incapaç de generar-les.
Si bé la disponibilitat de les dades en funció de la capacitat organitzativa i fortalesa de l’administració estatal és en certa manera lògica, no és normalment tant lògic considerar que la manca de dades pot alterar la validesa científica de la recerca. Quan analitzem dades esperem no trobar-hi forats, no trobar-hi dades que manquen, dades anomenades perdudes3 Traducció del concepte “missing values” en anglès.. Si tenim la dissort que no n’hi ha en alguns casos, el que esperem almenys, des del punt de vista estadístic i matemàtic, és que el patró de dades perdudes sigui aleatori; no tingui a veure amb el que s’està analitzant.
A tall d’exemple: vols recollir dades sobre la riquesa d’un país. En aquest cas observaràs la magnitud de la seva economia tal i com la mesura el Producte Interior Brut. Ara bé, resulta que dels deu països que analitzes n’hi ha dos que no tenen dades. En sí mateix això no hauria de ser cap problema si els dos països que no reporten dades no responen a cap patró sistemàtic. Però resulta que en general en relacions internacionals aquest patró és esbiaixat i sistemàtic. És més probable que un país amb un nivell baix de riquesa no reporti el seu PIB que no pas que ho faci un país amb un nivell alt. I és així perquè en bona part el PIB connota també una certa capacitat d’un estat. I això és un problema a l’hora de treure conclusions perquè vol dir que les podries treure basant-te en un biaix original a les dades, pel fet que països de baixa riquesa són més propicis a no generar-ne. És més fàcil que els Estats Units donin un valor de PIB que no pas que ho faci el Sudan, i això està relacionat amb el fet que el PIB és més elevat en el primer cas que no pas en el segon. Per tant, obviar països que no tenen dades sense haver-se plantejat per què no les tenen no és una bona idea.
Cal anar amb compte, doncs, amb la disponibilitat de les dades socioeconòmiques, ja que tenir o no tenir una dada pot donar-nos molta informació sobre la dada mateixa, i en general aquesta informació sol perjudicar estats amb problemes de funcionament, que en general són aquells pels quals volem informació, precisament.
Les dades dels indicadors del Banc Mundial inclouen aspectes com agricultura, educació, ajut al desenvolupament, canvi climàtic, economia i creixement, mineria i recursos naturals, energia, medi ambient, deute extern, sector financer, gènere, salut, infraestructura, pobresa, sectors privat i públic, desenvolupament social, ciència i tecnologia, treball, protecció social, comerç, i desenvolupament urbà.
És molt simple obtenir les dades dels WDI per analitzar, a través del paquet WDI
del programa R
.
library(WDI)
El primer pas és buscar la variable que t’interessi fent una cerca a la base de dades amb la funció WDIsearch()
i posar com a primer argument de la funció la paraula clau que vols buscar (en anglès). En aquest cas, buscarem dades que tinguin a veure amb Internet:
WDIsearch("Internet")
## indicator
## [1,] "WP14910.9"
## [2,] "WP14910.8"
## [3,] "WP14910.7"
## [4,] "WP14910.6"
## [5,] "WP14910.5"
## [6,] "WP14910.4"
## [7,] "WP14910.3"
## [8,] "WP14910.2"
## [9,] "WP14910.10"
## [10,] "WP14910.1"
## [11,] "SF.CMN.INET.USER.10K"
## [12,] "IT.BBD.USEC.CD"
## [13,] "IT.NET.USER.ZS"
## [14,] "IT.NET.USER.P3"
## [15,] "IT.NET.USER.P2"
## [16,] "IT.NET.USER"
## [17,] "IT.NET.USEC.ZS"
## [18,] "IT.NET.USEC.CD"
## [19,] "IT.NET.TELC.CD"
## [20,] "IT.NET.SUB.CN"
## [21,] "IT.NET.SUB.CD"
## [22,] "IT.NET.SECR.P6"
## [23,] "IT.NET.SECR"
## [24,] "IT.NET.ISPC.CD"
## [25,] "IT.NET.HOST.P4"
## [26,] "IT.NET.EDUC.ZS"
## [27,] "IT.NET.CONN.CN"
## [28,] "IT.NET.CONN.CD"
## [29,] "IT.NET.BNDW.PC"
## [30,] "IT.NET.BNDW"
## [31,] "gwp1.6"
## [32,] "gwp1.5"
## [33,] "gwp1.4"
## [34,] "gwp1.3"
## [35,] "gwp1.2"
## [36,] "gwp1.1"
## [37,] "gwp1"
## [38,] "2.0.cov.Int"
## [39,] "2.0.hoi.Int"
## [40,] "gf5.6"
## [41,] "gf5.5"
## [42,] "gf5.4"
## [43,] "gf5.3"
## [44,] "gf5.2"
## [45,] "gf5.1"
## [46,] "gf5"
## name
## [1,] "Used the Internet to pay bills or buy things, income, richest 60% (% ages 15+) [w2]"
## [2,] "Used the Internet to pay bills or buy things, income, poorest 40% (% ages 15+) [w2]"
## [3,] "Used the Internet to pay bills or buy things, secondary education or more (% ages 15+) [w2]"
## [4,] "Used the Internet to pay bills or buy things, primary education or less (% ages 15+) [w2]"
## [5,] "Used the Internet to pay bills or buy things, older adults (% ages 25+) [w2]"
## [6,] "Used the Internet to pay bills or buy things, young adults (% ages 15-24) [w2]"
## [7,] "Used the Internet to pay bills or buy things, female (% age 15+) [w2]"
## [8,] "Used the Internet to pay bills or buy things, male (% age 15+) [w2]"
## [9,] "Used the Internet to pay bills or buy things, rural (% age 15+) [w2]"
## [10,] "Used the Internet to pay bills or buy things (% age 15+) [w2]"
## [11,] "Internet users (per 10,000 people)"
## [12,] "Fixed broadband Internet access tariff (US$ per month)"
## [13,] "Individuals using the Internet (% of population)"
## [14,] "Internet users (per 1,000 people)"
## [15,] "Internet users (per 100 people)"
## [16,] "Internet users"
## [17,] "Internet total monthly price (% of monthly GNI per capita)"
## [18,] "Price basket for Internet (US$ per month)"
## [19,] "Internet telephone access charges ($ per 30 off-peak hours)"
## [20,] "Fixed broadband Internet monthly subscription (current LCU)"
## [21,] "Fixed broadband Internet monthly subscription (current US$)"
## [22,] "Secure Internet servers (per 1 million people)"
## [23,] "Secure Internet servers"
## [24,] "Internet service provider access charges ($ per 30 off-peak hours)"
## [25,] "Internet hosts (per 10,000 people)"
## [26,] "Schools connected to the Internet (%)"
## [27,] "Fixed broadband Internet connection charge (current LCU)"
## [28,] "Fixed broadband Internet connection charge (current US$)"
## [29,] "International Internet bandwidth (bits per person)"
## [30,] "International Internet bandwidth (Mbps)"
## [31,] "Access to a mobile phone or internet at home, older adults (% age 35+)"
## [32,] "Access to a mobile phone or internet at home, young adults (% ages 15-34)"
## [33,] "Access to a mobile phone or internet at home, income, richest 60% (% age 15+)"
## [34,] "Access to a mobile phone or internet at home, income, poorest 40% (% age 15+)"
## [35,] "Access to a mobile phone or internet at home, male (% age 15+)"
## [36,] "Access to a mobile phone or internet at home, female (% age 15+)"
## [37,] "Access to a mobile phone or internet at home (% age 15+)"
## [38,] "Coverage: Internet "
## [39,] "HOI: Internet "
## [40,] "Made payment using the internet, older adults (% age 35+)"
## [41,] "Made payment using the internet, young adults (% ages 15-34)"
## [42,] "Made payment using the internet, income, richest 60% (% age 15+)"
## [43,] "Made payment using the internet, income, poorest 40% (% age 15+)"
## [44,] "Made payment using the internet, male (% age 15+)"
## [45,] "Made payment using the internet, female (% age 15+)"
## [46,] "Made payment using the internet (% age 15+)"
El resultat ens retorna dues columnes. La primera (indicator
) és la paraula clau de l’indicador, i la segona (name
) és el nom complet de l’indicador, amb un petit detall. Per saber més detalls dels indicadors vés a la pàgina web del Banc Mundial i hi trobaràs una descripció més detallada de la font originària de les dades.
Per tenir el percentatge d’usuaris d’Internet amb banda ample només has d’especificar l’indicador a la funció WDI()
(en aquest cas, IT.NET.BBND.P2
) i desar-ho en un objecte que creïs amb el nom que vulguis (li direm en aquest cas int
)4 Els arguments de la funció WDI
també permeten especificar el país (country =
), l’any d’inici (start =
) i l’any de finalització (end =
):
int <- WDI(indicator = "IT.NET.BBND.P2")
Ara en memòria hi tens un objecte anomenat int
amb el qual pots operar. Per veure la seva estructura fes servir la funció str()
:
str(int)
## 'data.frame': 1848 obs. of 4 variables:
## $ iso2c : chr "1A" "1A" "1A" "1A" ...
## $ country : chr "Arab World" "Arab World" "Arab World" "Arab World" ...
## $ IT.NET.BBND.P2: num 2.67 2.091 1.954 1.304 0.893 ...
## $ year : num 2011 2010 2009 2008 2007 ...
Es tracta d’una matriu de dades (data frame) amb 1848 observacions i 4 variables, la primera de les quals és el codi ISO del país en dos dígits, la segona el nom del país (o de la regió, en cas que la variable també tingui variants regionals), la tercera el valor de la variable que busques i la quarta l’any d’observació.
Per tenir una idea dels valors que conté la matriu de dades no cal observar els 1848 casos, sinó que amb els primers ja te’n pots fer una idea. En aquest cas, la funció head()
mostra els primers valors.
head(int)
## iso2c country IT.NET.BBND.P2 year
## 1 1A Arab World 2.66989 2011
## 2 1A Arab World 2.09127 2010
## 3 1A Arab World 1.95441 2009
## 4 1A Arab World 1.30378 2008
## 5 1A Arab World 0.89296 2007
## 6 1A Arab World 0.50375 2006
Per realitzar una figura d’un estat concret has de filtrar el nom que vulguis a la variable country
(o, si el saps, fer servir el seu codi ISO). En aquest cas, començant per l’objecte int
, a través d’una canonada (representada per %>%
) l’envies a la funció filter()
a la qual li concretes que vols aquelles observacions el country
de les quals sigui estrictament igual a "Germany"
.
int.de <- int %>%
filter(country == "Germany")
int.de
el tens desat a la memòria, i pots fer-lo servir per dibuixar una figura amb l’evolució temporal, a través d’especificar els elements estètics (aes
) x
i y
corresponents a l’eix horitzontal i vertical, respectivament. Finalment, l’element geomètric que vols que aparegui a la figura és una línia, i l’afegeixes a l’objecte definit per ggplot()
amb la funció geom_line()
:
Figure 2.1: Resultat inicial d’una figura sense interès per aspectes formals.
ggplot(int.de, aes(x = year, y = IT.NET.BBND.P2)) +
geom_line()
expand_limit()
et permet dir-li que com que l’eix vertical es correspon a un percentatge, necessites que el valor mínim sigui el zero, i el valor màxim el 100. Només així pots tenir una perspectiva real de fins a quin punt canvia el valor anualment. Per especificar un text millor per als eixos necessites les funcions xlab()
i ylab()
::
Figure 2.2: Evolució temporal del percentatge d’usuaris d’Internet amb banda ampla a Alemanya (2005-2011). Font: World Development Indicators.
ggplot(int.de, aes(x = year, y = IT.NET.BBND.P2)) +
geom_line() +
expand_limits(y = c(0, 100)) +
xlab("Any") + ylab("% usuaris d'Internet\namb banda ampla")
Hi ha també un altre paquet en R
que permet interactuar de manera similar a com ho fa el WDI
, però amb les dades de països europeus provinents d’Eurostat, la oficina d’informació estadística europea. Es tracta del paquet eurostat
.