1.4 Gestió de dades

R és un programa d’anàlisi estadística que, entre altres avantatges, permet dos aspectes claus de qualsevol recerca: la gestió de dades i la visualització de resultats.

R no és estrictament un programa, sinó un llenguatge de programació amb el qual podem interactuar amb l’ordinador. Per instal·lar R cal descarregar la versió corresponent, que es pot obtenir sense restriccions donat que és programari lliure (tant en el sentit de preu com en el sentit de llibertat per modificar-lo).

Per tal de treballar amb R és convenient fer servir una interfície gràfica que permeti de manera fàcil poder navegar pel sistema de fitxers de l’ordinador, tenir algunes plantilles per editar codi, autocompletar les comandes, o acolorir la sintaxi, entre altres. RStudio és una solució popular i raonable perquè té versions per diferents plataformes (Linux, Mac, Windows).

Una de les virtuts del programa és la de ser fàcilment extensible per qualsevol que tingui un nivell mitjà de programació amb el llenguatge, de manera que el nombre del que s’anomenen llibreries o paquets és avui en dia molt elevat i abasta un rang molt ample de disciplines, tècniques i usos. Abans de fer servir una llibreria per primer cop en el teu ordinador cal que la instal·lis, però només un cop. La resta de vegades que la vulguis fer servir en tindràs prou amb carregar-la en memòria amb library(). Els paquets que necessitaràs per seguir el material docent s’instal·len de la següent manera:

install.packages(c(
  "dplyr", "tidyr", "ggplot2",
  "countrycode", "WDI",
  "openxlsx", "readstata13", "readxl",
  "network", "GGally",
  "maps", "geosphere",
  "knitr"), dependencies = TRUE)

R és molt versàtil en quant a la capacitat d’incorporar dades de fonts molt diverses. Permet combinar fàcilment diferents matrius de dades fent survir columnes coincidents (funcions merge() i left_join()), i també redimensionar les matrius de dades de manera ràpida (funcions gather() i spread()), que veurem més endavant. Els paquets per a la gestió del que s’anomena “dades netes” (“tidy data”) i que caldrà carregar en cada sessió són els següents:

library(tidyr)
library(dplyr)

Per entendre com funciona la gestió de les tidy data vegeu els següents tutorials sobre tidyr en format web, dplyr en format web i vídeo i un tutorial conjunt.

Les capacitats gràfiques del programa també són destacables, en tant que de manera molt senzilla es poden obtenir figures de les dades a analitzar que permeten visualitzar els aspectes més rellevants. En aquest sentit, en aquests materials s’utilitzaran les capacitats del paquet ggplot2. Vegeu un tutorial complet de les capacitats gràfiques de ggplot2 i en vídeo.:

library(ggplot2)