La resta del capítol presenta un glossari de conceptes útils per familiaritzar-te amb la gestió de dades en general i amb la resta dels materials en particular.
Un full de càlcul és un programa amb el qual estàs familiaritzat. Un arxiu de full de càlcul (el programa Calc de Libre/OpenOffice, o l’Excel de Microsoft Office) conté diferents “fulls”. Has d’imaginar-te una matriu de dades a un full de dades, encara que no és ben bé el mateix.
Una matriu de dades és, tècnicament, un recull de vectors de la mateixa mida encara que potencialment de tipus diferent. Imagina’t el vector que conté els noms dels estats que hi ha al món, ordenat verticalment formant una columna. En aquest cas es tractaria d’un vector no numèric, perquè no conté números, sinó caràcters. Al costat, però, enganxat en una segona columna imagina’t el valor de la població de cadascun dels estats corresponents, de manera que per al primer estat (primera observació del primer vector) li correspon el valor de la població (primera observació del segon vector).
Una matriu de dades es pot entendre també com una col·lecció de característiques (variables, a les columnes) per a un seguit de unitats d’anàlisi (observacions, a les files).
Evidentment, com que només hem parlat d’observacions/files en variables/columnes, una matriu de dades només té dues dimensions (files i columnes).
En aquest material les matrius de dades es refereixen a col·leccions de característiques (variables) de diferents unitats d’anàlisi: els països als Capítols 2 i 3, les relacions entre ells al Capítol 4 i les organitzacions internacionals al Capítol 5.
Un exemple simple de matriu de dades és el següent:
Country | Population |
---|---|
Andorra | 76965 |
Canada | 36708083 |
Senegal | 15850567 |
Dos vectors (“Country” i “Population”) de mida igual (3), però cadascun d’un tipus diferent. El primer és no numèric, i el segon numèric. El primer fa referència a les unitats d’anàlisi (els estats), mentre que el segon és el que conté dades en sentit estricte. El primer només marca les observacions.
Un segon exemple conté una altra variable (Year), que també és numèrica (un any no deixa de ser quelcom que es pot tractar com un número), però en aquest cas no és una dada, sinó un marcador de la unitat d’observació.
Country | Year | Population |
---|---|---|
Andorra | 2015 | 78014 |
Andorra | 2016 | 77281 |
Andorra | 2017 | 76965 |
Canada | 2015 | 35832513 |
Canada | 2016 | 36264604 |
Canada | 2017 | 36708083 |
Senegal | 2015 | 14976994 |
Senegal | 2016 | 15411614 |
Senegal | 2017 | 15850567 |
No sempre per a cada unitat d’anàlisi tenim una resposta en alguna de les variables. Especialment a les ciències socials el problema de no poder observar una característica en una unitat d’anàlisi és quelcom greu.
Per exemple, un físic teòric pot dissenyar un experiment que, per alguna raó, no surti bé, i per això en alguna de les seves observacions tindrà una dada mancant. El “per alguna raó”, però, en ciències naturals en general no està relacionat amb cap característica de la unitat d’anàlisi. A les ciències socials, però, això no és generalment el cas, i comporta una sèrie de problemes que, tot i que estan fora de l’abast d’aquest material, convé si més no, esmentar.
Per exemple, la mateixa dada de població de l’exemple anterior. Pots pensar en algun cas en què per alguna raó no es pugui disposar de la població d’un estat? I aquesta raó, és aleatòria a la unitat d’anàlisi, o potser té alguna cosa a veure amb altres característiques de la mateixa? Efectivament, si a un estat li manca la dada de població el més probable és que sigui perquè es tracta d’un estat amb tan poca infrastructura que no és ni capaç de fer un cens en condicions per quelcom tan bàsic com comptar els ciutadans que en formen part. I, com pots imaginar, aquesta és una caràcterística que també estarà associada a moltes altres dades mancants en altres variables. Per això, no tenir dades, en relacions internacionals i política comparada, normalment és un indicador d’altres raons, que convé, si més no, tenir al cap.
Les dades mancants es solen representar amb “NA” (not available). Un exemple d’una matriu de dades amb dades mancants és la següent:
Country | Year | Population |
---|---|---|
Andorra | 2015 | 78014 |
Andorra | 2016 | 77281 |
Andorra | 2017 | NA |
Canada | 2015 | 35832513 |
Canada | 2016 | 36264604 |
Canada | 2017 | 36708083 |
Senegal | 2015 | 14976994 |
Senegal | 2016 | 15411614 |
Senegal | 2017 | 15850567 |
Una unitat d’anàlisi és un objecte sobre el qual en volem recollir unes dades i analitzar-lo. Com ja hem esmentat abans, en la major part d’aquest material aquests objectes seran els estats, però també les organitzacions internacionals, o els tractats, poden ser objecte d’anàlisi.
Un estat pot ser observat en diferents moments del temps, de manera que la mateixa unitat d’anàlisi pot estar dividida en diferents observacions. Per tant, no confonguis mai una unitat d’anàlisi amb una observació. Una observació és tan sols una entrada (una fila) en una matriu de dades.
Cadascuna de les columnes que formen part d’una matriu de dades és una variable. N’hi ha de dos tipus, com ja hem comentat. Hi ha variables que contenen marques, que identifiquen les observacions. I hi ha variables que contenen dades en sí mateixes.
Les variables també es poden dividir en el tipus de format. Poden ser numèriques o no numèriques. En ciències naturals les numèriques solen ser més presents, mentre que a les ciències socials és molt habitual tenir variables no numèriques que ens informen de qualitats que tenen les nostres observacions.
Fixa’t en la següent matriu de dades:
Country | Year | Population |
---|---|---|
Andorra | 2015 | 78014 |
Andorra | 2016 | 77281 |
Andorra | 2017 | 76965 |
Canada | 2015 | 35832513 |
Canada | 2016 | 36264604 |
Canada | 2017 | 36708083 |
Senegal | 2015 | 14976994 |
Senegal | 2016 | 15411614 |
Senegal | 2017 | 15850567 |
Està perfectament organitzada per recollir altres variables i enganxar-les en més columnes. Per exemple, podríem enganxar el PIB, i d’aquesta manera molt fàcilment podríem crear una columna més que fos el PIB per càpita tot dividint el PIB per la població. Per tant, es tracta d’un format convenient per a comparar variables entre elles.
En canvi, però, es tracta d’un format que no és apte per gestionar les dades si el que volem és comparar en el temps les diferents observacions. Es fa difícil saber quina és la taxa de creixement de la població d’un any a l’altre. No podem calcular-la comparant observacions entre una fila i la fila anterior, ja que a vegades les files anteriors es corresponen a una altra unitat d’anàlisi (un altre estat). En aquest cas, ens convé canviar el format de les dades per un format que anomenem ample (en contrast amb el llarg que tenim fins ara). Així quedarien les dades en un format ample, preparat per a comparar observacions a través dels anys:
Country | 2015 | 2016 | 2017 |
---|---|---|---|
Andorra | 78014 | 77281 | 76965 |
Canada | 35832513 | 36264604 | 36708083 |
Senegal | 14976994 | 15411614 | 15850567 |
Tenir la capacitat de passar d’un format a un altre ràpidament permet gestionar les dades de manera molt eficient i, d’aquesta manera, poder centrar-se en els aspectes de les dades que volem comparar (en aquest cas, el temps, o bé les variables entre elles).