opgaver:Uge5

From Eksperimentel Fysik WIKI

(Difference between revisions)

Jump to: navigation, search

Latest revision as of 12:34, 23 May 2012

I denne uge skal I arbejde med lidt mere avanceret statisk, som en forsmag på hvad I kan lære i mere avancerede statistik-kurser, som f.eks. Anvendt Statistik, der afholdes i blok 1. I skal kun gå i gang med disse opgaver hvis I faktisk er nået at blive færdige med de sidste ugers opgaver!

Som en forberedelse på at kunne lave disse opgaver, skal I læse et lille dokument skrevet af Morten Dam Jørgensen, der desuden også lavede nedenstående opgaver.

Dokument om multivariat statistik: multivariatstatistik.pdf

Det kan også hjælpe at læse nogle Wikipedia-sider om emnerne, som f.eks.

Multivariate analysis
- Covariance Matrix
- Correlations
- Autocorrelations (valgfri)
Principal Component Analysis
- Linear models
- Non-linear models (kernel methods)
Fast fourier transforms - cool blog om FFT (valgfri)

Opgave 1 - Lineær korrelation

Disse øvelser viser hvordan lineære korrelationer kan beregnes og visualiseres, metoder som er anvendelige på det meste data med flere parametre.

Du skal starte med at hente datasættet lande.txt, der stammer fra [1].

Spørgsmål 1

Start med at indlæse datafilen, og plot så populationen i forhold til landenes størrelse.

Løsning

Antal indbyggere som en funktion af landeareal.

Datafilen kan indlæses med koden

lande = importdata('lande.txt',';');

For nemmere at kunne arbejde med data sorteres de nu i rækkefølge efter landeareal, og population og areal skrives ind i hvert sit array:

sorted = sortrows(lande.data,1);

A = sorted(:,1);

P = sorted(:,2);

Plottet laves med

figure

plot(A,P,'.')

xlabel('lands størrelse [miles^2]')

ylabel('antal indbyggere')

title('Lineær sammenhæng')

Dette plot kan ses her til højre.

Spørgsmål 2

Beregn den linære korrelation manuelt (altså uden at bruge de indbyggede MATLAB funktioner til at gøre det). Er de to variable korrelerede?

Hint

Beregn først kovarians matricen (ligning 1 i multivariatstatistik.pdf dokumentet).

Løsning

Covariansen mellem to vektorer er givet ved $\Sigma_{i,j} = \text{cov}(X_i,X_j) = E[(X_i-\mu_i)(X_j-\mu_j)]$, hvor $E[\cdot]$ er forventningsværdien - simpelthen gennemsnittet. Dermed kan man manuelt udregne covariansmatricen ved først at udregne

X1 = A - mean(A);

X2 = P - mean(P);

og kan man simpelthen manuelt indsætte i kovarians matricen,

C_man = [ mean( X1 .* X1 ) mean( X1 .* X2 ) ; ...

mean( X2 .* X1 ) mean( X2 .* X2 ) ];

Tilsvarende kan man manuelt finde den lineære korrelation med

r_man = mean( X1 .* X2 ) / ( std(A) * std(P) );

Værdien af r_man er ca. 0.45, så de variable er korrelerede, men ikke super-godt.

Spørgsmål 3

Beregn kovariansmatricen og korrelationsmatricen med MATLAB's indbyggede funktioner, og sammenlign resultatet med dine egne beregninger.

Hint

Læs om funktionerne cov og corr i MATLAB hjælpen.

Løsning

Man bruger simpelthen de to funktioner cov og corr på A og P vektorerne,

C_aut = cov(A,P);

r_aut = corr(A,P);

Spørgsmål 4

Tag logaritmen af begge værdier, og plot resultatet igen. Diskutér forskellen - er korrelationen tydeligere nu? Beregn korrelationen for de logaritmiske værdier. Hvorfor er korrelationen anderledes end i spørgsmål 2?

Løsning

Antal indbyggere som en funktion af landeareal, logaritmisk.

Man plotter simpelthen

figure

plot(log(A),log(P),'.')

xlabel('log( lands størrelse [miles^2] )')

ylabel('log( antal indbyggere )')

title('Dobbeltlogaritmisk sammenhæng')

Nu er det meget nemmere at se på data, da den tydeligvis er mere eksponentielt fordelt. Ud fra figuren forventer man også at korrelationen mellem de logaritmiske vektorer er mere lineær, da den faktisk ser lineær ud nu!

C_log = cov(log(A),log(P));

r_log = corr(log(A),log(P));

Det viser sig at r_log er omkring 0.86, hvilket præcis er som forventet - korrelationen er bedre for de logaritmiske.

Spørgsmål 5

Lav et lineært fit af resultatet i spørgsmål 4. Hvor godt er fittet? Beskriver en lineær relation forholdet?

Løsning

Antal indbyggere som en funktion af landeareal, logaritmisk, sammen med et lineært fit.

Fittet laves bare med

[cfun good] = fit(log(A),log(P),'poly1');

og kan plottes oven i den forrige figur med

hold on

plot(log(A),cfun(log(A)),'-g')

For at finde ud af hvor godt fittet er, kan man udregne $\chi^2$ for det. Man kan også bruge den $R^2$ værdi som fit funktionen giver. Denne er givet i

good.rsquare;

Denne viser sig at være meget tæt på 1, hvilket fortæller at fittet er ret godt.

Altså er en lineær relation god til at beskrive forholdet mellem logaritmen af antallet af indbyggere i et lang og logaritmen af arealet af landet.