Filip Landgren
Historisk bakgrund
1822–1911
Halvkusin till Darwin. Rastlös viktoriansk forskare som rörde sig mellan ärftlighet, meteorologi och statistik. Mätte föräldrars och barns längder, ritade in frekvenserna i ett rutnät — och såg att konturerna bildade ellipser.
Ellipsens lutning var hans mått på samvariation: smal och brant = starkt samband. Det var korrelation — decennier innan Pearson formaliserade r.
Historisk bakgrund
Plate X ur Regression towards Mediocrity in Hereditary Stature (1886)
Korrelation
r mäter molnets form — inte en linje genom det.
Korrelation
Överensstämmelse
Överensstämmelse
Regressionsmodeller
Regressionsmodeller
Regressionsmodeller
Regressionsmodeller
Regressionsmodeller
Regression
Slope ≠ 1 → proportionell bias
Intercept ≠ 0 → konstant bias
r mäter samvariation mellan två variabler — det har inget med regression att göra.
R² = 1 − SSres / SStot — andelen varians som modellen förklarar. Att R² = r² är en egenskap hos OLS, inte en allmän sanning.
Visuell inspektion
Visuell inspektion
Modellfilosofi
Identisk statistik kan dölja helt olika verkligheter — och en modell med fel antaganden kan ändå ge bra prediktioner.
Ptolemaios epicykler förutsade planetpositioner med hög precision. Ontologin var felaktig.
"Alla regressionsmodeller är geocentriska — men de är inte lika geocentriska. Antaganden om felstruktur avgör vilken slope du får."
Regressionsmodeller
Viktad Deming kompenserar för detta — punkter vid höga koncentrationer får lägre vikt.
Sammanfattning
"Välj modell efter antaganden — inte efter bekvämlighet."
"Uppgiften är inte att se vad ingen ännu har sett, utan att tänka vad ingen ännu har tänkt — om det som alla ser."
Arthur Schopenhauer, Parerga und Paralipomena (1851)
Filip Landgren