Linjen och molnet

En visuell guide till regressionsmodeller
i klinisk kemi

Filip Landgren

Sir Francis Galton

Sir Francis Galton

1822–1911

Halvkusin till Darwin. Rastlös viktoriansk forskare som rörde sig mellan ärftlighet, meteorologi och statistik. Mätte föräldrars och barns längder, ritade in frekvenserna i ett rutnät — och såg att konturerna bildade ellipser.

Ellipsens lutning var hans mått på samvariation: smal och brant = starkt samband. Det var korrelation — decennier innan Pearson formaliserade r.

Galtons ellips

Galton 1886, Plate X — ellipsdiagram över föräldrars och barns längder

Plate X ur Regression towards Mediocrity in Hereditary Stature (1886)

Vad är r ?

r mäter molnets form — inte en linje genom det.

Restriction of range

Korrelation ≠ överensstämmelse

Bland–Altman

OLS — den osynliga defaulten

Deming — principbaserat standardval

Passing–Bablok — robust alternativ

Regression dilution

Modellkonvergens

Regressionens roll

Slope ≠ 1 → proportionell bias

Intercept ≠ 0 → konstant bias

r mäter samvariation mellan två variabler — det har inget med regression att göra.
R² = 1 − SSres / SStot — andelen varians som modellen förklarar. Att R² = r² är en egenskap hos OLS, inte en allmän sanning.

Ser ni någon skillnad?

Regressionsmodeller har inga ögon

Ptolemaios geocentriska modell med epicykler

Alla modeller är geocentriska

Identisk statistik kan dölja helt olika verkligheter — och en modell med fel antaganden kan ändå ge bra prediktioner.

Ptolemaios epicykler förutsade planetpositioner med hög precision. Ontologin var felaktig.

"Alla regressionsmodeller är geocentriska — men de är inte lika geocentriska. Antaganden om felstruktur avgör vilken slope du får."

Heteroskedasticitet

Viktad Deming kompenserar för detta — punkter vid höga koncentrationer får lägre vikt.

Varför modellvalet spelar roll

  • r mäter samvariation — inte överensstämmelse, inte bias, inte utbytbarhet
  • OLS antar att x är felfri — det är den aldrig vid metodjämförelse. Slope attenueras.
  • Deming modellerar felet i båda axlarna — det är det korrekta antagandet när vi jämför två mätmetoder
  • Passing–Bablok är robust — men robusthet är inte alltid en fördel. Den ignorerar information om felstrukturen.
  • Vid r > 0.99 konvergerar modellerna — men det är undantaget, inte regeln

"Välj modell efter antaganden — inte efter bekvämlighet."

"Uppgiften är inte att se vad ingen ännu har sett, utan att tänka vad ingen ännu har tänkt — om det som alla ser."

Arthur Schopenhauer, Parerga und Paralipomena (1851)

Tack

Filip Landgren