QS kirjoitti: 01 Maalis 2025, 20:31Tätä kuuluisaa lausetta testasin reaalimaailman datalla. Aivojeni valintapolkuja en osaa selittää, mutta päädyin siihen, että perusjoukko on 5 km alueella Zürichistä mitatut maanpinnan korkeudet (keskimääräisestä merenpinnasta). Pisteitä on 101 781.
Kuvassa korkeuksien luokkaväli on 20 m, ja pystyakseli on todennäköisyys sille, että satunnaisesti poimittu korkeus \(x\) osuu kyseiselle välille, esimerkiksi \(P(400\le x<420)=0.19\). Keskimääräiseksi korkeudeksi sain \(\bar x = 492.778\)
Zurich korkeudet merenpinnasta.png
Tein pienehkön satunnaisotannan palauttamatta, otoksen koko vain 500. Toistin kuitenkin tämän 5000 kertaa. Yksittäisen otoksen korkeuksien keskiarvo on \(\bar x\), ja kaikkien otoksien kesiarvot ovat joukko \(\{\bar x_1,\bar x_2,\bar x_3,...,\bar x_{5000}\}\).
Näiden 5000 keskiarvon joukosta sain keskiarvon \(\mu=492.736\) ja keskihajonnan \(\sigma=3.997\). Normaalijakauman tiheysfunktio on
$$f(x)=\frac{1}{\sqrt{2 \pi \sigma^2} }e^{-\frac{(x-\mu )^2}{2 \sigma ^2}}$$
Plottasin nuo 5000 keskiarvoa (luokkaväli 1 m), ja niitä vastaavat todennäköisyystiheydet pystyakselille. Lisäsin samaan kuvaan sinisellä normaalijakauman tiheysfunktion \(f(x)\).
keskeinen raja-arvolause.png
Keskeinen raja-arvolause pätee tässä varsin hyvin, joskin 5000 kertaa toisto hiukan liioittelua. Mutta matematiikka on kaunista!
Tuo keskeinen raja-arvolause (CLT) on kyllä jotenkin mystinen juttu, vaikka sen "perusversion" todistaminen tai ainakin uskottavaksi tekeminen ei ole mitenkään supervaikeaa.