QS kirjoitti: ↑27 Helmi 2025, 19:51Disputator kirjoitti: ↑27 Helmi 2025, 19:22 Keskeinen raja-arvolause todennäköisyyslaskennassa on tämänkin jakauman taustalla?Niin hyvä kysymys. Vaan onko tässä sanojen pituuden jakauma itsessään jo lähes normaalijakauma. Jos näistä 728 498 sanasta poimitaan 10 000 sanan otoksia, niin todennäköisyysjakauma otosten sanojen pituuksille on mainitun lauseen nojalla kyllä lähes normaalijakauma sekin.
Vai?
Edit: unohdin tarkentaa kuvaan, että siinä on 728 498 uniikkia erillistä sanaa. Kunkin sanan perusmuoto esiintyy vain kerran, ja sen taivutusmuodot myös vain kerran. Listassa ovat esim sanat "...kissa,kissan,kissalle,kissalta...koira,koiran,koiralle...".
Kiinnostaisi nähdä yhden kantasanan, esim. sieni, kaikkien kehitelmien jakauma; sieni, sienestys, sienestää, sienikkö, sienistyminen yms ja kaikki taivutusmuodot - ja verrata sitä laajemman sanaston jakaumaan; löytyiskö "akustisille" nystyille pohjavirettä?