A szöveg csak Firefox böngészőben jelenik meg helyesen. Használja a fenti PDF file-ra mutató link-et a letöltésre. A harmadik probléma tisztázásával szeretnénk befejezni a cikksorozatot. Emlékeztetőül ismét idézzük fel, miről is van szó. 3. Probléma. (Hogyan lehet egy közvéleménykutatási eredményből, tehát egy minimodellből következtetni az egész sokaságra?) A Wash&Go cég szeretne képet kapni, hogy legújabb termékük milyen fogadtatásban részesült a magyar piacon. Ezért valahogyan kiválasztanak 1000 családot, s megkérdezik a véleményüket. Ha 342 család nem észlelt javulást az új termék esetén, sőt 47-en még rosszabbnek is tartják, míg 611 család véli jobbnak, akkor vajon jobbnak tartsuk-e az új terméket? Milyen előfeltételeket használunk az okoskodásban? A harmadik probléma, ha figyelmesen elolvassuk, valahogyan ,,inverze'' a másodiknak. Ezúttal a sokaságról nincs információnk, ismerünk viszont egy mintát, s ebből szeretnénk valamilyen módon arra következtetni, mit lehet nagy valószínűséggel mondani az egész halmazról. Biztosan természetesen most sem lehet semmit. De ha a mintáról tudjuk, hogy ténylegesen véletlenszerűen választott, azaz nincs manipulálva, akkor abból következtethetünk a sokaságra. A manipuláció valóban gyakori a valóságban, s ez vezet oda, hogy az emberek gyakran mondják, nem hiszünk el semmilyen következtetést, mert az úgyis csalás. Ismert vélemény: A statisztikával mindent lehet bizonyítani, s mindennek az ellenkezőjét is. Ezért gyakori az az álláspont, hogy ez nem matematika, nem is illik bele a matematika tanításába, hiszen ott az ellentmondásmentes logika a fő vezérelv. Ez a vélemény azonban alapvetően hamis. A statisztika semmit sem bizonyít a matematikai bizonyosság klasszikus értelmében. Pontosan akkor kap szerepet ─ de akkor nincs is jobb nála ─ ha bizonyosan semmit nem lehet mondani, de szeretnénk mégis valahogyan mérni, hogy egyes állítások mennyire hihetőek. Tehát azért, mert nincs abszolút bizonyosság, még nem kell teljesen lemondani egy rangsor felállításáról aszerint, hogy a biztosan meg nem válaszolható kérdésekre melyik válasz a hihetőbb, vagy a matematika precízebb megfogalmazása szerint, melyik a valószínűbb. Ha valami nagyon valószínűtlen, akkor ,,praktikusan'' nem fogjuk azt várni, hogy gyakori jelenség legyen, ezért az ellenkezőjét tekintük majdnem biztosnak. Ezen kis kitérő után fogalmazzuk meg, mit értünk korrekt választáson. A második cikk végén leírtak itt is érvényesek, hiszen csak a kérdésfeltevés s az ismert információ más. Tehát feltehetjük, hogy a minta véletlenszerűen választott, méghozzá úgy, hogy egyik elem sincs kitüntetve, azaz a választás egyenletes eloszlás szerint történt. Erről írtunk [1]-ben az utolsó részben. A kérdés az, hogy vajon mit, s hogyan lehet a mintából következtetni a teljes sokaságra? Eljárásunkat egy ábrán fogjuk szemléltetni, amelynek lényege, hogy az ,,inverz'', már megoldott feladatra próbáljuk meg visszavezetni a problémát. A felső szakaszon szemléltetjük az alapul vett sokaságban egy adott tulajdonság előfordulási gyakoriságát (relatív gyakoriságát) ami 0 és 1 vagy százalékban kifejezve 0 és 100 közé esik. Ezt a statisztikában a becsülni kívánt paraméternek szokás nevezni, jele általában . Az alsó szakasz reprezentálja a mintát, ahol szintén van egy relatív gyakoriságunk, ezt jelöljük -szel. (1. ábra). Második feladatunk eszerint az volt, hogy ha ismerjük értékét a sokaságban, akkor egy véletlenül választott mintában előírt velószínűséggel milyen intervallumba esik , a várt relatív gyakoriság. Lásd a 2. ábrát, ahol jelöli a rizikó faktort, tehát az eséllyel az alsó szakaszon berajzolt intervallumba esik. A cikksorozat második részében mutattuk meg, hogyan lehet ezt kiszámolni. Az itt bemutatott 2. ábra csak szemléltetés. A mostani harmadik feladat tényleg az inverz, itt az alsó szakaszon ismerünk egy pontot, s a felső szakaszon keresünk egy intervallumot, amibe előírt eséllyel kell beleesnie -nak, amely most ismeretlen, s éppen ezt kívánjuk becsülni. Lásd a 3. ábrát. A kérdés az, hogyan lehetne a felső intervallumra valamilyen becslést adni. Itt segít a második megoldott probléma. Azt fogjuk mondani, hogy azok a pontok jönnek szóba fent, ahonnan a 2. ábrának megfelelő alsó intervallumba beleesik az ismert . Ezt szemléltetjük a 4. ábrán. és biztosan bele fog tartozni a keresett intervallumba, mert ezekből indított rizikójú alsó intervallumba beleesik . A mi feladatunk a két szélső és -vel jelölt pont meghatározása lesz. Írjuk fel, mit jelent a , illetve a pont feltételeink szerint. Ha a sokaság paramétere , akkor annak az esélye, hogy egyenlő kell legyen -val. Tehát, ha a minta éppen elemű, akkor:
| |
Feltételezve, hogy ismét lehet a normális eloszlással becsülni, most az kell, hogy teljesüljön. A várható érték természetesen , tehát a standardizálás esetünkben azt jelenti, hogy értékét kell levonni, s osztani a szórással, ami . Azaz a egyenlőséget kell megoldani. Mivel mint rizikófaktor általában előre adott, innen a táblázatok segítségével meghatázotható az a érték, amire a két oldal egyenlő. Innen továbbléphetünk a következő egyenlet megoldásával:
Mivel és (a minta elemszáma) adott, azért csak az ismeretlen, amely ebből az egyenletből kiszámítható. Előbb irjuk fel a hasonló egyenletet -re is, s azután együtt oldjuk meg a két egyenletet. Ezúttal a következő egyenlőségnek ( is határeset) kell teljesülni:
| |
Ismét feltételezve, hogy közelíthetünk a normális eloszlással. A normálást hasonlóképpen végrehajtva, felhasználva, hogy most az ábra szerint :
| |
ekkor a tulajdonságot használva:
azaz, ha jelöli ismét azt a számot, amelyre , akkor most a következő egyenlőséget kapjuk:
Látható, mennyire hasonlít (I) és (II). Emeljünk négyzetre mindkét esetben. Ekkor az alábbi másodfokú egyenlet két gyöke közül értelemszerűen a kisebb lesz , míg a nagyobb :
Ha ezt rendezzük, a következő másodfokú egyeneletet kapjuk -ra:
| |
Ennek megoldásakor, mint minden másofokú egyenletnél, a paraméterektől függően különböző lehetőségek lépnek föl. A diszkrimináns:
Tehát esetünkben mindig lesz valós gyök, mivel mindig nem negatív, hiszen egy relatív gyakoriság, tehát 0 és 1 közé esik. A két gyök tehát a következő:
Természetesen semmi lényegeset nem mondtunk, ha vagy kisebb, mint 0, vagy ha nagyobb, mint 1. (Az olvasóra bízzuk, milyen feltételek esetén lép ez föl.) Befejezésül nézzük meg, a fenti eredményekből milyen válasz adható a mi kérdésünkre. Tegyük fel, hogy , ekkor . Ha azokat nézzük, akik szerint javult a minőség, akkor . Mivel , azért ki lehet számolni a két értéket: ; . Tehát 97,5% eséllyel mondhatjuk, hogy a lakosság 58‐64%-a elégedett, míg kifejezetten a változás ellen szavazókra adódik: , s így , , azaz a lakosságnak 97,5%-os biztonsággal legfeljebb 3,5‐6,4%-a tartja rosszabbnak az új terméket. Annak megítélése, hogy ez a cégnek jó vagy rossz eredmény, már nem tartozik feladataink közé. A legrosszabb eseteket véve: 6,4%-nál közel 9-szer több az 58%, ezért azt mondhatjuk, hogy a lakosság nem elégedetlen az új terméket illetően. Gyakorlásul érdemes az olvasónak kiszámolni, milyen intervallumba esik azok száma, akik szerint változatlan a termék. Vajon hogyan változnak ezek az értékek, ha növeljük vagy csökkentjük a rizikót? Ezen is érdemes elgondolkozni, s esetleg számolni is. Ezzel jó gyakorlatot lehet szerezni az ilyen típusú becslésekben. Befejezésül ennek a klasszikus módszernek egy meglevő hiányosságára szeretnénk rámutatni, amelynek lehetséges javítása már túlmutat ezen cikk keretein. Mi tulajdonképpen annak az esélyét vettük alapul, hogy ha , akkor adott eséllyel lehet-e a minta gyakorisága az éppen megfigyelt érték. Tehát olyan értékeket engedtünk meg, amelyekre teljesül: , ahol jelöli a feltételes valószínűséget, míg Θm egy megengedett érték, ha az egyenlőtlenség teljesül, feltéve hogy (x1,x2) egy, a Θm-hez tartozó α-becslési tartomány, amelyet a II. cikkben számoltunk. Lásd a 2. ábrát is. Valójában azonban a kérdés fordított, mi azt tudjuk, hogy X=X0, s ebből szeretnénk valamit Θ-ra mondani, azaz mi azt keresnénk, hogy milyen (Θb,Θj) intervallumra teljesül: P(Θ∈(Θb,Θj)∣X=X0)≥1-α. Természetesen ezt azért nem tudjuk kiszámítani, mert a függés fordított irányú, ha valaki megmondja Θ értékét, akkor lehet számolni X lehetséges értékeinek esélyét, de fordítva nem. Akik ismerik a klasszikus valószínűségszámításból Bayes-tételét, azok tudják, hogy azért lehet valamit tenni, ha a feltételt szeretnénk felcserélni a következménnyel. Éppen ez az egyik oka annak, hogy Bayes-statisztikának nevezik azt az eljárást, amely nem fordítja meg az eredeti kérdést. Ez azonban sok más ismeretet is feltételez, ezért itt csak a világos kép kedvéért említettem meg, hogy számításainkban ezen a ponton van egy kis gubanc. Itt szeretném megemlíteni, hogy a Matematika Tanítása című folyóiratban még ebben az évben éppen erről szeretnénk egy cikket megjeleníteni. A témáról (a Bayes-statisztikáról) nagy irodalom van, bár sajnos magyar nyelven nemigen hozzáférhetőek. Az érdeklődő olvasónak ajánlok két monográfiát ([2], [3]), illetve két talán könnyebben emészthető cikket ([4], [5]). Remélhetőleg sikerült egy kis kedvet csinálni a matematika ezen témakörének műveléséhez, s ha bárkinek további kérdése, megjegyzése, vagy problémája van, kérem írjon a szerkesztőség címére, vagy közvetlenül nekem:
Vancsó Ödön ETLTE TTK Mat. Szakmódszertani Csoport 1088 Budapest, Rákóczi út 5. E-mail: vancsó@ludens.elte.hu |
Irodalom [1] Vancsó Ödön: Mit lehet nyerni, ha engedünk a biztosból II. rész (KöMaL 1994. április). [2] D. Wickmann: Bayes-Statistik. Einsicht bewinnen und entscheiden bei Unsicherheit (B. I.-Verlag Mannheim, Wien, Zürich 1990). [3] V. Barnett: Comparative Statistical Inference (New York: Wiley 1973). [4] Danckwerts‐Vogel: Das Testen von Hypothesen (Didaktik der Mathematik, 1993, 51‐65. oldal). [5] D. V. Lindley: The analysis of experimental data the appreciation of tea and wine (Teaching Statistics Vol. 15 Number 1, p.22‐25. 1993). |