Kezdőlap


Cím:	Mit lehet nyerni, ha egy kicsit engedünk a biztosból? 3.rész
Szerző(k):	Vancsó Ödön
Füzet:	1994/május, 249 - 254. oldal	PDF \| MathML
Témakör(ök):	Szakmai cikkek

A szöveg csak Firefox böngészőben jelenik meg helyesen. Használja a fenti PDF file-ra mutató link-et a letöltésre.

A harmadik probléma tisztázásával szeretnénk befejezni a cikksorozatot. Emlékeztetőül ismét idézzük fel, miről is van szó.
3. Probléma. (Hogyan lehet egy közvéleménykutatási eredményből, tehát egy minimodellből következtetni az egész sokaságra?)
A Wash&Go cég szeretne képet kapni, hogy legújabb termékük milyen fogadtatásban részesült a magyar piacon. Ezért valahogyan kiválasztanak 1000 családot, s megkérdezik a véleményüket. Ha 342 család nem észlelt javulást az új termék esetén, sőt 47-en még rosszabbnek is tartják, míg 611 család véli jobbnak, akkor vajon jobbnak tartsuk-e az új terméket? Milyen előfeltételeket használunk az okoskodásban?
A harmadik probléma, ha figyelmesen elolvassuk, valahogyan ,,inverze'' a másodiknak. Ezúttal a sokaságról nincs információnk, ismerünk viszont egy mintát, s ebből szeretnénk valamilyen módon arra következtetni, mit lehet nagy valószínűséggel mondani az egész halmazról. Biztosan természetesen most sem lehet semmit. De ha a mintáról tudjuk, hogy ténylegesen véletlenszerűen választott, azaz nincs manipulálva, akkor abból következtethetünk a sokaságra.
A manipuláció valóban gyakori a valóságban, s ez vezet oda, hogy az emberek gyakran mondják, nem hiszünk el semmilyen következtetést, mert az úgyis csalás. Ismert vélemény: A statisztikával mindent lehet bizonyítani, s mindennek az ellenkezőjét is. Ezért gyakori az az álláspont, hogy ez nem matematika, nem is illik bele a matematika tanításába, hiszen ott az ellentmondásmentes logika a fő vezérelv. Ez a vélemény azonban alapvetően hamis. A statisztika semmit sem bizonyít a matematikai bizonyosság klasszikus értelmében. Pontosan akkor kap szerepet ─ de akkor nincs is jobb nála ─ ha bizonyosan semmit nem lehet mondani, de szeretnénk mégis valahogyan mérni, hogy egyes állítások mennyire hihetőek. Tehát azért, mert nincs abszolút bizonyosság, még nem kell teljesen lemondani egy rangsor felállításáról aszerint, hogy a biztosan meg nem válaszolható kérdésekre melyik válasz a hihetőbb, vagy a matematika precízebb megfogalmazása szerint, melyik a valószínűbb.
Ha valami nagyon valószínűtlen, akkor ,,praktikusan'' nem fogjuk azt várni, hogy gyakori jelenség legyen, ezért az ellenkezőjét tekintük majdnem biztosnak.
Ezen kis kitérő után fogalmazzuk meg, mit értünk korrekt választáson.
A második cikk végén leírtak itt is érvényesek, hiszen csak a kérdésfeltevés s az ismert információ más. Tehát feltehetjük, hogy a minta véletlenszerűen választott, méghozzá úgy, hogy egyik elem sincs kitüntetve, azaz a választás egyenletes eloszlás szerint történt. Erről írtunk [1]-ben az utolsó részben.
A kérdés az, hogy vajon mit, s hogyan lehet a mintából következtetni a teljes sokaságra? Eljárásunkat egy ábrán fogjuk szemléltetni, amelynek lényege, hogy az ,,inverz'', már megoldott feladatra próbáljuk meg visszavezetni a problémát.
A felső szakaszon szemléltetjük az alapul vett sokaságban egy adott tulajdonság előfordulási gyakoriságát (relatív gyakoriságát) ami 0 és 1 vagy százalékban kifejezve 0 és 100 közé esik. Ezt a statisztikában a becsülni kívánt paraméternek szokás nevezni, jele általában $q$ .
Az alsó szakasz reprezentálja a mintát, ahol szintén van egy relatív gyakoriságunk, ezt jelöljük $X$ -szel. (1. ábra).
Második feladatunk eszerint az volt, hogy ha ismerjük $Θ$ értékét a sokaságban, akkor egy véletlenül választott mintában előírt velószínűséggel milyen intervallumba esik $X$ , a várt relatív gyakoriság. Lásd a 2. ábrát, ahol $α$ jelöli a rizikó faktort, tehát az $X$ $1 - α$ eséllyel az alsó szakaszon berajzolt intervallumba esik. A cikksorozat második részében mutattuk meg, hogyan lehet ezt kiszámolni. Az itt bemutatott 2. ábra csak szemléltetés.
A mostani harmadik feladat tényleg az inverz, itt az alsó szakaszon ismerünk egy $X$ pontot, s a felső szakaszon keresünk egy intervallumot, amibe előírt eséllyel kell beleesnie $Θ$ -nak, amely most ismeretlen, s éppen ezt kívánjuk becsülni. Lásd a 3. ábrát.
A kérdés az, hogyan lehetne a felső intervallumra valamilyen becslést adni. Itt segít a második megoldott probléma. Azt fogjuk mondani, hogy azok a pontok jönnek szóba fent, ahonnan a 2. ábrának megfelelő alsó intervallumba beleesik az ismert $X = X_{0}$ . Ezt szemléltetjük a 4. ábrán. $Θ_{1}$ és $Θ_{2}$ biztosan bele fog tartozni a keresett intervallumba, mert ezekből indított $α$ rizikójú alsó intervallumba beleesik $X$ . A mi feladatunk a két szélső $Θ_{b}$ és $Θ_{j}$ -vel jelölt pont meghatározása lesz.
Írjuk fel, mit jelent a $Θ_{b}$ , illetve a $Θ_{j}$ pont feltételeink szerint. Ha a sokaság paramétere $Θ_{b}$ , akkor annak az esélye, hogy $X \leq X_{0}$ egyenlő kell legyen $(1 - α)$ -val. Tehát, ha a minta éppen $n$ elemű, akkor:

\begin{matrix} \sum_{k = 0}^{n X_{0}} (\binom{n}{k}) \cdot Θ_{b}^{k} \cdot {(1 - Θ_{b})}^{n - k} = 1 - α . \end{matrix}

Feltételezve, hogy ismét lehet a normális eloszlással becsülni, most az

n \cdot Θ_{b} \cdot (1 - Θ_{b}) > 9

kell, hogy teljesüljön. A várható érték természetesen

n Θ_{b}

, tehát a standardizálás esetünkben azt jelenti, hogy

n Θ_{b}

értékét kell levonni, s osztani a szórással, ami

\sqrt[]{n \cdot Θ_{b} \cdot (1 - Θ_{b})}

.
Azaz a

Φ (\frac{n X_{0} - x Θ_{b}}{\sqrt[]{x Θ_{b} (1 - Θ_{b})}}) = 1 - α

egyenlőséget kell megoldani. Mivel

α

mint rizikófaktor általában előre adott, innen a

Φ

táblázatok segítségével meghatázotható az a

z_{α}

érték, amire a két oldal egyenlő.
Innen továbbléphetünk a következő egyenlet megoldásával:

\begin{matrix} \frac{n X_{0} - n Θ_{b}}{\sqrt[]{n Θ_{b} (1 - Θ_{b})}} = z_{α} . \end{matrix}

(I)

Mivel

X_{0}

és

n

(a minta elemszáma) adott, azért csak

Θ_{b}

az ismeretlen, amely ebből az egyenletből kiszámítható. Előbb irjuk fel a hasonló egyenletet

Θ_{j}

-re is, s azután együtt oldjuk meg a két egyenletet.
Ezúttal a következő egyenlőségnek (

Θ_{j}

is határeset) kell teljesülni:

\begin{matrix} \sum_{k = n X_{0}}^{n} (\binom{n}{k}) \cdot Θ_{j}^{k} \cdot {(1 - Θ_{j})}^{n - k} = 1 - α . \end{matrix}

Ismét feltételezve, hogy

n \cdot Θ_{j} \cdot (1 - Θ_{j}) > 9

közelíthetünk a normális eloszlással. A normálást hasonlóképpen végrehajtva, felhasználva, hogy most az ábra szerint

n Θ_{j} > n X_{0}

\begin{matrix} 1 - Φ (\frac{n X_{0} - n Θ_{j}}{\sqrt[]{n Θ_{j} (1 - Θ_{j})}}) = 1 - α, \end{matrix}

ekkor a

Φ (- z) = 1 - Φ (z)

tulajdonságot használva:

\begin{matrix} Φ (\frac{n Θ_{j} - n X_{0}}{\sqrt[]{n Θ_{j} (1 - Θ_{j})}}) = 1 - α, \end{matrix}

azaz, ha

z_{α}

jelöli ismét azt a számot, amelyre

Φ (z) = 1 - α

, akkor most a következő egyenlőséget kapjuk:

\begin{matrix} \frac{n Θ_{j} - n X_{0}}{\sqrt[]{n Θ_{j} (1 - Θ_{j}}} = z_{α} . \end{matrix}

(II)

Látható, mennyire hasonlít (I) és (II).
Emeljünk négyzetre mindkét esetben. Ekkor az alábbi másodfokú egyenlet két gyöke közül értelemszerűen a kisebb lesz

Θ_{b}

, míg a nagyobb

Θ_{j}

\begin{matrix} n^{2} {(X_{0} - Θ)}^{2} = z_{α}^{2} \cdot n \cdot Θ (1 - Θ) . \end{matrix}

Ha ezt rendezzük, a következő másodfokú egyeneletet kapjuk

Θ

-ra:

\begin{matrix} (x + z_{α}^{2}) Θ^{2} - (2 n X_{0} + z_{α}^{2}) Θ + n X_{0}^{2} = 0 \end{matrix}

Ennek megoldásakor, mint minden másofokú egyenletnél, a paraméterektől függően különböző lehetőségek lépnek föl. A diszkrimináns:

\begin{matrix} (2 n X_{0} + z_{α}^{2}) - 4 n X_{0}^{2} (n + z_{α}^{2}) = z_{α}^{2} - 4 n X_{0}^{2} z_{α}^{2} + 4 n X_{0}^{2} z_{α}^{2} = \\ = z_{α}^{2} (z_{α}^{2} + 4 n X_{0} [1 - X_{0}]) > 0. \end{matrix}

Tehát esetünkben mindig lesz valós gyök, mivel

(1 - X_{0})

mindig nem negatív, hiszen

X_{0}

egy relatív gyakoriság, tehát 0 és 1 közé esik.
A két gyök tehát a következő:

\begin{matrix} Θ_{b} & = \frac{(2 n X_{0} + z - α^{2}) - z_{α} \cdot \sqrt[]{(z_{α}^{2} + 4 n X_{0} [1 - X_{0}])}}{2 (n + z_{α}^{2})} \\ Θ_{j} & = \frac{(2 n X_{0} + z - α^{2}) + z_{α} \cdot \sqrt[]{(z_{α}^{2} + 4 n X_{0} [1 - X_{0}])}}{2 (n + z_{α}^{2})} \end{matrix}

Természetesen semmi lényegeset nem mondtunk, ha vagy

Θ_{b}

kisebb, mint 0, vagy ha

Θ_{j}

nagyobb, mint 1.
(Az olvasóra bízzuk, milyen feltételek esetén lép ez föl.)
Befejezésül nézzük meg, a fenti eredményekből milyen válasz adható a mi kérdésünkre. Tegyük fel, hogy

α = 0,025

, ekkor

z_{α} = 1,96

.
Ha azokat nézzük, akik szerint javult a minőség, akkor

X_{0} = \frac{611}{1000}

. Mivel

n = 1000

, azért ki lehet számolni a két

Θ

értéket:

Θ_{b} = 0,58

;

Θ_{j} = 0,64

. Tehát 97,5% eséllyel mondhatjuk, hogy a lakosság 58‐64%-a elégedett, míg kifejezetten a változás ellen szavazókra adódik:

X_{0} = \frac{47}{1000}

, s így

Θ_{b} = 0,035

Θ_{j} = 0,062

, azaz a lakosságnak 97,5%-os biztonsággal legfeljebb 3,5‐6,4%-a tartja rosszabbnak az új terméket.
Annak megítélése, hogy ez a cégnek jó vagy rossz eredmény, már nem tartozik feladataink közé.
A legrosszabb eseteket véve: 6,4%-nál közel 9-szer több az 58%, ezért azt mondhatjuk, hogy a lakosság nem elégedetlen az új terméket illetően. Gyakorlásul érdemes az olvasónak kiszámolni, milyen intervallumba esik azok száma, akik szerint változatlan a termék. Vajon hogyan változnak ezek az értékek, ha növeljük vagy csökkentjük a rizikót? Ezen is érdemes elgondolkozni, s esetleg számolni is. Ezzel jó gyakorlatot lehet szerezni az ilyen típusú becslésekben.
Befejezésül ennek a klasszikus módszernek egy meglevő hiányosságára szeretnénk rámutatni, amelynek lehetséges javítása már túlmutat ezen cikk keretein. Mi tulajdonképpen annak az esélyét vettük alapul, hogy ha

Θ = Θ_{0}

, akkor adott eséllyel lehet-e a minta gyakorisága az éppen megfigyelt

X = X_{0}

érték. Tehát olyan

Θ

értékeket engedtünk meg, amelyekre teljesül:

P (X_{0} \in (x_{1}, x_{2}) ∣ Θ = Θ_{m}) \geq 1 - α

, ahol

P(...∣...)

jelöli a feltételes valószínűséget, míg

Θ_{m}

egy megengedett érték, ha az egyenlőtlenség teljesül, feltéve hogy

(x_{1}, x_{2})

egy, a

Θ_{m}

-hez tartozó

α

-becslési tartomány, amelyet a II. cikkben számoltunk. Lásd a 2. ábrát is.
Valójában azonban a kérdés fordított, mi azt tudjuk, hogy

X = X_{0}

, s ebből szeretnénk valamit

Θ

-ra mondani, azaz mi azt keresnénk, hogy milyen

(Θ_{b}, Θ_{j})

intervallumra teljesül:

P(Θ\in(Θ_{b},Θ_{j})∣X=X_{0})\geq1-α

. Természetesen ezt azért nem tudjuk kiszámítani, mert a függés fordított irányú, ha valaki megmondja

Θ

értékét, akkor lehet számolni

X

lehetséges értékeinek esélyét, de fordítva nem. Akik ismerik a klasszikus valószínűségszámításból Bayes-tételét, azok tudják, hogy azért lehet valamit tenni, ha a feltételt szeretnénk felcserélni a következménnyel. Éppen ez az egyik oka annak, hogy Bayes-statisztikának nevezik azt az eljárást, amely nem fordítja meg az eredeti kérdést. Ez azonban sok más ismeretet is feltételez, ezért itt csak a világos kép kedvéért említettem meg, hogy számításainkban ezen a ponton van egy kis gubanc.
Itt szeretném megemlíteni, hogy a Matematika Tanítása című folyóiratban még ebben az évben éppen erről szeretnénk egy cikket megjeleníteni. A témáról (a Bayes-statisztikáról) nagy irodalom van, bár sajnos magyar nyelven nemigen hozzáférhetőek. Az érdeklődő olvasónak ajánlok két monográfiát ([2], [3]), illetve két talán könnyebben emészthető cikket ([4], [5]).
Remélhetőleg sikerült egy kis kedvet csinálni a matematika ezen témakörének műveléséhez, s ha bárkinek további kérdése, megjegyzése, vagy problémája van, kérem írjon a szerkesztőség címére, vagy közvetlenül nekem:

Vancsó Ödön
ETLTE TTK Mat. Szakmódszertani Csoport
1088 Budapest, Rákóczi út 5.
E-mail: vancsó@ludens.elte.hu

Irodalom

[1] Vancsó Ödön: Mit lehet nyerni, ha engedünk a biztosból II. rész (KöMaL 1994. április).
[2] D. Wickmann: Bayes-Statistik. Einsicht bewinnen und entscheiden bei Unsicherheit (B. I.-Verlag Mannheim, Wien, Zürich 1990).
[3] V. Barnett: Comparative Statistical Inference (New York: Wiley 1973).
[4] Danckwerts‐Vogel: Das Testen von Hypothesen (Didaktik der Mathematik, 1993, 51‐65. oldal).
[5] D. V. Lindley: The analysis of experimental data the appreciation of tea and wine (Teaching Statistics Vol. 15 Number 1, p.22‐25. 1993).