Nemrég azon kezdtünk gondolkodni,
mire használható a regressziós egyenes,
főként pedig annak meredeksége
egy mintasokaság adatai alapján.
Hogyan következtethetünk ebből
az alapsokaság
regressziós egyenesének a meredekségére.
Ebben a videóban arról lesz szó,
hogy milyen feltételekkel
tehetünk következtetéseket
a regressziós egyenesekre vonatkozóan.
Ezeket részben már megismertük
a hipotézisvizsgálatok
és konfidencia intervallumok kapcsán
az átlagok és arányok vizsgálata során,
de lesz néhány új feltétel is.
Hogy könnyebben megjegyezzük őket,
használhatjuk a LINER betűszót:
L-I-N-E-R.
Ha esetleg nem volna egyértelmű,
ez majdnem ugyanaz, mint a „lineáris”.
LINER, ami egy „A” betűvel kiegészítve
„lineáris” lenne.
Ez nagyon hasznos, hiszen
lineáris regresszióról van szó.
Szóval ez az L „lineárisat” jelent.
A feltétel tehát az, hogy a kapcsolat
a populáció x és y változói között
valóban lineáris kapcsolat legyen.
Tehát a kapcsolat valóban lineáris legyen
az x és y között.
Sokszor eleve így feltételezzük,
például egy vizsgán,
mondjuk egy felvételin.
Ilyenkor úgy vesszük,
hogy ez a feltétel teljesül,
vagy akár úgy, hogy mindegyik teljesül.
A lényeg az, hogy tudd,
mik ezek a feltételek.
De érdemes megemlíteni,
hogy ha a mögöttes kapcsolat nem lineáris,
akkor előfordulhat,
hogy néhány következtetés
nem lesz annyira megbízható.
A következő,
amit már korábban is láttunk,
a következtetések általános
feltételeinek kapcsán,
a függetlenségi feltétel
(angolul independence).
Ez többféleképpen értelmezhető.
Vagy az egyes megfigyelések
függetlenek egymástól,
például a visszatevéses mintavételnél,
vagy gondolhatunk a 10%-os szabályra,
amiről akkor beszéltünk,
amikor az átlagok és arányok
függetlenségi feltételét vizsgáltuk.
Itt biztosnak kell lennünk abban,
hogy a mintanagyság legfeljebb 10%-a
az alapsokaságnak.
A következő feltétel a normalitás
vagy normális eloszlás,
amiről már beszéltünk
az átlagokra és arányokra vonatkozó
következtetések kapcsán,
bár egy kicsit összetettebb
jelentést kap,
amikor regresszióról beszélünk.
Gyakran úgy vesszük,
hogy a normalitás is teljesül.
Rajzolok egy regressziós egyenest,
a perspektíva kedvéért
három dimenzióban.
Ez az x tengely,
ez az y tengely,
az alapsokaság regressziós egyenese
pedig így néz ki.
A normalitási feltétel azt jelenti,
hogy az alapsokaságban
bármely x érték esetén
normális eloszlású y értékekre számítunk.
Tehát berajzolom az y értékek normális
eloszlását adott x érték esetében.
Íme a normális eloszlás.
Egy másik x érték esetén is
normális eloszlásra számítunk.
Tehát adott x érték esetén az
y értékek eloszlása normális.
Mint említettem,
sokszor csak feltételezzük,
hogy ez teljesül,
mert - legalábbis egy bevezető
statisztika órán -
nehéz lenne minderre magadtól rájönni.
A következő feltétel
kapcsolódik ehhez,
ez pedig az egyenlő variancia
vagy egyenlő szórásnégyzet.
Ez csak annyit jelent,
hogy ezeknek a normális eloszlásoknak
a kiterjedése azonos
az egyes x értékek esetében.
Ezt nevezhetjük egyenlő varianciának
vagy egyenlő szórásnak is.
Tehát például
ha egy adott x érték mellett
hirtelen sokkal alacsonyabb
lenne a variancia,
az így nézne ki,
és így már nem teljesülne
a következtetésnek ez a feltétele.
Végül, de nem utolsó sorban,
és ezt már sokszor láttuk:
a randomitás vagy véletlenszerűség
feltétele.
Eszerint az adatok
egy megfelelően kivitelezett
random mintavételből származnak,
vagy valamilyen randomizált vizsgálatból.
Ezt a feltételt mindenhol láttuk korábban,
amikor a következtetés
feltételeit tárgyaltuk.
Szóval, erről ennyit,
ezeket jó tudni.
Elő fog fordulni néhány vizsgán,
de általában, amikor feladatot
oldunk meg egy statisztika alapjai órán,
úgy vesszük, hogy a következtetés
feltételei teljesülnek.
Rákérdezhetnek
a következtetés feltételeire,
de nem fogják kérni, hogy bizonyítsd be
például a normalitás vagy az
egyenlő variancia feltételét.
Az azért túlzás lenne egy
statisztika alapjai órán.