Különbség a szórás és a standard hiba között

Bevezetés

Alapértelmezett Deltérés (SD) és Standard Error (SE) látszólag hasonló terminológiák; fogalmilag annyira változatosak, hogy szinte felváltva használják őket a statisztikai szakirodalomban. Mindkét kifejezést általában egy plusz-mínusz szimbólum (+/-) előzi meg, amely azt jelzi, hogy szimmetrikus értéket definiálnak vagy értéktartományt képviselnek. Mindig mindkét kifejezés a mért értékek halmazának átlagával (átlagával) jelenik meg.

Érdekes módon egy SE-nek semmi köze nincs a szabványokhoz, a hibákhoz vagy a tudományos adatok közléséhez.

Az SD és a SE eredetének részletes áttekintése rávilágít arra, hogy a hivatásos statisztikusok és azok, akik túlságosan használják, miért hajlandók tévedni.

Szabványos eltérés (SD)

Az SD egy leíró az eloszlás elterjedését leíró statisztika. Mutatóként hasznos, ha az adatokat általában eloszlik. Ez azonban kevésbé hasznos, ha az adatok erősen ferde vagy bimodálisak, mivel nem írják le nagyon jól az eloszlás alakját. Általában az SD-t használjuk a minta jellemzőinek jelentésekor, mert szándékozunk leírni az adatok átlagában változnak. Az adatok elterjedésének leírására szolgáló további hasznos statisztikák a kvartilis közötti tartomány, a 25. és 75. percentilis, valamint az adatok tartománya..

1. ábra: Az SD az adatok elterjedésének mértéke. Ha az adatok egy normál eloszlású eloszlásból származnak, akkor az adatok kétharmadánál az átlag 1 szórásától számítva kell számolni..

A variancia a leíró statisztika is, és azt a szórás négyzetének tekintik. Az eredmények leírásakor általában nem adják meg, de egy matematikailag jobban nyomon követhető képlet (azaz a négyzetbeli eltérések összegének megadásával) és szerepet játszik a statisztikák kiszámításában..

Például, ha két statisztikánk van P & Q ismert eltérésekkel var(P) & var(Q), akkor az összeg varianciája P + Q egyenlő a varianciák összegével: var(P) +var(Q). Most nyilvánvaló, hogy a statisztikusok miért szeretnek beszélni az eltérésekről.

A standard eltéréseknek azonban fontos a terjesztés jelentése, különösen akkor, ha az adatokat általában eloszlik: Az intervallum átlaga +/ - 1 SD várhatóan elfogja a minta 2/3-át és az intervallum átlagát +- 2 SD várhatóan elfogja a minta 95% -át.

Az SD jelzi, hogy az egyes kérdésekre adott válaszok mennyiben különböznek vagy „térnek el” az átlagtól. SD megmondja a kutatónak, hogy a válaszok hogyan oszlanak el - koncentrálódnak-e az átlag körül, vagy szétszórtak-e szélesen? Valamennyi válaszadó értékelte-e a terméket a skála közepén, vagy valamennyien jóváhagyták, mások pedig nem utasították el?

Vegyünk egy kísérletet, ahol a válaszadókat felkérjük, hogy értékelje a terméket egy attribútum-sorozat alapján 5 pontos skálán. A tíz válaszadó csoport (az „A” -tól „J” jelöléssel) átlagos értéke „jó ár-érték arány” volt 3,2, SD SD-értéke 0,4, és a “termék megbízhatóság” átlaga 3,4, SD SD értéke 2,1 volt..

Első pillantásra (csak az eszközöket tekintve) úgy tűnik, hogy a megbízhatóságot az értéknél magasabbra értékelték. A magasabb megbízhatóság SD azonban jelezheti (amint azt az alábbi megoszlás mutatja), hogy a válaszok nagyon polarizáltak, ahol a legtöbb válaszadónak nem volt megbízhatósági kérdése (az „5” tulajdonságot értékelte), de a válaszadók kisebb, de fontos szegmense volt egy megbízhatósági problémát, és az „1” attribútumot értékelte. Egyedül az átlagot tekintve a történetnek csak egy részét mondja el, azonban a kutatók ezekre összpontosítanak. A válaszok eloszlását fontos figyelembe venni, és az SD értékes leíró intézkedést ad erről.

válaszoló Jó ár-érték arány A termék megbízhatósága
A 3 1
B 3 1
C 3 1
D 3 1
E 4 5
F 4 5
G 3 5
H 3 5
én 3 5
J 3 5
Átlagos 3.2 3.4
Std. dev. 0.4 2.1

Első felmérés: A válaszadók egy terméket 5 pontos skálán osztályoznak

Az 5 pontos értékelési skálára adott válaszok nagyon eltérõ eloszlása ​​ugyanazt az átlagot eredményezheti. Fontolja meg a következő példát, amely két különböző besorolás válaszértékeit mutatja be.

Az első példában („A” besorolás) az SD nulla, mert MINDEN válasz pontosan az átlagos érték volt. Az egyes válaszok egyáltalán nem tértek el az átlagtól.

A „B” besorolásnál, bár a csoport átlaga ugyanaz (3.0), mint az első eloszlásnál, a szórás magasabb. Az 1,15 szórás azt mutatja, hogy az egyes válaszok átlagosan * kissé több, mint egy ponttal vannak az átlagtól.

válaszoló „A” besorolás „B” besorolás
A 3 1
B 3 2
C 3 2
D 3 3
E 3 3
F 3 3
G 3 3
H 3 4
én 3 4
J 3 5
Átlagos 3.0 3.0
Std. dev. 0.00 1.15

Második felmérés: A válaszadók egy terméket 5 pontos skálán osztályoznak

Az SD vizsgálatának másik módja az, hogy a megoszlást a válaszok hisztogramján ábrázoljuk. Az alacsony SD-vel rendelkező eloszlás magas, keskeny alakban jelenik meg, míg a nagy SD-t szélesebb alak jelzi.

Az SD általában nem jelzi a „helyes vagy rossz” vagy „jobb vagy rosszabb” értéket - az alacsonyabb SD nem feltétlenül kívánatos. Ezt tisztán leíró statisztikának használják. Leírja az eloszlást az átlaghoz viszonyítva.

Taz SD-vel kapcsolatos technikai nyilatkozat

Az SD átlag eltérésként való gondolkodása kiváló módszer a jelentés fogalmi megértésére. Valójában azonban nem számolják átlagként (ha lenne, akkor „átlagos eltérésnek” nevezzük). Ehelyett a „szabványosított”, egy kissé összetett módszer az érték kiszámításához a négyzetek összegével.

Gyakorlati szempontból a számítás nem fontos. A legtöbb táblázatos program, táblázat vagy más adatkezelő eszköz kiszámítja az SD az Ön számára. Ennél is fontosabb, hogy megértsük, mit jelentenek a statisztikák.

Szabványos hiba

A standard hiba egy következtetési statisztika, amelyet a minta átlagának (átlagok) összehasonlításához használunk a populációk között. Ez egy intézkedés pontosság a minta átlaga. A minta átlag olyan adatokból származik, amelyek mögöttes eloszlással rendelkeznek. Nem képzelhetjük el úgy, mint az adatokat, mivel egyetlen kísérletet hajtottunk végre, és csak egyetlen értékkel rendelkezik. A statisztikai elmélet azt mondja nekünk, hogy a minta átlaga (egy nagy „elég” mintához és néhány szabályszerűség mellett) megközelítőleg normálisan eloszlik. Ennek a normál eloszlásnak a szórását standard hibának nevezzük.

2. ábra. Az alsó eloszlás reprejelzi az adatok eloszlását, míg a tetején lévő eloszlás a minta átlagának elméleti eloszlása. A 20 SD az adatok eloszlásának mértéke, míg az 5 SE az a bizonytalanság mértéke, amely a mintavételi átlag körüli.

Ha összehasonlítani szeretnénk az A kezelés és a B kezelés két mintájú kísérletének eredményeinek átlagát, akkor meg kell becsülnünk, hogy pontosan mértük az átlagot.

Valójában érdekli az a kérdés, mennyire pontosan mérjük meg a két eszköz közötti különbséget. Ezt a mérést a különbség standard hibájának nevezzük. Lehet, hogy nem lep meg, amikor megtudja, hogy a minta átlagának különbségének standard hibája az eszköz standard hibáinak függvénye:

Most, hogy megértette, hogy az átlag standard hibája (SE) és az eloszlás szórása (SD) két különféle vadállat, lehet, hogy azon tűnődsz, hogy vajon mennyire zavarosak össze. Bár fogalmilag különböznek egymástól, matematikai szempontból egyszerű kapcsolatuk van:

,ahol n az adatpontok száma.

Vegye figyelembe, hogy a standard hiba két összetevőtől függ: a minta szórása és a minta mérete n. Ennek intuitív értelme van: minél nagyobb a minta szórása, annál kevésbé pontosak lehetünk a valódi átlag becslésén.

Továbbá, minél nagyobb a minta, annál több információ van a népességről, és annál pontosabban tudjuk becsülni a valódi átlagot.

Az SE a középérték megbízhatóságát jelzi. Egy kicsi SE azt jelzi, hogy a mintavételi átlag pontosabban tükrözi a tényleges populáció átlagát. A nagyobb mintaszám általában kisebb SE-t eredményez (míg az SD-t nem befolyásolja közvetlenül a minta mérete).

A legtöbb felmérés során egy populációból mintát vesznek. Ezután a mintából nyert eredmények alapján következtetéseket vonunk le a populációról. Ha második mintát veszünk, akkor az eredmények valószínűleg nem egyeznek meg pontosan az első mintával. Ha egy besorolási tulajdonság átlagértéke 3,2 volt egy mintán, akkor 3,4 lehet egy azonos méretű második mintán. Ha végtelen számú (azonos méretű) mintát vonnánk populációnkból, megoszlásként megjeleníthetjük a megfigyelt átlagokat. Ezután kiszámolhatjuk az összes minta átlagát. Ez az átlag megegyezik a valós népesség átlaggal. Kiszámolhatjuk a minta átlagának eloszlását is. A minta átlagának ezen eloszlása ​​SD az egyes minták átlagának SE.

Ezért van a legfontosabb megfigyelésünk: SE a népesség átlagának SD.

Minta Átlagos
1. 3.2
2. 3.4
3. 3.3
4. 3.2
5. 3.1
... . ... .
... . ... .
... . ... .
... . ... .
... . ... .
Átlagos 3.3
Std. dev. 0,13

Az SD és SE kapcsolatát szemléltető táblázat

Most egyértelmű, hogy ha ennek az eloszlásnak az SD-je segít megérteni, hogy a minta átlaga milyen távolságra van a valós populáció átlagától, akkor ezt felhasználhatjuk annak megértésére, hogy az egyes minták átlaga pontosan vonatkozik-e a valós átlaghoz. Ez az SE lényege.

Valójában csak egyetlen mintát vettünk a populációnkból, de ezt az eredményt felhasználhatjuk a megfigyelt minta átlagának megbízhatóságának becslésére..

Valójában SE azt mondja nekünk, hogy 95% -kal bízhatunk abban, hogy megfigyelt mintánk átlaga plusz vagy mínusz körülbelül 2 (valójában 1,96) a közönségből származó standard hibák átlaga.

Az alábbi táblázat bemutatja a kutatásunkhoz használt első (és egyetlen) mintánkból kapott válaszok eloszlását. A 0,13 SE, amely viszonylag kicsi, azt jelzi, hogy átlagunk viszonylag közel áll a teljes népesség valódi átlagához. A hibahatár (95% -os konfidencia mellett) átlagunk esetében (nagyjából) kétszerese az értéknek (+/- 0,26), mondván, hogy az igaz középérték valószínűleg 2,94 és 3,46 között van..

válaszoló Értékelés
A 3
B 3
C 3
D 3
E 4
F 4
G 3
H 3
én 3
J 3
Átlagos 3.2
Std. Téved 0,13

összefoglalás

Sok kutató nem érti a különbséget a standard eltérés és a standard hiba között, annak ellenére, hogy ezeket gyakran bevonják az adatelemzésbe. Noha a szórás és a standard hiba tényleges számítása nagyon hasonlónak tűnik, két nagyon eltérő, de egymást kiegészítő intézkedést képviselnek. Az SD megmutatja eloszlásunk alakját, hogy az egyes adatértékek milyen közel állnak az átlagértékhez. SE azt mondja nekünk, hogy a mintánk átlaga milyen közel áll a teljes népesség valódi átlagához. Együtt segítenek abban, hogy teljesebb képet nyújtsanak, mint amit csak az átlag tud megmutatni.