Πριν προχωρήσουμε στον έλεγχο στατιστικών υποθέσεων, θα πρέπει να αναφερθούμε

σε κάποιες βασικές έννοιες των πιθανοτήτων. Έτσι, ορίζουμε ως τυχαία

μεταβλητή κάθε χαρακτηριστικό ή φαινόμενο για το οποίο δεν ξέρουμε το

αποτέλεσμά του πριν αυτό εμφανιστεί (π.χ. το αποτέλεσμα από τη ρίψη ενός

ζαριού). Τυχαίο πείραμα ονομάζουμε τη διαδικασία παρατήρησης του

αποτελέσματος ενός τυχαίου γεγονότος / μεταβλητής (π.χ. η ρίψη ενός ζαριού).

Απλό ή βασικό ενδεχόμενο ονομάζουμε κάθε δυνατό αποτέλεσμα μιας τυχαίας

μεταβλητής ή ενός τυχαίου πειράματος (π.χ. οι αριθμοί 1 έως 6 που προκύπτουν

από τη ρίψη ενός ζαριού).

Υπάρχουν διάφοροι ορισμοί της πιθανότητας. Ο πιο απλός ορισμός είναι αυτός της

στατιστικής πιθανότητας που ορίζεται ως η συχνότητα εμφάνισης ενός

ενδεχομένου προς το σύνολο των επαναλήψεων του πειράματος.

ΔΙΑΚΡΙΤΕΣ ΜΕΤΑΒΛΗΤΕΣ

Σε όλες τις τυχαίες μεταβλητές μπορούμε να υπολογίσουμε τα περιγραφικά μέτρα,

αλλά χρησιμοποιώντας διαφορετικούς τύπους στους οποίους δεν θα επεκταθούμε. Οι

τυχαίες μεταβλητές χωρίζονται σε διακριτές και συνεχείς, ανάλογα

με τις πιθανές τιμές που μπορούν να πάρουν. Οι πιο σημαντικές διακριτές

τυχαίες μεταβλητές είναι οι ακόλουθες:

1. Διακριτή ομοιόμορφη: όλα τα ενδεχόμενα έχουν την ίδια

πιθανότητα εμφάνισης. Παράδειγμα: Το αποτέλεσμα από τη ρίψη ενός ζαριού.

2. Δίτιμη ή Bernoulli: Τα πιθανά ενδεχόμενα είναι δύο: 0

(αποτυχία) και 1 (επιτυχία). H παράμετρος που έχει ενδιαφέρον είναι η

πιθανότητα επιτυχίας που συμπίπτει και με το μέσο της κατανομής. Παράδειγμα:

αν μια εταιρεία θα επιτύχει (ή όχι) τις ετήσιες πωλήσεις που έχει βάλει ως

στόχο.

3. Διωνυμική κατανομή: Περιγράφει τον αριθμό επιτυχιών σε n

επαναλήψεις πειραμάτων Bernoulli. Παράδειγμα: Ο αριθμός των μηνών κατά

διάρκεια ενός έτους, όπου μια εταιρεία ξεπερνά ένα επιθυμητό όριο πωλήσεων.

4. Κατανομή Poisson: Μετράει τον αριθμό επιτυχιών σε ένα χρονικό

διάστημα. Χρησιμοποιείται πολύ στα συστήματα επιχειρησιακών λειτουργιών.

Παράδειγμα: αριθμός ατόμων που εισέρχονται σε ένα κατάστημα σε χρονικό

διάστημα μίας ώρας.

H ΚΑΝΟΝΙΚΗ ΚΑΤΑΝΟΜΗ

Από τις συνεχείς μεταβλητές αυτή που ξεχωρίζει είναι η κανονική

κατανομή, η οποία είναι συμμετρική και η μέση τιμή και η διάμεσός της

ταυτίζονται. H κανονική κατανομή είναι σημαντική, καθώς πολλές από τις

διαδικασίες που χρησιμοποιούμε στη στατιστική υποθέτουν κανονικότητα. Αν μία

τυχαία μεταβλητή X κατανέμεται κανονικά με μέσο μ και διακύμανση σ2, τη

συμβολίζουμε ως X~N(μ, σ2). Ειδική περίπτωση είναι η τυποποιημένη κανονική

κατανομή, η οποία έχει μέση τιμή μηδέν και διακύμανση ένα και συμβολίζεται

με Z~N(0,1). Οποιαδήποτε κανονική τυχαία μεταβλητή X μπορεί να τυποποιηθεί με

τον τύπο Z=(X-μ)/σ ~ N(0,1).

H EKTIMHTIKH

Εκτιμητική είναι το κομμάτι της στατιστικής που χρησιμοποιεί

δειγματικούς δείκτες για να προσεγγίσει (εκτιμήσει) τις πληθυσμιακές (ή

θεωρητικές) παραμέτρους. Έτσι, ο δειγματικός μέσος () χρησιμοποιείται για την

εκτίμηση του πληθυσμιακού μέσου (μ), ενώ η δειγματική διακύμανση (S2) για την

εκτίμηση της πληθυσμιακής διακύμανσης (σ2). H επιλογή των δειγματικών

συναρτήσεων δεν είναι προφανής και βασίζεται σε συγκεκριμένα στατιστικά

κριτήρια.

Πρώτα απ’ όλα, ας υποθέσουμε ότι θέλουμε τυχαίο δείγμα μεγέθους n.

Συμβολίζουμε με Χ1, Χ2, …, Xn τις τυχαίες μεταβλητές ενός χαρακτηριστικού

για το κάθε άτομο. Μετά τη δειγματοληψία, αυτές αντικαθίστανται από τις

παρατηρούμενες τιμές και τα δεδομένα του δείγματος. Συνεπώς, πριν από τη

δειγματοληψία, ο δειγματικός μέσος είναι μια συνάρτηση τυχαίων μεταβλητών

(εκτιμήτρια συνάρτηση), άρα και ο ίδιος μια τυχαία μεταβλητή. Μετά τη

δειγματοληψία, ο δειγματικός μέσος παίρνει μια συγκεκριμένη τιμή, η οποία

ονομάζεται εκτίμηση. Το ίδιο συμβαίνει και για τη δειγματική διακύμανση

και για οποιαδήποτε άλλη δειγματική συνάρτηση.

ENA ΠΑΡΑΔΕΙΓΜΑ

Το ότι ο δειγματικός μέσος είναι τυχαία μεταβλητή μπορούμε να το καταλάβουμε

και από το εξής παράδειγμα: Ας υποθέσουμε ότι θέλουμε να βρούμε το μέσο ύψος

των φοιτητών ενός Πανεπιστημίου. Αντί για ένα δείγμα, παίρνουμε 10 δείγματα

από 30 άτομα και για το κάθε δείγμα υπολογίζουμε το μέσο του. Ως αποτέλεσμα θα

έχουμε 10 διαφορετικές εκτιμήσεις του πληθυσμιακού μέσου ύψους, οι οποίες όλες

θα είναι σχετικά κοντά, εφόσον προσεγγίζουν (εκτιμούν) την ίδια ποσότητα.

H ΑΜΕΡΟΛΗΨΙΑ

Εφόσον, λοιπόν, ο δειγματικός μέσος είναι τυχαία μεταβλητή, συνεπάγεται ότι

έχει μέσο και τυπική απόκλιση (η οποία ονομάζεται τυπικό σφάλμα). Δύο

από τις βασικές ιδιότητες για να κρίνουμε αν μία εκτιμήτρια συνάρτηση είναι

καλή είναι η αμεροληψία (δηλαδή ο μέσος της εκτιμήτριας να είναι ίσος

με την παράμετρο που επιθυμούμε να εκτιμήσουμε) και να έχει το μικρότερο

δυνατό τυπικό σφάλμα (έτσι ώστε να εκτιμά τιμές κοντά στην πραγματική

πληθυσμιακή παράμετρο). Ο δειγματικός μέσος είναι αμερόληπτη εκτιμήτρια του

πληθυσμιακού μέσου και το τυπικό σφάλμα είναι ίσο με την πληθυσμιακή τυπική

απόκλιση διαιρεμένη με τη τετραγωνική ρίζα του μεγέθους τους δείγματος, δηλαδή

se()=σ/.

ΔΙΑΣΤΗΜΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

Βασικό σημείο της εκτιμητικής είναι το κεντρικό οριακό θεώρημα, με βάση το

οποίο, ακόμα κι αν η μεταβλητή που εξετάζουμε δεν είναι κανονική, ο

δειγματικός μέσος κατανέμεται κανονικά, όταν έχουμε μεγάλο δείγμα. Ο

υπολογισμός μια συγκεκριμένης τιμής ως εκτίμηση μιας παραμέτρου συνεπάγεται

ότι παρόλο που θα πέσουμε κοντά στην υπό εκτίμηση παράμετρο, ποτέ δεν θα

μπορέσουμε να την εκτιμήσουμε ακριβώς. Για τον λόγο αυτό βασιζόμαστε στην

κατανομή της εκτιμήτριας συνάρτησης, για να υπολογίσουμε ένα (1-α)100%

διάστημα εμπιστοσύνης.

Ο έλεγχος των στατιστικών υποθέσεων

Σε όλες τις επιστήμες είναι σημαντικό να μπορούμε να επιβεβαιώσουμε κατά πόσο

μια θεωρία, υπόθεση ή σενάριο αντιπροσωπεύει ένα πραγματικό πρόβλημα ή

φαινόμενο. Εδώ ως υπόθεση θεωρούμε μια πρόταση που αφορά τον πληθυσμό μας,

πιστεύουμε ότι ισχύει και θέλουμε να ελέγξουμε την ορθότητά της. Ένα

παράδειγμα στατιστικής υπόθεσης είναι η εκλογή ή όχι ενός υποψήφιου στις

εκλογές (έλεγχος κατά πόσον το ποσοστό εκλογής είναι μεγαλύτερο του 50%, αν

έχουμε μόνο δύο υποψηφίους). Στους ελέγχους των στατιστικών υποθέσεων έχουμε

πάντα δύο ανταγωνιστικές (εναλλακτικές) υποθέσεις-σενάρια: τη μηδενική

υπόθεση H0 και την εναλλακτική υπόθεση H1.

* H μηδενική υπόθεση δηλώνει αριθμητικά την υπό έλεγχο πρόταση, όπως,

για παράδειγμα, ότι το μέσο μηνιαίο κόστος ζωής ενός φοιτητή είναι 400 ευρώ,

δηλαδή H0: μ=400. Αναφέρεται πάντα σε πληθυσμιακές παραμέτρους (π.χ. το

μέσο μ ή το ποσοστό επιτυχίας p) και όχι σε δειγματικές συναρτήσεις (π.χ. το

δειγματικό μέσο). H μηδενική υπόθεση είναι αυτή που ο ερευνητής προσπαθεί να

καταρρίψει απορρίπτοντάς την. Πάντα ξεκινάμε με την αποδοχή ότι η μηδενική

υπόθεση είναι αληθής. Για να καταλάβουμε τη λογική ενός στατιστικού ελέγχου,

μπορούμε να παρομοιάσουμε τη διαδικασία σαν μια δίκη, στην οποία ο

κατηγορούμενος (Η0) είναι αθώος (αληθής) μέχρι να αποδειχτεί ότι είναι

ένοχος (δηλαδή να απορριφθεί). Ένα σημαντικό χαρακτηριστικό της μηδενικής

υπόθεσης είναι ότι περιέχει (σχεδόν) πάντα την ισότητα («=»). Τέλος, η

μηδενική υπόθεση μπορεί είτε να απορριφθεί είτε να μην απορριφθεί (όχι,

όμως, να γίνει αποδεκτή).

* H εναλλακτική υπόθεση H1 είναι αυτή που αντιτίθεται στην H0, όπως για

παράδειγμα: ο μέσος μ δεν είναι 400 ευρώ (H1: μ400). Δεν περιέχει την ισότητα

και μπορεί, είτε να «γίνει αποδεκτή» ή να «μη γίνει αποδεκτή» (ενώ η H0

απορρίπτεται ή δεν απορρίπτεται). Αρκετές φορές είναι η υπόθεση που

υποστηρίζει ο ερευνητής. Δύο είναι οι τύποι των εναλλακτικών υποθέσεων:

διπλής ουράς (περιέχει το σύμβολο του διάφορου «») και μίας

ουράς (περιέχει τα σύμβολα των ανισοτήτων «>» ή «<»).

H ΣΥΝΑΡΤΗΣΗ ΕΛΕΓΧΟΥ

Προκειμένου να πραγματοποιήσουμε τον έλεγχο, χρειαζόμαστε μια συνάρτηση

ελέγχου. H συνάρτηση ελέγχου είναι ένα μέτρο απόκλισης των δεδομένων από

τη μηδενική υπόθεση. Επιλέγεται έτσι ώστε να είναι γνωστή η κατανομή της, όταν

ισχύει η μηδενική υπόθεση. Αν η δειγματική τιμή τής συνάρτησης ελέγχου είναι

στο κέντρο τής κατανομής που προκύπτει όταν η μηδενική υπόθεση ισχύει, δεν

απορρίπτουμε την H0. Σε αντίθετη περίπτωση απορρίπτουμε την H0 με τη λογική

ότι, αν αυτή ίσχυε, θα ήταν απίθανο να παρατηρήσουμε μια τέτοια δειγματική

τιμή για τη συνάρτηση ελέγχου μας.

Tips

Στατιστική…

…πιθανότητα είναι η συχνότητα εμφάνισης ενός ενδεχομένου προς το σύνολο

των επαναλήψεων του πειράματος