Δευτέρα, Ιουλίου 27, 2015

Πρέπει να "πιστέψουμε" ότι η κατανομή είναι κανονική;

Πολλοί άνθρωποι πιστεύουν πως υπάρχει κάποια ομολογία πίστης στην χρήση της κανονικής κατανομής στην επαγωγική στατιστική. Εύλογα αμφισβητούν το κατά πόσο μπορεί να είναι κανονική η κατανομή των ψυχωσικών εκδηλώσεων ή η συμφωνία με μια εντελώς μειονοτική ιδεολογία. Στην πραγματικότητα, πρόκειται για κεντρικότατο θεώρημα της στατιστικής, το οποίο δεν εξηγείται αρκετά, με αποτέλεσμα και η περαιτέρω ενασχόληση με τη στατιστική να είναι ψυχοφθόρα.

Όταν παίρνουμε τυχαία άτομα από τον πληθυσμό, η πιθανότητα να πάρουμε ένα άτομο με μια καθορισμένη βαθμολογία εξαρτάται από το σχήμα της κατανομής του πληθυσμού. Προφανώς αν πάρουμε ένα μεγάλο δείγμα από βαθμολογίες σε μια κλίμακα ψυχωτισμού η κατανομή θα είναι ασύμμετρη - τα περισσότερα άτομα θα έχουν χαμηλές βαθμολογίες. Αν μεγαλώσω πολύ το δείγμα, τότε η κατανομή θα εξακολουθήσει να μην είναι κανονική. Απεναντίας, θα μοιάζει ακόμα περισσότερο με την αυθεντική κατανομή του πληθυσμού.

Επομένως, τι είναι όλη αυτή η ιστορία με το "όσο αυξάνει το μέγεθος του δείγματος"; Στο μεγαλύτερο κομμάτι της στατιστικής που χρησιμοποιούμε, δεν μιλάμε για δειγματοληψία ατόμων από το πληθυσμό, αλλά για λήψη ενός δείγματος από όλα τα δυνατά δείγματα ίδιου μεγέθους. Αν έχουμε τέσσερεις μαθητές και τους βάλουμε να εργαστούν σε ζευγάρια, μπορούν να προκύψουν έξι ζευγάρια (ο Α με τον Β, τον Γ, ή τον Δ. Ο Β με τον Γ ή τον Δ. Και ο Γ με τον Δ). Σε ένα σχολείο με 200 μαθητές, μπορούν να σχηματιστούν 19.900 ζευγάρια.

Όταν παίρνω ένα δείγμα από τον πληθυσμό, πχ 30 ατόμων, είναι απλώς μια από τις περίπου δύο εκατομμύρια τριαντάδες ανθρώπων που μπορώ να πάρω κατά τύχη. Αν υπολογίσω το μέσο όρο τους, δεν μπορώ να γενικεύσω λέγοντας ότι αυτός ο μέσος όρος χαρακτηρίζει τον πληθυσμό, διότι αντί αυτών των τριάντα θα μπορούσα να έχω πάρει άλλους συνδυασμούς τριάντα ατόμων, με διαφορετικό μέσο όρο. Πρέπει να τρελαθεί κανείς από την αβεβαιότητα;

Στην πραγματικότητα, οι μέσοι όροι όλων των δυνατών δειγμάτων δεν είναι χαοτικοί. Τείνουν να συγκεντρώνονται γύρω από τον πραγματικό μέσο όρο του πληθυσμού ακολουθώντας την κανονική κατανομή, με τυπική απόκλιση την τυπική απόκλιση του πληθυσμού, δια την τετρ. ρίζα του μεγέθους δείγματος (τυπικό σφάλμα). Ισχύουν λοιπόν οι ιδιότητες της κανονικής κατανομής: Μεταξύ δύο τυπικών σφαλμάτων πάνω και κάτω από το μέσο όρο βρίσκονται 95% των μετρήσεων.

Παράδειγμα: Η πραγματική μέση τιμή του βάρους ενός πληθυσμού 10.000 ατόμων είναι 80 κιλά και η τυπική απόκλιση 10. Παίρνω δείγμα 100 ατόμων. Η ρίζα του μεγέθους του δείγματος είναι 10. Το τυπικό σφάλμα είναι 1. Αυτό σημαίνει ότι όλες οι δυνατές εκατοντάδες που θα μπορούσα να πάρω αντί για αυτήν που πήρα, ακολουθούν την κανονική κατανομή με μέσο όρο τον πραγματικό μέσο του πληθυσμού 80, και το τυπικό σφάλμα 1. Άρα, σύμφωνα με τις γνωστές ιδιότητες της κανονικής κατανομής, το 67% αυτών των δειγμάτων έχουν μέσο όρο μεταξύ 79 και 81, το 95% μεταξύ 78 και 82, και το 99% μεταξύ 77 και 83.

Γνωρίζοντας αυτά, πάω έξω από ένα ιδιαίτερα ανθυγειινό ταχυφαγείο και παίρνω ένα δείγμα 100 ατόμων, με μέσο όρο βάρους 83 κιλά. Μπορώ να πιστέψω ότι οι θαμώνες αυτού του εστιατορίου είναι συστηματικά βαρύτεροι από τον υπόλοιπο πληθυσμό; Το 95% των δυνατών δειγμάτων 100 ατόμων, έχει μέσο όρο μεταξύ 78 και 82. Άρα η πιθανότητα να πάρω μια οποιαδήποτε εκατοντάδα ατόμων από τον πληθυσμό με μέσο όρο 83 κιλά είναι μικρότερη από 5%. Τί σημαίνει αυτό; Το επιχείρημα αναλυτικά:

Αναλυτής Δεδομένων: Αν το ταχυφαγείο σου είναι ανθυγειινό, αυτοί που τρώνε συχνά εκεί θα είναι βαρύτεροι από το υπόλοιπο πληθυσμό. Διαλέγω λοιπόν μια εκατοντάδα με ένα κριτήριο: το ότι πηγαίνουν σε αυτό το εστιατόριο. Αυτοί είναι τρία κιλά βαρύτεροι από τον πληθυσμό, κατά μέσο όρο.

Ιδιοκτήτης Ταχυφαγείου: Μα, μια διαφορά τριών κιλών από το μέσο όρο μπορεί να προκύψει από οποιαδήποτε εκατοντάδα έπαιρνες. Απλά κατά τύχη τους πήρες μπροστά από το εστιατόριό μου.

Αναλυτής Δεδομένων: Ίσως, αλλά η πιθανότητα αυτή είναι μικρότερη από 5%. Άρα το ότι τους πήρα από το εστιατόριό σου σημαίνει πως το κριτήριο που διάλεξα είναι αποτελεσματικό - δεν διαλέγει άτομα στην τύχη. Άρα με 5% πιθανότητα να κάνω λάθος, το εστιατόριό σου παίζει κάποιο ρόλο στο βάρος των πελατών σου.

Με άλλα λόγια, αυτό που κάνουμε στην ψυχολογική έρευνα αποτελεί ένα επιχείρημα αυτού του είδους. Διαλέγει άτομα με ένα κριτήριο και υπολογίζει την πιθανότητα να έβρισκε το μέσο όρο τους κατά τύχη, επειδή πήρε αυτούς τους εκατό και όχι τους επόμενους εκατό. Όταν η πιθανότητα αυτή είναι πολύ μικρή, θεωρούμε ότι το κριτήριο που επιλέξαμε κατάφερε να διαλέξει άτομα όχι κατά τύχη, αλλά με την αναμενόμενη μεγαλύτερη ή μικρότερη τιμή από το γενικό πληθυσμό.