Μετάβαση στο περιεχόμενο

Τυπική απόκλιση

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Το γράφημα της κανονικής κατανομής (ή κωδωνοειδής καμπύλη), όπου κάθε ζώνη έχει πλάτος 1 τυπική απόκλιση – Βλέπε επίσης: κανόνας 68-95-99.7 
Αθροιστική πιθανότητα μιας κανονικής κατανομής με αναμενόμενη τιμή 0 και τυπική απόκλιση 1.

Στη στατιστική, η τυπική απόκλιση (SD, εκπροσωπούμενη επίσης από το ελληνικό γράμμα σίγμα σ ή s) είναι ένα μέτρο που χρησιμοποιείται για να υπολογιστεί το ποσό της μεταβολής ή της διασποράς ενός συνόλου τιμών δεδομένων.[1] Μια χαμηλή τυπική απόκλιση υποδηλώνει ότι τα σημεία των δεδομένων τείνουν να είναι κοντά στο μέσο όρο (που ονομάζεται επίσης η αναμενόμενη τιμή) του συνόλου, ενώ μία υψηλή τυπική απόκλιση υποδεικνύει ότι τα στοιχεία απλώνονται πάνω από ένα ευρύτερο φάσμα των τιμών.

Η τυπική απόκλιση μιας τυχαίας μεταβλητής, ενός στατιστικού πληθυσμού, ενός συνόλου δεδομένων, ή της κατανομής πιθανότητας είναι η τετραγωνική ρίζα της διακύμανσης της. Είναι αλγεβρικά απλούστερη, αν και στην πράξη λιγότερο ισχυρή από τη μέση απόλυτη απόκλιση. Μία χρήσιμη ιδιότητα της τυπικής απόκλισης είναι ότι, σε αντίθεση με την διακύμανση, εκφράζεται στις ίδιες μονάδες με τα δεδομένα. Υπάρχουν επίσης άλλα μέτρα απόκλισης από τον κανόνα, συμπεριλαμβανομένων της μέσης απόλυτης απόκλισης, η οποία παρέχει διαφορετικές μαθηματικές ιδιότητες από την τυπική απόκλιση.[2]

Εκτός από την έκφραση της μεταβλητότητας του πληθυσμού, η τυπική απόκλιση συνήθως χρησιμοποιείται για τη μέτρηση της εμπιστοσύνης στα στατιστικά συμπεράσματα. Για παράδειγμα, το περιθώριο λάθους σε δεδομένα δημοσκοπήσεων προσδιορίζεται με τον υπολογισμό της αναμενόμενης τυπικής απόκλισης στα αποτελέσματα, αν η ίδια δημοσκόπηση έπρεπε να διεξαχθεί πολλές φορές. Αυτή η εξαγωγή της τυπικής απόκλισης συχνά αποκαλείται «τυπικό σφάλμα» της εκτίμησης ή «τυπικό σφάλμα της μέσης τιμής» όταν αναφέρεται σε μια μέση τιμή. Υπολογίζεται ως η τυπική απόκλιση όλων των μέσων τιμών που θα υπολογίζεται από τον εν λόγω πληθυσμό, εάν καταρτίστει ένας άπειρος αριθμός δειγμάτων και μια μέση τιμή για κάθε δείγμα που υπολογίζεται. Είναι πολύ σημαντικό να σημειωθεί ότι η τυπική απόκλιση ενός πληθυσμού και το τυπικό σφάλμα μιας στατιστικής που προέρχεται από τον εν λόγω πληθυσμό (όπως τη μέση τιμή) είναι αρκετά διαφορετικές αλλά σχετικές (σε σχέση με το αντίστροφο της τετραγωνικής ρίζας του αριθμού των παρατηρήσεων) . Το αναφερόμενο περιθώριο λάθους σε μια δημοσκόπηση υπολογίζεται από το τυπικό σφάλμα της μέσης τιμής (ή εναλλακτικά από το γινόμενο της τυπικής απόκλισης του πληθυσμού και του αντίστροφου της τετραγωνικής ρίζας του μεγέθους του δείγματος, το οποίο είναι το ίδιο πράγμα) και είναι τυπικά περίπου διπλάσια της τυπικής απόκλισης-του μισού πλάτους ενός διαστήματος εμπιστοσύνης 95 τοις εκατό. Στην επιστήμη, οι ερευνητές συνήθως αναφέρουν την τυπική απόκλιση των πειραματικών δεδομένων, και μόνο αποτελέσματα που πέφτουν πολύ μακρύτερα από δύο τυπικές αποκλίσεις μακριά από ό,τι θα αναμενόταν θεωρούνται στατιστικά σημαντικές- κανονικό τυχαίο σφάλμα ή διακύμανση των μετρήσεων με αυτό τον τρόπο διακρίνονται από τυχαίες μεταβολές. Η τυπική απόκλιση είναι επίσης σημαντική στα οικονομικά, όπου η τυπική απόκλιση στο ποσοστό απόδοσης της επένδυσης είναι ένα μέτρο της μεταβλητότητας της επένδυσης.

Όταν μόνο ένα δείγμα των δεδομένων από έναν πληθυσμό είναι διαθέσιμο, ο όρος τυπική απόκλιση του δείγματος ή δείγμα τυπικής απόκλισης μπορεί να αναφέρεται είτε στην ανωτέρω ποσότητα, όπως εφαρμόζεται στα εν λόγω δεδομένα είτε σε μία τροποποιημένη ποσότητα που είναι μια καλύτερη εκτίμηση του πληθυσμού της τυπικής απόκλισης (η τυπική απόκλιση του συνόλου του πληθυσμού).

Βασικά παραδείγματα

[Επεξεργασία | επεξεργασία κώδικα]
Γεωμετρική απεικόνιση της διακύμανσης του παραδείγματος κατανομής:

Για ένα πεπερασμένο σύνολο αριθμών, η συνήθης απόκλιση βρίσκεται λαμβάνοντας την τετραγωνική ρίζα του μέσου όρου των τετραγώνων των αποκλίσεων των τιμών από τη μέση τιμή τους. Για παράδειγμα, οι βαθμοί από μια τάξη οχτώ μαθητών (δηλαδή, ένας πληθυσμός) είναι οι ακόλουθες οκτώ τιμές:

Αυτά τα οκτώ στοιχεία έχουν την μέση τιμή (μέσο όρο) 5: 

Πρώτα, υπολογίζονται τα τετράγωνα των αποκλίσεων του κάθε στοιχείου από τη μέση τιμή:

Η διακύμανση είναι ο μέσος των τιμών αυτών:

και η τυπική απόκλιση του πληθυσμού είναι ίση με την τετραγωνική ρίζα της διακύμανσης:

Ο τύπος αυτός ισχύει μόνο αν οι οκτώ τιμές με τις οποίες αρχίσαμε αποτελούν τον πλήρη πληθυσμό. Εάν οι τιμές, αντίθετα, ήταν ένα τυχαίο δείγμα και προέρχονται από ένα ορισμένα μεγαλύτερο πληθυσμό (για παράδειγμα, 8 βαθμοί επιλέγονται τυχαία από μια τάξη των 20), τότε θα είχαμε διαιρέσει με το 7 (το οποίο είναι n-1) αντί για 8 (η οποία είναι n) στον παρονομαστή του τελευταίου τύπου, και στη συνέχεια η ποσότητα που λαμβάνεται έτσι θα ονομάζεται δείγμα τυπικής απόκλισης. Διαιρώντας με n-1, δίνει μια καλύτερη εκτίμηση της τυπικής απόκλισης του πληθυσμού για το μεγαλύτερο πληθυσμό, από τη διαίρεση του με το n, η οποία δίνει ένα αποτέλεσμα το οποίο είναι σωστό για μόνο το δείγμα. Αυτό είναι γνωστό ως η διόρθωση του Bessel.[3]

Ως ένα ελαφρώς πιο περίπλοκο παράδειγμα πραγματικής ζωής, το μέσο ύψος για ενήλικες άνδρες στις Ηνωμένες Πολιτείες είναι περίπου 70 ίντσες, με τυπική απόκλιση περίπου 3 ίντσες. Αυτό σημαίνει ότι οι περισσότεροι άνδρες (περίπου το 68%, υποθέτοντας κανονική κατανομή) έχουν ένα ύψος με απόκλιση 3 ιντσών του μέσου (67-73 ίντσες) - μία τυπική απόκλιση - και σχεδόν όλοι οι άνδρες (περίπου 95%) έχουν ένα ύψος με απόκλιση 6 ιντσών του μέσου (64-76 ίντσες) - δύο τυπικές αποκλίσεις. Εάν η τυπική απόκλιση ήταν μηδέν, τότε όλοι οι άνθρωποι θα ήταν ακριβώς 70 ίντσες ψηλοί. Εάν η τυπική απόκλιση ήταν 20 ίντσες, τότε οι άνδρες θα είχαν πολύ πιο μεταβλητά ύψη, με ένα τυπικό εύρος περίπου 50-90 ίντσες. Τρεις τυπικές αποκλίσεις αποτελούν το 99,7% του δείγματος πληθυσμού που μελετάται, αν υποτεθεί ότι η κατανομή είναι κανονική (κωδωνοειδές σχήμα).

Καθορισμός των τιμών του πληθυσμού

[Επεξεργασία | επεξεργασία κώδικα]

Έστω Χ μια τυχαία μεταβλητή με μέση τιμή μ. Εδώ το Ε υποδηλώνει τη μέση ή αναμενόμενη τιμή του X. Στη συνέχεια, η τυπική απόκλιση της Χ είναι η ποσότητα,

που προέρχεται χρησιμοποιώντας τις ιδιότητες της αναμενόμενης τιμής.

Με άλλα λόγια, η τυπική απόκλιση σ είναι η τετραγωνική ρίζα της διακύμανσης του Χ δηλαδή, είναι η τετραγωνική ρίζα του μέσου όρου (X − μ)^2.

Η τυπική απόκλιση μιας (μονομεταβλητής) κατανομής πιθανότητας είναι η ίδια με εκείνη μιας τυχαίας μεταβλητής έχουν ένα τέτοιο διανομής. Δεν είναι όλες οι τυχαίες μεταβλητές έχουν μια τυπική απόκλιση, δεδομένου ότι δεν χρειάζεται να υπάρχουν αυτές οι αναμενόμενες τιμές. Για παράδειγμα, η τυπική απόκλιση της τυχαίας μεταβλητής που ακολουθεί μια κατανομή Cauchy είναι απροσδιόριστη, επειδή αναμένεται η τιμή του μ να είναι απροσδιόριστη.

Διακριτή τυχαία μεταβλητή

[Επεξεργασία | επεξεργασία κώδικα]

Στην περίπτωση όπου το Χ παίρνει τυχαίες τιμές από ένα πεπερασμένο σύνολο δεδομένων x1, x2, ..., xN, με κάθε τιμή που έχει την ίδια πιθανότητα, η τυπική απόκλιση είναι: ή, χρησιμοποιώντας  συμβολισμό αθροίσματος, Εάν, αντί να έχουν ίσες πιθανότητες, οι τιμές έχουν διαφορετικές πιθανότητες, έστω το x1 να έχει P1 πιθανότητα, το x2 πιθανότητα P2, ..., xN πιθανότητα Pn. Σε αυτήν την περίπτωση, η τυπική απόκλιση θα είναι

Η συνεχής τυχαία μεταβλητή

[Επεξεργασία | επεξεργασία κώδικα]

Η τυπική απόκλιση μιας συνεχούς πραγματικής, τυχαίας μεταβλητής Χ με συνάρτηση πυκνότητας πιθανότητας p(x) είναι: και όπου τα ολοκληρώματα είναι ορισμένα για x που παίρνουν τιμές από το σύνολο των δυνατών τιμών της τυχαίας μεταβλητής X.

Στην περίπτωση μιας παραμετρικής οικογένειας κατανομών, η τυπική απόκλιση μπορεί να εκφραστεί σε όρους των παραμέτρων. Για παράδειγμα, στην περίπτωση της λογαριθμικής κανονικής κατανομής με παραμέτρους μ και σ2, η τυπική απόκλιση είναι [(exp(σ2) − 1)exp(2μ + σ2)]1/2.

Μπορεί κανείς να βρει την τυπική απόκλιση ενός ολόκληρου πληθυσμού σε περιπτώσεις (όπως τυποποιημένες δοκιμές), όπου γίνεται δειγματοληψία κάθε μέλος του πληθυσμού. Σε περιπτώσεις όπου αυτό δεν μπορεί να γίνει, η τυπική απόκλιση σ υπολογίζεται εξετάζοντας ένα τυχαίο δείγμα που λαμβάνεται από τον πληθυσμό και υπολογίζοντας μια στατιστική του δείγματος, η οποία χρησιμοποιείται ως εκτίμηση της τυπικής απόκλισης του πληθυσμού. Μια τέτοια στατιστική ονομάζεται εκτιμητής, και ο εκτιμητής (ή η τιμή του εκτιμητή, δηλαδή η εκτίμηση) ονομάζεται τυπική απόκλιση του δείγματος, και συμβολίζεται με s (με πιθανόν τροποποιήσεις). Ωστόσο, σε αντίθεση με την περίπτωση της εκτίμησης της μέσης τιμής του πληθυσμού, για τις οποίες η μέση τιμή δείγματος είναι ένας απλός εκτιμητής με πολλές επιθυμητές ιδιότητες (αμερόληπτη, αποτελεσματική, μέγιστης πιθανοφάνειας), δεν υπάρχει ενιαία εκτίμηση για την τυπική απόκλιση με όλες αυτές τις ιδιότητες. Η αμερόληπτη εκτίμηση της τυπικής απόκλισης είναι ένα πολύ τεχνικά εμπλεκόμενο πρόβλημα. Τις περισσότερες φορές, η τυπική απόκλιση εκτιμάται ότι χρησιμοποιεί τη διορθωμένη τυπική απόκλιση του δείγματος (χρησιμοποιώντας Ν - 1), που ορίζονται παρακάτω, και αυτό συχνά αναφέρεται ως "δείγμα τυπικής απόκλισης». Ωστόσο, άλλοι εκτιμητές είναι καλύτεροι από άλλες απόψεις: η μη διορθωμένη εκτιμήτρια συνάρτηση (χρησιμοποιώντας Ν) δίνει χαμηλότερο μέσο τετραγωνικό σφάλμα, ενώ με τη χρήση Ν - 1.5 (για την κανονική κατανομή) σχεδόν εξαλείφει εντελώς την μεροληψία.

Μη διορθωμένη τυπική απόκλιση του δείγματος

[Επεξεργασία | επεξεργασία κώδικα]

Πρώτον, η φόρμουλα για την τυπική απόκλιση του πληθυσμού (ενός πεπερασμένου πληθυσμού) μπορεί να εφαρμοστεί στο δείγμα, χρησιμοποιώντας το μέγεθος του δείγματος, όπως το μέγεθος του πληθυσμού (αν και το πραγματικό μέγεθος του πληθυσμού από τον οποίο έλκεται το δείγμα μπορεί να είναι πολύ μεγαλύτερο ). Αυτός ο εκτιμητής, συμβολίζεται με SN, είναι γνωστός ως μη διορθωμένη τυπική απόκλιση του δείγματος, ή μερικές φορές ως τυπική απόκλιση του δείγματος (που θεωρείται ως το σύνολο του πληθυσμού), και ορίζεται ως εξής:

[παραπομπή που απαιτείται]

όπου  είναι οι παρατηρούμενες τιμές των στοιχείων του δείγματος και είναι η μέση τιμή αυτών των παρατηρήσεων, ενώ ο παρονομαστής N συμβολίζει το μέγεθος του δείγματος: αυτή είναι η τετραγωνική ρίζα της διακύμανσης του δείγματος, η οποία είναι ο μέσος όρος των τετραγώνων των αποκλίσεων για το δείγμα μέση τιμής.

Αυτή είναι μια συνεπής εκτιμήτρια (συγκλίνει σε πιθανότητα με την τιμή του πληθυσμού καθώς ο αριθμός των δειγμάτων τείνει στο άπειρο), και είναι η εκτίμηση μέγιστης πιθανότητας όταν ο πληθυσμός διανέμεται κανονικά. Ωστόσο, αυτή είναι μια προκατειλημμένη εκτιμήτρια, καθώς οι εκτιμήσεις είναι γενικά πολύ χαμηλές. Η μεροληψία μειώνεται καθώς το μέγεθος του δείγματος μεγαλώνει, πτώση από το 1 / n, και έτσι είναι πιο σημαντικό για τα μικρά ή μέτρια μεγέθη δείγματος: για n> 75 η προκατάληψη είναι κάτω του 1%. Έτσι, για πολύ μεγάλα μεγέθη δειγμάτων, η μη διορθωμένη τυπική απόκλιση του δείγματος είναι γενικά αποδεκτή. Αυτός ο εκτιμητής έχει επίσης ένα ομοιόμορφα μικρότερο μέσο τετραγωνικό σφάλμα από το διορθωμένο δείγμα τυπικής απόκλισης.

Διορθωμένη τυπική απόκλιση του δείγματος

[Επεξεργασία | επεξεργασία κώδικα]

Εάν η μεροληπτική διακύμανση του δείγματος (η δεύτερη κεντρική ροπή του δείγματος, η οποία είναι μια καθοδική-μεροληπτική εκτίμηση της διακύμανσης πληθυσμού) χρησιμοποιείται για να υπολογίσει μια εκτίμηση της τυπικής απόκλισης του πληθυσμού, τότε το αποτέλεσμα είναι: Εδώ λαμβάνοντας την τετραγωνική ρίζα εισάγει περαιτέρω καθοδική μεροληψία, από την ανισότητα Γένσεν, λόγω της τετραγωνικής ρίζας η οποία είναι μια κοίλη συνάρτηση. Η μεροληψία στην διακύμανση διορθώνεται εύκολα, αλλά η μεροληψία από την τετραγωνική ρίζα είναι πιο δύσκολο να διορθωθεί, και εξαρτάται από την κατανομή αυτών.

Μία αμερόληπτη εκτιμήτρια για τη διακύμανση δίνεται από την εφαρμογή της διόρθωσης Bessel, χρησιμοποιώντας N − 1 αντί για N για να δώσει το αμερόληπτο δείγμα διακύμανσης, το οποίο συμβολίζεται s2:

Παίρνοντας τις τετραγωνικές ρίζες επαναφέρει μεροληψία (επειδή η τετραγωνική ρίζα είναι μία μη γραμμική συνάρτηση, η οποία δεν αντιμετατίθεται με την προσδοκία), αποδίδοντας την διορθωμένη τυπική απόκλιση του δείγματος, που συμβολίζεται με s:

Όπως εξηγήθηκε παραπάνω, ενώ το s2 είναι ένας αμερόληπτος εκτιμητής για την διακύμανση του πληθυσμού, το s εξακολουθεί να είναι μια μεροληπτική εκτίμηση για την τυπική απόκλιση πληθυσμού, αν και αισθητά λιγότερο μεροληπτική από τη μη διορθωμένη τυπική απόκλιση του δείγματος. Η μεροληψία είναι ακόμη σημαντική για μικρά δείγματα (Ν λιγότερο από 10), και επίσης πέφτει ως 1/N καθώς το μέγεθος του δείγματος αυξάνεται. Αυτός ο εκτιμητής χρησιμοποιείται συχνά και γενικώς είναι γνωστή απλά ως "τυπική απόκλιση δείγματος".

Αμερόληπτη τυπική απόκλιση του δείγματος

[Επεξεργασία | επεξεργασία κώδικα]

Για την αμερόληπτη εκτίμηση της τυπικής απόκλισης, δεν υπάρχει τύπος που να λειτουργεί σε όλες τις κατανομές, σε αντίθεση με τη μέση τιμή και τη διασπορά. Αντ 'αυτού, το s χρησιμοποιείται ως βάση, και κλιμακώνεται με ένα συντελεστή διόρθωσης για να παραχθεί μια αμερόληπτη εκτίμηση. Για την κανονική κατανομή, μια αμερόληπτη εκτιμήτρια δίνεται από τον τύπο s / C4, όπου ο συντελεστής διόρθωσης (ο οποίος εξαρτάται από το Ν) δίνεται από την συνάρτηση γάμμα, και ισούται με:

Αυτό προκύπτει επειδή η δειγματοληπτική κατανομή της τυπικής απόκλισης του δείγματος ακολουθεί μια (κλίμακα) κατανομή χ, και ο συντελεστής διόρθωσης είναι ο μέσος όρος της κατανομής χ.

Μια προσέγγιση που μπορεί να δοθεί αντικαθιστώντας το Ν - 1 με Ν - 1,5, είναι:  Το σφάλμα σε αυτή την προσέγγιση διασπάται τετραγωνικά (όπως το 1/N^2), και είναι κατάλληλο για όλα εκτός από τα μικρότερα δείγματα ή για υψηλή ακρίβεια: για n = 3 η μεροληψία είναι ίση με 1,3%, και για n = 9, η μεροληψία είναι ήδη λιγότερο από 0,1%.

Για άλλες κατανομές, ο σωστός τύπος εξαρτάται από τη κατανομή, αλλά ένας εμπειρικός κανόνας είναι να χρησιμοποιήσετε την περαιτέρω βελτίωση της προσέγγισης: όπου το γ2  δηλώνει τον πληθυσμό της υπερβολικής κύρτωσης. Η υπερβολική κύρτωση μπορεί να είναι είτε γνωστή εκ των προτέρων για ορισμένες κατανομές, ή που εκτιμώνται από τα δεδομένα.

Διάστημα εμπιστοσύνης της τυπικής απόκλισης ενός δείγματος

[Επεξεργασία | επεξεργασία κώδικα]

Η συνήθης απόκλιση που παίρνουμε από την δειγματοληψία μιας κατανομής δεν είναι από μόνη της απολύτως ακριβής, τόσο για μαθηματικούς λόγους (εξηγούνται εδώ από το διάστημα εμπιστοσύνης) όσο και για πρακτικούς λόγους μέτρησης (σφάλμα μέτρησης). Το μαθηματικό αποτέλεσμα μπορεί να περιγραφεί από το διάστημα εμπιστοσύνης ή CI. Για να δούμε πώς ένα μεγαλύτερο δείγμα θα κάνει το διάστημα εμπιστοσύνης πιο στενό, ας εξεταστούν τα ακόλουθα παραδείγματα : Για ένα μικρό πληθυσμό Ν = 2, το 95% του CI της SD είναι από 0,45 * SD σε 31,9 * SD. Με άλλα λόγια, η τυπική απόκλιση της κατανομής στο 95% των περιπτώσεων μπορεί να είναι μεγαλύτερη κατά έναν συντελεστή 31 ή μικρότερο κατά ένα συντελεστή 2. Για ένα μεγαλύτερο πληθυσμό Ν = 10, το CI είναι 0.69 * SD έως 1,83 * SD. Έτσι, ακόμη και με έναν πληθυσμό των 10, η πραγματική SD μπορεί ακόμα να είναι σχεδόν κατά έναν συντελεστή 2 υψηλότερη από ό, τι SD του δείγματος. Για έναν πληθυσμό δείγματος Ν = 100, αυτό μειώνεται στο 0,88 * SD έως 1,16 * SD. Για να είμαστε πιο σίγουροι ότι η SD του δείγματος είναι κοντά στην πραγματική SD πρέπει να δοκιμάσουμε ένα μεγάλο αριθμό σημείων.

Ταυτότητες και μαθηματικές ιδιότητες

[Επεξεργασία | επεξεργασία κώδικα]

Η τυπική απόκλιση είναι αμετάβλητη κάτω από μεταβολές στη θέση, και κλιμακώνεται άμεσα σύμφωνα με την κλίμακα της τυχαίας μεταβλητής. Έτσι, για σταθερό c και τυχαίες μεταβλητές Χ και Υ:

Η τυπική απόκλιση του αθροίσματος δύο τυχαίων μεταβλητών μπορεί να σχετίζεται με τις επιμέρους τυπικές αποκλίσεις τους και τη συνδιακύμανση μεταξύ τους:

Όπου και είναι η διακύμανση και η συνδιακύμανση, αντίστοιχα.

Ο υπολογισμός του αθροίσματος των τετραγώνων των αποκλίσεων μπορεί να σχετίζονται με στιγμές που υπολογίζονται απευθείας από τα δεδομένα. Στον ακόλουθο τύπο, το γράμμα Ε μπορεί να ερμηνευθεί ως η αναμενόμενη τιμή, δηλαδή, τη μέση τιμή.

Η τυπική απόκλιση του δείγματος μπορεί να υπολογιστεί ως:

Για ένα πεπερασμένο πληθυσμό με ίσες πιθανότητες σε όλα τα σημεία, έχουμε:

Αυτό σημαίνει ότι η τυπική απόκλιση είναι ίση με την τετραγωνική ρίζα της διαφοράς μεταξύ του μέσου όρου των τετραγώνων των τιμών και του τετραγώνου της μέσης τιμής. Βλέπε τον υπολογιστικό τύπο της διακύμανσης για την απόδειξη, και ένα ανάλογο αποτέλεσμα για την τυπική απόκλιση του δείγματος.

Ερμηνεία και εφαρμογή

[Επεξεργασία | επεξεργασία κώδικα]
Παράδειγμα δειγμάτων από δύο πληθυσμούς με την ίδια μέση τιμή, αλλά διαφορετικές τυπικές αποκλίσεις. Ο κόκκινος πληθυσμός έχει μέση τιμή 100 και SD 10 και ο μπλε πληθυσμός έχει μέση τιμή 100 και SD 50.

Μια μεγάλη τυπική απόκλιση υποδηλώνει ότι τα σημεία των δεδομένων μπορούν να απομακρύνονται μακριά από τη μέση τιμή και μια μικρή τυπική απόκλιση δείχνει ότι είναι συγκεντρωμένα γύρω από τη μέση.

Για παράδειγμα, κάθε ένας από τους τρεις πληθυσμούς {0, 0, 14, 14}, {0, 6, 8, 14} και {6, 6, 8, 8} έχει μια μέση τιμή 7. Οι τυπικές αποκλίσεις τους είναι 7, 5 και 1, αντίστοιχα. Ο τρίτος πληθυσμός έχει μια πολύ μικρότερη τυπική απόκλιση από τα άλλα δύο επειδή οι τιμές του είναι όλες κοντά στο 7. Θα έχει τις ίδιες μονάδες με τα ίδια τα στοιχεία δεδομένων. Εάν, για παράδειγμα, το σύνολο δεδομένων {0, 6, 8, 14} αντιπροσωπεύει τις ηλικίες ενός πληθυσμού τεσσάρων αδελφών σε έτη, η τυπική απόκλιση είναι 5 χρόνια. Ως ένα άλλο παράδειγμα, ο πληθυσμός {1000, 1006, 1008, 1014} μπορεί να αντιπροσωπεύει τις διανυόμενες αποστάσεις από τέσσερις αθλητές, που μετράται σε μέτρα. Έχει μια μέση τιμή 1.007 μέτρων, και μια τυπική απόκλιση των 5 μέτρων.

Η τυπική απόκλιση μπορεί να χρησιμεύσει ως ένα μέτρο αβεβαιότητας. Στη φυσική επιστήμη, για παράδειγμα, η αναφερόμενη τυπική απόκλιση μιας ομάδας επαναλαμβανόμενων μετρήσεων δίνει την ακρίβεια αυτών των μετρήσεων. Όταν αποφασίζεται εάν οι μετρήσεις συμφωνούν με μια θεωρητική πρόβλεψη, η τυπική απόκλιση αυτών των μετρήσεων είναι ζωτικής σημασίας: εάν ο μέσος όρος των μετρήσεων είναι πολύ μακριά από την πρόβλεψη (με την απόσταση που μετράται σε τυπικές αποκλίσεις), τότε η θεωρία που δοκιμάζεται κατά πάσα πιθανότητα πρέπει να αναθεωρηθεί. Αυτό είναι λογικό, δεδομένου ότι δεν εμπίπτουν στο εύρος των τιμών που θα μπορούσε εύλογα να αναμένεται ότι θα συμβεί, αν η πρόβλεψη ήταν σωστή και η τυπική απόκλιση ποσοτικά κατάλληλα. Δείτε το διάστημα πρόβλεψης.

Ενώ η τυπική απόκλιση μετρά πόσο μακριά οι τυπικές τιμές τείνουν να είναι από τη μέση τιμή, υπάρχουν και άλλα μέτρα διαθέσιμα. Ένα παράδειγμα είναι η μέση απόλυτη απόκλιση, η οποία θα μπορούσε να θεωρηθεί ένα πιο άμεσο μέτρο της μέσης απόστασης, σε σύγκριση με την μέση τετραγωνική ρίζα της απόστασης είναι συνυφασμένη με την τυπική απόκλιση.

Παραδείγματα Εφαρμογών

[Επεξεργασία | επεξεργασία κώδικα]

Η πρακτική αξία της κατανόησης της τυπικής απόκλισης ενός συνόλου τιμών βρίσκεται στην εκτίμηση της απομάκρυνσης που υπάρχει από το μέσο όρο.

Πείραμα, βιομηχανική και έλεγχος υποθέσεων

[Επεξεργασία | επεξεργασία κώδικα]

Η τυπική απόκλιση χρησιμοποιείται συχνά για την σύγκριση πραγματικών δεδομένων σε σχέση με ένα μοντέλο για να ελεγχθεί το μοντέλο. Για παράδειγμα, σε βιομηχανικές εφαρμογές, το βάρος των προϊόντων που προέρχονται από μια γραμμή παραγωγής μπορεί να πρέπει να έχει συγκεκριμένη τιμή. Με ζύγιση κάποιου ποσοστού των προϊόντων, το μέσο βάρος μπορεί να βρεθεί, το οποίο θα είναι πάντα ελαφρώς διαφορετικό από το μακροπρόθεσμο μέσο όρο. Με τη χρήση τυπικών αποκλίσεων μια ελάχιστη και μέγιστη τιμή μπορεί να υπολογιστεί έτσι ώστε η μέση τιμή βάρους να είναι μέσα σε πολύ υψηλό ποσοστό (99,9% ή περισσότερο). Αν πέσει έξω από την περιοχή, τότε η διαδικασία παραγωγής μπορεί να χρειαστεί να διορθωθεί. Στατιστικοί έλεγχοι όπως αυτοί είναι ιδιαίτερα σημαντικοί όταν ο έλεγχος είναι ιδιαίτερα ακριβός. Για παράδειγμα, εάν το προϊόν πρέπει να ανοιχθεί και να στραγγιστεί και να ζυγιστεί, ή αν το προϊόν είχε χρησιμοποιηθεί για τη δοκιμή.

Στην πειραματική επιστήμη χρησιμοποιείται ένα θεωρητικό μοντέλο της πραγματικότητας. Η Φυσική Στοιχειωδών Σωματιδίων χρησιμοποιεί συμβατικά ένα πρότυπο "5 σίγμα" για τη δήλωση μιας ανακάλυψης. Ένα επίπεδο-πέντε σίγμα μεταφράζεται σε μία περίπτωση στα 3,5 εκατομμύρια όπου η τυχαία διακύμανση θα αποδώσει το αποτέλεσμα. Αυτό το επίπεδο βεβαιότητας ήταν απαραίτητο, προκειμένου να βεβαιώσει ότι ένα σωματίδιο σύμφωνο με το μποζόνιο Higgs είχε ανακαλυφθεί σε δύο ανεξάρτητα πειράματα στο CERN, και αυτό ήταν και το επίπεδο σημαντικότητας που οδήγησε στη δήλωση της πρώτης ανίχνευσης των βαρυτικών κυμάτων.

Ως ένα απλό παράδειγμα, να εξετάσετε τις μέσες ημερήσιες μέγιστες θερμοκρασίες για δύο πόλεις, μία στην ενδοχώρα και μία στην ακτή. Είναι χρήσιμο να κατανοήσουμε ότι το εύρος στις καθημερινές μέγιστες θερμοκρασίες για τις πόλεις κοντά στην ακτή είναι μικρότερη από ό, τι για τις πόλεις ενδοχώρα. Έτσι, ενώ οι δύο αυτές πόλεις μπορούν να έχουν την ίδια μέγιστη μέση θερμοκρασία, η τυπική απόκλιση της μέγιστης ημερήσιας θερμοκρασίας για την παράκτια πόλη θα είναι μικρότερη από εκείνη του ενδοχώρα πόλης καθώς, σε οποιαδήποτε συγκεκριμένη ημέρα, η πραγματική μέγιστη θερμοκρασία είναι πιο πιθανό να είναι μακρύτερα από την μέση μέγιστη θερμοκρασία για την ενδοχώρα της πόλης από ό,τι για την παράκτια.

Στα οικονομικά, η τυπική απόκλιση χρησιμοποιείται συχνά ως μέτρο του κινδύνου που συνδέεται με την διακύμανση της τιμής ενός συγκεκριμένου περιουσιακού στοιχείου (μετοχές, ομόλογα, ακίνητα, κλπ), ή ο κίνδυνος ενός χαρτοφυλακίου των περιουσιακών στοιχείων (ενεργά διαχειριζόμενων αμοιβαίων κεφαλαίων , ο δείκτης αμοιβαίων κεφαλαίων, ή ETFs). Ο κίνδυνος είναι ένας σημαντικός παράγοντας στον καθορισμό του πώς να διαχειριστεί αποτελεσματικά ένα χαρτοφυλάκιο επενδύσεων, διότι καθορίζει τη διακύμανση στην απόδοση του περιουσιακού στοιχείου ή / και του χαρτοφυλακίου, και δίνει στους επενδυτές μια μαθηματική βάση για τη λήψη επενδυτικών αποφάσεων (γνωστό ως βελτιστοποίηση μέσης διακύμανσης). Η βασική έννοια του κινδύνου είναι ότι καθώς αυτός αυξάνει, η αναμενόμενη απόδοση της επένδυσης θα πρέπει να αυξηθεί επίσης, μία αύξηση γνωστή ως ασφάλιστρο κινδύνου. Με άλλα λόγια, οι επενδυτές θα πρέπει να αναμένουν υψηλότερη απόδοση μιας επένδυσης, όταν η επένδυση φέρει ένα υψηλότερο επίπεδο κινδύνου ή αβεβαιότητας. Κατά την αξιολόγηση των επενδύσεων, οι επενδυτές θα πρέπει να εκτιμήσουν τόσο την αναμενόμενη απόδοση όσο και την αβεβαιότητα των μελλοντικών αποδόσεων. Η τυπική απόκλιση παρέχει μια ποσοτική εκτίμηση της αβεβαιότητας των μελλοντικών αποδόσεων.

Για παράδειγμα, ας υποθέσουμε ότι ένας επενδυτής είχε να επιλέξει ανάμεσα σε δύο μετοχές. Η μετοχή Α κατά τα τελευταία 20 χρόνια είχε μια μέση απόδοση των 10 τοις εκατό, με τυπική απόκλιση 20 ποσοστιαίες μονάδες (π.μ.) και η μετοχή Β, κατά την ίδια περίοδο, είχε μέση απόδοση του 12 τοις εκατό, αλλά σε υψηλότερη τυπική απόκλιση των 30 (π.μ.). Με βάση τον κίνδυνο και την απόδοση, ο επενδυτής μπορεί να αποφασίσει ότι η μετοχή Α είναι η ασφαλέστερη επιλογή, διότι οι πρόσθετες δύο ποσοστιαίες μονάδες κέρδους της μετοχής Β δεν αξίζουν τις επιπλέον 10 ποσοστιαίες μονάδες της τυπικής απόκλισης (μεγαλύτερος κίνδυνος ή αβεβαιότητα της προσδοκώμενης απόδοσης). Η μετοχή Β είναι πιο πιθανό να υπολείπεται της αρχικής επένδυσης (αλλά και να υπερβεί την αρχική επένδυση) πιο συχνά από ό, τι η μετοχή Α υπό τις ίδιες συνθήκες, και εκτιμάται ότι θα επιστρέψει μόνο δύο τοις εκατό περισσότερο κατά μέσο όρο. Σε αυτό το παράδειγμα, η μετοχή Α αναμένεται να κερδίσει περίπου 10 τοις εκατό, συν ή πλην 20 (π.μ.) (ένα εύρος από 30 τοις εκατό έως -10 τοις εκατό), περίπου τα δύο τρίτα των μελλοντικών αποδόσεων του έτους. Κατά την εξέταση πιο ακραίων δυνατών αποδόσεων ή αποτελεσμάτων στο μέλλον, ο επενδυτής θα πρέπει να περιμένει τα αποτελέσματα από το 10 τοις εκατό συν ή πλην 60 (π.μ.) ή ένα εύρος από 70 τοις εκατό έως -50 τοις εκατό, το οποίο περιλαμβάνει τα αποτελέσματα για τρεις τυπικές αποκλίσεις από τη μέση απόδοση (περίπου 99,7 τοις εκατό των πιθανών αποδόσεων).

Ο υπολογισμός του μέσου όρου (ή του αριθμητικού μέσου όρου) για την επιστροφή της εγγύησης κατά τη διάρκεια μιας δεδομένης περιόδου θα πρέπει να δημιουργήσει την αναμενόμενη απόδοση του περιουσιακού στοιχείου. Για κάθε περίοδο, αφαιρώντας την αναμενόμενη απόδοση από την πραγματική επιστρέφει τη διαφορά από τη μέση. Τετραγωνίζοντας τη διαφορά σε κάθε περίοδο και λαμβάνοντας το μέσο όρο δίνει την συνολική διακύμανση της επιστροφής του περιουσιακού στοιχείου. Όσο μεγαλύτερη είναι η διακύμανση, τόσο μεγαλύτερο κίνδυνο μεταφέρει η ασφάλεια. Βρίσκοντας την τετραγωνική ρίζα αυτής της διακύμανσης θα δώσει την τυπική απόκλιση του εργαλείου της εν λόγω επένδυσης.

Η τυπική απόκλιση του πληθυσμού χρησιμοποιείται για να οριστεί το πλάτος Bollinger Bands, ένα ευρέως γνωστό εργαλείο τεχνικής ανάλυσης. Για παράδειγμα, το άνω Bollinger Band δίνεται ως x + x . Η πιο συχνά χρησιμοποιούμενη τιμή για το n είναι 2, υπάρχει περίπου πέντε τοις εκατό πιθανότητα να πέσει έξω, υποθέτοντας μια κανονική κατανομή των αποδόσεων.

Οικονομικές χρονολογικές σειρές είναι γνωστό ότι είναι μη στάσιμες σειρές, ενώ οι στατιστικοί υπολογισμοί παραπάνω, όπως η τυπική απόκλιση, ισχύουν μόνο για σταθερές σειρές. Για να εφαρμοστούν τα παραπάνω στατιστικά εργαλεία για τις μη στάσιμες σειρές, η σειρά πρέπει πρώτα να μετατραπεί σε στάσιμη σειρά, επιτρέποντας τη χρήση των στατιστικών εργαλείων που έχουν τώρα μια έγκυρη βάση από την οποία μπορούν να δουλέψουν.

Γεωμετρική Ερμηνεία

[Επεξεργασία | επεξεργασία κώδικα]

Για να αποκτήσουμε μερικές γεωμετρικές γνώσεις και διευκρινίσεις, θα αρχίσουμε με ένα πληθυσμό με τρεις τιμές, x1, x2, x3. Αυτό ορίζει ένα σημείο P = (x1, x2, x3) στο R3. Θεωρήστε τη γραμμή L = {(r, r, r) : rR}. Αυτή είναι η «κύρια διαγώνιος" που περνάει από την αρχή των αξόνων. Εάν οι τρεις δεδομένες τιμές μας ήταν όλες ίσες, τότε η τυπική απόκλιση θα είναι μηδέν και P θα βρίσκονται στην L. Έτσι δεν είναι παράλογο να υποθέσουμε ότι η τυπική απόκλιση σχετίζεται με την απόσταση του P από το L. Και αυτό πράγματι ισχύει . Για να μετακινηθούμε κάθετα από L σε σημείο P, αρχίζει κανείς από το σημείο:

των οποίων οι συντεταγμένες είναι ο μέσος όρος των τιμών με τις οποίες ξεκινήσαμε.

Με λίγη άλγεβρα βρίσκουμε ότι η απόσταση μεταξύ Ρ και Μ (η οποία είναι η ίδια με την ορθογώνια απόσταση μεταξύ Ρ και της γραμμής L) είναι ίση με την τυπική απόκλιση του φορέα x1, x2, x3,πολλαπλασιασμένη με την τετραγωνική ρίζα του αριθμού των διαστάσεων του φορέα (3 σε αυτήν την περίπτωση).

Μια παρατήρηση είναι σπάνια περισσότερο μακριά από μερικές τυπικές αποκλίσεις από την μέση τιμή. Η ανισότητα του Chebyshev διασφαλίζει ότι, για όλες τις διανομές για τις οποίες ορίζεται η τυπική απόκλιση, η ποσότητα των δεδομένων εντός ενός αριθμού τυπικών αποκλίσεων από την μέση τιμή είναι τουλάχιστον όσο δίνονται στον ακόλουθο πίνακα.

Απόσταση από μέση τιμή Ελάχιστος πληθυσμός
2σ 50%
75%
89%
94%
96%
97%
[4]

Κανόνες για την κανονική κατανομή των δεδομένων

[Επεξεργασία | επεξεργασία κώδικα]
Το σκούρο μπλε είναι μία τυπική απόκλιση εκατέρωθεν της μέσης τιμής. Για μια κανονική κατανομή ,αυτό περιλαμβάνει το 68.27% του συνόλου, ενώ δύο τυπικές αποκλίσεις από την μέση τιμή περιέχουν το 95.45% των παρατηρήσεων ,ενώ οι τρεις τυπικές αποκλίσεις το 99.73%, και οι τέσσερις τυπικές αποκλίσεις περιλαμβάνουν το 99.994%. Τα δύο σημεία της καμπύλης που απέχουν μια τυπική απόκλιση από τη μέση τιμή ονομάζονται και σημεία καμπής.

Το κεντρικό οριακό θεώρημα λέει ότι η κατανομή του μέσου ορου πολλών ανεξάρτητων, ταυτόσημα κατανεμημένων τυχαίων μεταβλητών τείνει προς το διάσημο σχήμα καμπάνας- κανονική κατανομή με συνάρτηση πιθανότητας πυκνότητας:

όπου μ είναι η αναμενόμενη αξία των τυχαίων μεταβλητών, σ ισούται με την τυπική απόκλιση της κατανομής διαιρούμενο με n1/2, και n είναι ο αριθμός των τυχαίων μεταβλητών. Ως εκ τούτου, η τυπική απόκλιση είναι απλά μια μεταβλητή κλίμακας που ρυθμίζει πόσο ευρεία θα είναι η καμπύλη, ωστόσο γίνεται φανερή και στη σταθερά ομαλοποίησης.

Αν μια κατανομή των δεδομένων είναι περίπου φυσιολογική, τότε η αναλογία των τιμών δεδομένων εντός z τυπικών αποκλίσεων από την μέση τιμή ορίζεται από:

Αναλογία=

Όπου είναι η συνάρτηση σφάλματος. Η αναλογία που είναι μικρότερη από ή ίση με έναν αριθμό, x, δίνεται από τη συνάρτηση αθροιστικής κατανομής:

Αναλογία ≤ .[5]


Αν μια κατανομή των δεδομένων είναι περίπου κανονική, στη συνέχεια, περίπου 68 τοις εκατό των τιμών δεδομένων είναι εντός μίας τυπικής απόκλισης του μέσου όρου (μαθηματικά, μ ± σ, όπου μ είναι ο αριθμητικός μέσος όρος), περίπου το 95 τοις εκατό είναι κατά δύο τυπικές αποκλίσεις (μ ± 2σ ), και περίπου 99,7 τοις εκατό βρίσκεται μέσα σε τρεις τυπικές αποκλίσεις (μ ± 3σ). Αυτό είναι γνωστό ως κανόνας 68-95-99.7, ή ως εμπειρικός κανόνας.

Για διάφορες τιμές του Ζ, το ποσοστό των τιμών αναμένεται να βρίσκεται εντός και εκτός του συμμετρικού διαστήματος, CI = (−, ) , έχουν ως εξής:

Percentage within(z)
z(Percentage within)

Διάστημα
εμπιστοσύνης
με αναλογία χωρίς αναλογία
ποσοστό ποσοστό κλάσμα
0.674490σ 50% 50% 1 / 2
0.994458σ 68% 32% 1 / 3.125
68.2689492% 31.7310508% 1 / 3.1514872
1.281552σ 80% 20% 1 / 5
1.644854σ 90% 10% 1 / 10
1.959964σ 95% 5% 1 / 20
95.4499736% 4.5500264% 1 / 21.977895
2.575829σ 99% 1% 1 / 100
99.7300204% 0.2699796% 1 / 370.398
3.290527σ 99.9% 0.1% 1 / 1000
3.890592σ 99.99% 0.01% 1 / 10000
99.993666% 0.006334% 1 / 15787
4.417173σ 99.999% 0.001% 1 / 100000
4.5σ 99.9993204653751% 0.0006795346249% 3.4 / 1000000 (on each side of mean)
4.891638σ 99.9999% 0.0001% 1 / 1000000
99.9999426697% 0.0000573303% 1 / 1744278
5.326724σ 99.99999% 0.00001% 1 / 10000000
5.730729σ 99.999999% 0.000001% 1 / 100000000
99.9999998027% 0.0000001973% 1 / 506797346
6.109410σ 99.9999999% 0.0000001% 1 / 1000000000
6.466951σ 99.99999999% 0.00000001% 1 / 10000000000
6.806502σ 99.999999999% 0.000000001% 1 / 100000000000
99.9999999997440% 0.000000000256% 1 / 390682215445

Σχέση μεταξύ τυπικής απόκλισης και της μέσης τιμής

[Επεξεργασία | επεξεργασία κώδικα]

Η μέση τιμή και η τυπική απόκλιση ενός συνόλου δεδομένων είναι περιγραφικά στατιστικά στοιχεία που συνήθως αναφέρονται μαζί. Κατά μία έννοια, η τυπική απόκλιση είναι ένα «φυσικό» μέτρο διασποράς στην στατιστική εάν το κέντρο των δεδομένων μετράται από τη μέση τιμή. Αυτό συμβαίνει επειδή η τυπική απόκλιση είναι μικρότερη από τη μέση τιμή από οποιοδήποτε άλλο σημείο. Η ακριβής πρόταση είναι η εξής: Έστω x1, ..., xn είναι πραγματικοί αριθμοί και ορίζουν τη συνάρτηση:


Χρησιμοποιώντας λογισμό ή συμπληρώνοντας το τετράγωνο, είναι δυνατόν να δείξουμε ότι σ(r) έχει μια μοναδική ελάχιστη στη μέση τιμή:

Η μεταβλητότητα μπορεί επίσης να μετρηθεί με τον συντελεστή διακύμανσης, που είναι ο λόγος της τυπικής απόκλισης προς το μέσο όρο. Είναι ένας αδιάστατος αριθμός.

Τυπική απόκλιση της μέσης τιμής

[Επεξεργασία | επεξεργασία κώδικα]

Συχνά, θέλουμε κάποιες πληροφορίες σχετικά με την ακρίβεια της μέσης τιμής που λάβαμε. Μπορούμε να το πετύχουμε αυτό με τον καθορισμό της τυπικής απόκλισης του μέσου όρου του δείγματος. Υποθέτοντας στατιστική ανεξαρτησία των τιμών του δείγματος, η τυπική απόκλιση της μέσης τιμής σχετίζεται με την τυπική απόκλιση της κατανομής με την εξής σχέση :


όπου Ν είναι ο αριθμός των παρατηρήσεων του δείγματος που χρησιμοποιήθηκε για την εκτίμηση του μέσου όρου. Αυτό μπορεί να αποδειχθεί εύκολα με τον εξής τρόπο (βλέπε βασικές ιδιότητες της διακύμανσης) :

και έτσι:

οπότε καταλήγουμε στο :

Θα πρέπει να τονιστεί ότι, προκειμένου να εκτιμηθεί η τυπική απόκλιση της μέσης τιμής , , σημαίνει ότι είναι απαραίτητο να γνωρίζουμε την τυπική απόκλιση του συνόλου του πληθυσμού , , εκ των προτέρων. Ωστόσο, στις περισσότερες εφαρμογές αυτή η παράμετρος είναι άγνωστη. Για παράδειγμα, εάν μια σειρά 10 μετρήσεων, μιας προηγουμένως άγνωστης ποσότητας, διεξαχθή σε εργαστήριο, είναι δυνατόν να υπολογιστεί η μέση τιμή του δείγματος και η τυπική απόκλιση του δείγματος, αλλά είναι αδύνατον να υπολογιστεί η τυπική απόκλιση του μέσου όρου.

Γρήγορες μέθοδοι υπολογισμού

[Επεξεργασία | επεξεργασία κώδικα]

Οι δύο τύποι που ακολουθούν παριστούν μια συνεχώς αναβαθμισμένη τυπική απόκλιση. Ένα σύνολο δύο αθροισμάτων s1 και s2 υπολογίζονται μέσω ενός συνόλου Ν τιμών του x, που συμβολίζονται x1, ..., xN:

Δεδομένων των αποτελεσμάτων αυτών των επαναλαμβανόμενων αθροισμάτων, οι τιμές Ν, s1, s2 μπορούν να χρησιμοποιηθούν οποτεδήποτε για να υπολογιστεί η τρέχουσα τιμή της τυπικής απόκλισης.

Όπου Ν, όπως προαναφέρθηκε, είναι το μέγεθος του συνόλου των τιμών.

Ομοίως για την τυπική απόκλιση δείγματος,


Σε μια εφαρμογή υπολογιστών, όσο τα τρία αθροίσματα sj γίνονται μεγαλύτερα, πρέπει να εξετάσουμε το σφάλμα στρογγύλευσης, αριθμητική υπερχείλιση, και την αριθμητική υποχείλιση. Η παρακάτω μέθοδος υπολογίζει τα επαναλαμβανόμενα αθροίσματα με μειωμένα σφάλματα στρογγυλοποίησης. Αυτό είναι ένας αλγόριθμος «ενός περάσματος» για τον υπολογισμό της διακύμανσης των n δειγμάτων χωρίς την ανάγκη για την αποθήκευση δεδομένων εκ των προτέρων, όσο γίνεται ο υπολογισμός. Εφαρμόζοντας αυτή τη μέθοδο σε μια χρονοσειρά θα έχει ως αποτέλεσμα διαδοχικές τιμές τυπικής απόκλισης που αντιστοιχίζονται σε n σημεία δεδομένων όσο το n αυξάνει με κάθε νέο δείγμα, αντί για ένα ολισθαίνον σταθερού πλάτους παράθυρο υπολογισμού.

Για k=1,...,n:


όπου Α είναι η μέση τιμή.

Σημείωση: since or

Η διακύμανση του δείγματος:


Η διακύμανση του πληθυσμού:

Σταθμικός υπολογισμός

[Επεξεργασία | επεξεργασία κώδικα]

Όταν οι τιμές xi έχουν 'διαφορετικά βάρη' wi, τα αθροίσματα s0,s1,s2 υπολογίζονται ως εξής:

Και οι εξισώσεις της τυπικής απόκλισης παραμένουν αμετάβλητες. Σημειώστε ότι sο είναι τώρα το άθροισμα των βαρών και όχι ο αριθμός των δειγμάτων Ν.

Η αυξητική μέθοδος με μειωμένα σφάλματα στρογγυλοποίησης μπορεί επίσης να εφαρμοστεί, με κάποια πρόσθετη πολυπλοκότητα.

Ένα τρέχον άθροισμα των βαρών πρέπει να υπολογίζεται για κάθε k από 1 έως n:

και όπου χρησιμοποιείται το 1/n πρέπει να αντικατασταθεί από το wi/Wn :

Και τελικά,

και,

όπου n είναι ο συνολικός αριθμός στοιχείων, και n' είναι ο αριθμός στοιχείων με μη μηδενικά βάρη. Οι παραπάνω τύποι γίνονται ισοδύναμοι με τους απλούστερους τύπους που δόθηκαν παραπάνω αν όλα τα βάρη θεωρηθούν ίσα με τη μονάδα.

Συνδυάζοντας τυπικές αποκλίσεις

[Επεξεργασία | επεξεργασία κώδικα]

Στατιστικά που βασίζονται στον πληθυσμό

[Επεξεργασία | επεξεργασία κώδικα]

Οι πληθυσμοί συνόλων, που μπορεί να μην είναι ξένα μεταξύ τους , μπορεί να υπολογιστεί ως εξής :

Οι τυπικές αποκλίσεις από ξένους μεταξύ τους υπο-πληθυσμούς μπορούν να υπολογιστούν όπως φαίνεται παρακάτω, με την προϋπόθεση ότι τα μεγέθη και οι μέσοι όροι του καθενός είναι γνωστοί (η πραγματική τιμή τους, ή ακόμη και οι σχέσεις που τα συνδέουν) :

Για παράδειγμα, ας υποθέσουμε ότι είναι γνωστό ότι ο μέσος Αμερικανός άνδρας έχει ένα μέσο ύψος 70 ιντσών με τυπική απόκλιση 3 ιντσών και ότι η μέση Αμερικανίδα γυναίκα έχει ένα μέσο ύψος των 65 ιντσών με τυπική απόκλιση 2 ίντσες. Επίσης ας υποθέσουμε ότι ο αριθμός των ανδρών, Ν, είναι ίσος με τον αριθμό των γυναικών. Στη συνέχεια, η μέση τιμή και τυπική απόκλιση των υψών των αμερικανικών ενηλίκων θα μπορούσε να υπολογιστεί ως:


Στην πιο γενική περίπτωση όπου έχουμε Μ ξένους μεταξύ τους πληθυσμούς, από Χ1 έως ΧΜ, και την ένωση των πληθυσμών :

όπου

Αν το μέγεθος (το πραγματικό ή το σχετικό με τα υπόλοιπα), η μέση τιμή και η τυπική απόκλιση από δύο μη ξένους πληθυσμούς είναι γνωστοί για τους πληθυσμούς καθώς και για την τομή τους , τότε η τυπική απόκλιση του συνολικού πληθυσμού μπορεί να υπολογιστεί και ως εξής :


Αν δύο ή παραπάνω σύνολα δεδομένων συνενωθούν στοιχείο με στοιχείο, η τυπική απόκλιση του αποτελέσματος μπορεί να υπολογιστεί αν η τυπική απόκλιση κάθε συνόλου δεδομένων καθώς και η συνδιακύμανση μεταξύ κάθε ζεύγους συνόλων δεδομένων είναι γνωστές, ως εξής:


Για την ειδική περίπτωση όπου δεν υπάρχει κάποια συσχέτιση μεταξύ των ζευγών των συνόλων δεδομένων, τότε η σχέση απλοποιείται στην μέση τετραγωνική ρίζα :

Στατιστική βασισμένη στο δείγμα

[Επεξεργασία | επεξεργασία κώδικα]

Οι τυπικές αποκλίσεις μη κενών υπο-δειγμάτων (XY = ∅) μπορούν να υπολογιστούν ως εξής, υπό την προϋπόθεση ότι τα πραγματικά μεγέθη και οι μέσοι όροι είναι όλα γνωστά :

Για την πιο γενική περίπτωση με Μ ξένα μεταξύ τους σύνολα δεδομένων, από Χ1 μέχρι ΧΜ, και το σύνολο δεδομένων

όπου:

Αν το μέγεθος, ο μέσος όρος και η τυπική απόκλιση δύο μη ξένων δειγμάτων είναι γνωστά τόσο για τα δείγματα όσο και για την τομή τους, τότε η τυπική απόκλιση του δείγματος που προκύπτει από συνένωση των δύο μπορεί να υπολογιστεί. Γενικά :

Ο όρος τυπική απόκλιση χρησιμοποιήθηκε για πρώτη φορά[6] εγγράφως από τον Karl Pearson[7] το 1894, μετά τη χρήση του όρου στις διαλέξεις του. Αυτό αντικατέστησε τις προηγούμενες εναλλακτικές ονομασίες για την ίδια ιδέα: για παράδειγμα, ο Gauss χρησιμοποιεί το μέσο σφάλμα.[8] Αξίζει ίσως να σημειωθεί ότι το μέσο σφάλμα είναι μαθηματικά διαφορετικό από την τυπική απόκλιση.

  1. Bland, J.M.; Altman, D.G. (1996). «Statistics notes: measurement error». BMJ 312 (7047): 1654. doi:10.1136/bmj.312.7047.1654. PMID 8664723. 
  2. Gorard, Stephen.
  3. Weisstein, Eric W., "Bessel's Correction" από το MathWorld.
  4. Ghahramani, Saeed (2000). Fundamentals of Probability (2nd Edition). Prentice Hall: New Jersey. p. 438.
  5. Eric W. Weisstein. «Distribution Function». MathWorld—A Wolfram Web Resource. Ανακτήθηκε στις 30 Σεπτεμβρίου 2014. 
  6. Dodge, Yadolah (2003). The Oxford Dictionary of Statistical Terms. Oxford University Press. ISBN 0-19-920613-9. 
  7. Pearson, Karl (1894). «On the dissection of asymmetrical frequency curves». Philosophical Transactions of the Royal Society A 185: 71–110. doi:10.1098/rsta.1894.0003. 
  8. Miller, Jeff. «Earliest Known Uses of Some of the Words of Mathematics». 

Εξωτερικοί σύνδεσμοι

[Επεξεργασία | επεξεργασία κώδικα]
  翻译: