Στη στατιστική ανάλυση, το διαφορά μεταξύ των μελών ενός συνόλου δεδομένων δείχνει πόσο μακριά είναι τα σημεία δεδομένων από μια γραμμή τάσης, επίσης γνωστή ως a γραμμή παλινδρόμησης. Όσο μεγαλύτερη είναι η διακύμανση, τόσο πιο εκτεταμένα είναι τα σημεία δεδομένων. Η μελέτη της ανάλυσης της διακύμανσης δείχνει ποια τμήματα της διακύμανσης μπορούν να εξηγηθούν από τα χαρακτηριστικά των δεδομένων και τα οποία μπορούν να αποδοθούν σε τυχαίους παράγοντες. Το τμήμα της διακύμανσης που δεν μπορεί να εξηγηθεί ονομάζεται υπολειμματική διακύμανση.
Χρησιμοποιώντας υπολογιστικά φύλλα Excel για υπολογισμό της υπολειπόμενης απόκλισης
Ο τύπος για τον υπολογισμό της υπολειμματικής διακύμανσης περιλαμβάνει πολλούς πολύπλοκους υπολογισμούς. Για μικρά σύνολα δεδομένων, η διαδικασία υπολογισμού της υπολειμματικής διακύμανσης με το χέρι μπορεί να είναι κουραστική. Για τα μεγάλα σύνολα δεδομένων, η εργασία μπορεί να είναι εξαντλητική. Χρησιμοποιώντας ένα υπολογιστικό φύλλο Excel, χρειάζεται μόνο να εισάγετε τα σημεία δεδομένων και να επιλέξετε τον σωστό τύπο. Το πρόγραμμα χειρίζεται τους περίπλοκους υπολογισμούς και δίνει γρήγορα αποτελέσματα.
Σημεία δεδομένων
Ανοίξτε ένα νέο υπολογιστικό φύλλο Excel και εισαγάγετε τα σημεία δεδομένων σε δύο στήλες. Οι γραμμές παλινδρόμησης απαιτούν ότι κάθε σημείο δεδομένων έχει δύο στοιχεία. Οι στατιστικολόγοι χαρακτηρίζουν τυπικά αυτά τα στοιχεία "Χ" και "Υ". Για παράδειγμα, η Generic Insurance Co. Θέλει να βρει την εναπομένουσα διακύμανση του ύψους και του βάρους των υπαλλήλων της. Η μεταβλητή X αντιπροσωπεύει το ύψος και η μεταβλητή Υ αντιπροσωπεύει το βάρος. Εισάγετε τα ύψη στη στήλη Α και τα βάρη στη στήλη Β.
Βρείτε το Μέσο
ο σημαίνω αντιπροσωπεύει το μέσο όρο για κάθε στοιχείο του συνόλου δεδομένων. Σε αυτό το παράδειγμα, η Generic Insurance θέλει να βρει τη μέση, τυπική απόκλιση και συνδιακύμανση των υψών και βαρών των 10 εργαζομένων. Ο μέσος όρος των υψών που αναφέρονται στη στήλη Α μπορεί να βρεθεί εισάγοντας τη συνάρτηση "= AVERAGE (A1: A10)" στο κελί F1. Ο μέσος όρος των βαρών που αναφέρονται στη Στήλη Β μπορεί να βρεθεί εισάγοντας τη συνάρτηση "= AVERAGE (B1: B10)" στο κελί F3.
Βρίσκοντας την τυπική απόκλιση και την κατανομή
ο τυπική απόκλιση μετρά πόσο μακριά τα σημεία των δεδομένων διαδίδονται από τον μέσο όρο. ο συνδιακύμανσης μετρά πόσο τα δύο στοιχεία του σημείου δεδομένων αλλάζουν μαζί. Η τυπική απόκλιση των υψών εντοπίζεται εισάγοντας τη συνάρτηση "= STDEV (A1: A10)" στο κελί F2. Η τυπική απόκλιση των βαρών εντοπίζεται εισάγοντας τη συνάρτηση "= STDEV (B1: B10)" στο κελί F4. Η συνδιακύμανση μεταξύ των υψών και των βαρών γίνεται με την εισαγωγή της συνάρτησης "= COVAR (A1: A10, B1: B10)" στο κελί F5.
Εύρεση της Γραμμής παλινδρόμησης
ο γραμμή παλινδρόμησης αντιπροσωπεύει μια γραμμική συνάρτηση που ακολουθεί την τάση των σημείων δεδομένων. Ο τύπος της γραμμής παλινδρόμησης μοιάζει με αυτόν: Y = aX + b.
Ο χρήστης μπορεί να βρει τις τιμές για "a" και "b" χρησιμοποιώντας τους υπολογισμούς για τα μέσα, τις τυπικές αποκλίσεις και τη συνδιακύμανση. Η τιμή για το "b" αντιπροσωπεύει το σημείο όπου η γραμμή παλινδρόμησης παρεμβάλλει τον άξονα Υ. Η τιμή μπορεί να βρεθεί λαμβάνοντας τη συνδιακύμανση και διαιρώντας την με το τετράγωνο της τυπικής απόκλισης των τιμών Χ. Ο τύπος Excel πηγαίνει στο κελί F6 και μοιάζει με αυτό: = F5 / F2 ^ 2.
Η τιμή για το "a" αντιπροσωπεύει την κλίση της γραμμής παλινδρόμησης. Ο τύπος Excel πηγαίνει στο κελί F7 και μοιάζει με αυτό: = F3-F6 * F1.
Για να δείτε τον τύπο της γραμμής παλινδρόμησης, εισαγάγετε αυτή τη συμβολοσειρά συμβολοσειρών στο κελί F8:
(F7, 2)) = ΣΥΓΚΕΝΤΡΩΣΗ ("Y =", ΣΤΡΟΓΓΥΛΟ (F6, 2), "X", IF (ΣΗΜΕΙΟ (F7) = 1, "+",
Υπολογισμός τιμών Y
Το επόμενο βήμα περιλαμβάνει τον υπολογισμό των τιμών Υ στη γραμμή παλινδρόμησης για τις δεδομένες τιμές X στο σύνολο δεδομένων. Ο τύπος για να βρείτε τις τιμές Y πηγαίνει στη στήλη C και μοιάζει με αυτό:
= $ F $ 6 * Α (i) + $ F $ 7
Όπου A (i) είναι η τιμή για τη Στήλη Α στη Σειρά (i). Οι τύποι μοιάζουν με αυτό στο υπολογιστικό φύλλο:
= $ F $ 6 * A1 + $ F $ 7
= $ F $ 6 * A2 + $ F $ 7
= $ F $ 6 * A3 + $ F $ 7, και ούτω καθεξής
Οι καταχωρίσεις στη στήλη Δ δείχνουν τις διαφορές μεταξύ των αναμενόμενων και των πραγματικών τιμών για το Y. Οι τύποι μοιάζουν με αυτόν τον τύπο:
= Β (ί) -C (i), Όπου τα Β (i) και C (i) είναι οι τιμές στην Σειρά (i) στις στήλες B και C, αντίστοιχα.
Εύρεση της υπολειπόμενης απόκλισης
ο τύπος για υπολειμματική διακύμανση πηγαίνει στο Cell F9 και μοιάζει με αυτό:
= SUMSQ (D1: D10) / (COUNT (D1: D10) -2)
Όπου το SUMSQ (D1: D10) είναι το άθροισμα των τετραγώνων των διαφορών μεταξύ των πραγματικών και των αναμενόμενων τιμών Υ και (COUNT (D1: D10) -2) είναι ο αριθμός σημείων δεδομένων, μείον 2 για βαθμούς ελευθερίας δεδομένα.