Πρέπει να κανονικοποιήσουμε τα δεδομένα πριν από την ομαδοποίηση;

Πίνακας περιεχομένων:

Πρέπει να κανονικοποιήσουμε τα δεδομένα πριν από την ομαδοποίηση;
Πρέπει να κανονικοποιήσουμε τα δεδομένα πριν από την ομαδοποίηση;
Anonim

Η

Normalization χρησιμοποιείται για την εξάλειψη περιττών δεδομένων και διασφαλίζει ότι δημιουργούνται συμπλέγματα καλής ποιότητας που μπορούν να βελτιώσουν την αποτελεσματικότητα των αλγορίθμων ομαδοποίησης. Έτσι, γίνεται ένα ουσιαστικό βήμα πριν από την ομαδοποίηση ως Ευκλείδεια απόσταση είναι πολύ ευαίσθητο στις αλλαγές στις διαφορές[3].

Χρειάζεται να κανονικοποιήσουμε τα δεδομένα για την ομαδοποίηση K-means;

Όπως στη μέθοδο k-NN, τα χαρακτηριστικά που χρησιμοποιούνται για την ομαδοποίηση πρέπει να μετρώνται σε συγκρίσιμες μονάδες. Σε αυτή την περίπτωση, οι μονάδες δεν αποτελούν πρόβλημα αφού και τα 6 χαρακτηριστικά εκφράζονται σε μια κλίμακα 5 βαθμών. Η κανονικοποίηση ή η τυποποίηση δεν είναι απαραίτητη.

Πώς προετοιμάζετε δεδομένα πριν από την ομαδοποίηση;

Προετοιμασία δεδομένων

Για να εκτελέσετε μια ανάλυση συμπλέγματος στο R, γενικά, τα δεδομένα πρέπει να προετοιμαστούν ως εξής: Οι γραμμές είναι παρατηρήσεις (άτομα) και οι στήλες είναι μεταβλητές. Οποιαδήποτε τιμή λείπει στα δεδομένα πρέπει να αφαιρεθεί ή να εκτιμηθεί. Τα δεδομένα πρέπει να είναι τυποποιημένα (δηλαδή, κλιμακωμένα) ώστε οι μεταβλητές να είναι συγκρίσιμες.

Θα πρέπει τα δεδομένα να κλιμακωθούν για ομαδοποίηση;

Στην ομαδοποίηση, υπολογίζετε την ομοιότητα μεταξύ δύο παραδειγμάτων συνδυάζοντας όλα τα δεδομένα χαρακτηριστικών για αυτά τα παραδείγματα σε μια αριθμητική τιμή. Ο συνδυασμός δεδομένων χαρακτηριστικών προϋποθέτει τα δεδομένα να έχουν την ίδια κλίμακα.

Γιατί είναι σημαντικό να κανονικοποιείτε τις λειτουργίες πριν από την ομαδοποίηση;

Η τυποποίηση είναι ένα σημαντικό βήμα των Δεδομένωνπροεπεξεργασία.

Όπως εξηγείται σε αυτό το άρθρο, το k-means ελαχιστοποιεί τη συνάρτηση σφάλματος χρησιμοποιώντας τον αλγόριθμο Newton, δηλαδή έναν αλγόριθμο βελτιστοποίησης που βασίζεται σε κλίση. Η κανονικοποίηση των δεδομένων βελτιώνει τη σύγκλιση τέτοιων αλγορίθμων.

Συνιστάται: