Η κανονικοποίηση είναι χρήσιμη όταν τα δεδομένα σας έχουν ποικίλες κλίμακες και ο αλγόριθμος που χρησιμοποιείτε δεν κάνει υποθέσεις σχετικά με την κατανομή των δεδομένων σας, όπως k-πλησιέστεροι γείτονες και τεχνητά νευρικά δίκτυα. Η τυποποίηση προϋποθέτει ότι τα δεδομένα σας έχουν κατανομή Gaussian (καμπύλη καμπάνας).
Πότε πρέπει να ομαλοποιήσουμε τα δεδομένα;
Τα δεδομένα πρέπει να είναι κανονικοποιημένα ή τυποποιημένα για να φέρουν όλες τις μεταβλητές σε αναλογία μεταξύ τους. Για παράδειγμα, εάν μια μεταβλητή είναι 100 φορές μεγαλύτερη από μια άλλη (κατά μέσο όρο), τότε το μοντέλο σας μπορεί να συμπεριφέρεται καλύτερα εάν κανονικοποιήσετε/τυποποιήσετε τις δύο μεταβλητές ώστε να είναι περίπου ισοδύναμες.
Ποια είναι η διαφορά μεταξύ κανονικοποίησης και τυποποίησης;
Normalization συνήθως σημαίνει επανακλιμάκωση των τιμών σε ένα εύρος [0, 1]. Τυποποίηση συνήθως σημαίνει επανακλιμάκωση των δεδομένων ώστε να έχει μέσο όρο 0 και τυπική απόκλιση 1 (διακύμανση μονάδας).
Πότε και γιατί χρειαζόμαστε κανονικοποίηση δεδομένων;
Με πιο απλά λόγια, η κανονικοποίηση διασφαλίζει ότι όλα τα δεδομένα σας φαίνονται και διαβάζονται με τον ίδιο τρόπο σε όλες τις εγγραφές. Η κανονικοποίηση θα τυποποιήσει πεδία συμπεριλαμβανομένων των ονομάτων εταιρειών, ονομάτων επαφών, διευθύνσεων URL, πληροφοριών διεύθυνσης (οδούς, πολιτείες και πόλεις), αριθμούς τηλεφώνου και τίτλους εργασίας.
Πώς επιλέγετε την κανονικοποίηση και την τυποποίηση;
Στον επιχειρηματικό κόσμο, η "κανονικοποίηση" συνήθως σημαίνει ότι το εύρος των τιμών είναι"κανονικοποιημένο να είναι από 0,0 έως 1,0". Η "Τυποποίηση" συνήθως σημαίνει ότι το εύρος των τιμών είναι "τυποποιημένο" για να μετρήσει πόσες τυπικές αποκλίσεις είναι η τιμή από τον μέσο όρο της.