| Προετοιμασία Δεδομένων |
| Written by Μ. Περτσελάκης |
| Friday, 13 May 2011 13:15 |
|
There are no translations available.
Όταν γίνεται λόγος, σε θεωρητικό επίπεδο, για εφαρμογές data mining θα παρατηρήσετε πως σχεδόν πάντα το κομμάτι της προετοιμασίας θεωρείται υλοποιημένο και παραλείπεται, και τα δεδομένα μας είναι "έτοιμα" να εξάγουν γνώση μόλις εφαρμόσουμε τους κατάλληλους αλγόριθμους... Στην πραγματικότητα (και σε πραγματικά δεδομένα) δεν είναι τόσο απλά τα πράγματα. Πάντα, θα πρέπει να προηγείται μια διαδικασία προετοιμασίας των δεδομένων, η οποία ενδέχεται να περιλαμβάνει, μεταξύ άλλων, τον χειρισμό εγγραφών που τους λείπουν τιμές, την μετατροπή δεδομένων σε άλλη κλίμακα για επίτευξη ομογένειας, την διαχείριση περιθωριακών στοιχείων (outliers), αλλά και τη επιλογή του κατάλληλου συνόλου για την τελική επεξεργασία. Δεν είναι λίγοι αυτοί που πιστεύουν πως, τελικά, ο καλός data miner είναι αυτός που έχει την κατάλληλη εμπειρία και γνωρίζει πώς να προετοιμάσει τα δεδομένα του ώστε να επιτύχει το βέλτιστο αποτέλεσμα. Το να ξέρεις να χρησιμοποιείς ένα πρόγραμμα data mining ή να τρέχεις έναν αλγόριθμο πάνω σε έτοιμα δεδομένα δεν είναι τόσο δύσκολο. Η εμπειρία μας στον Ελληνικό χώρο και η συνεργασία μας με μεγάλες εταιρίες σε διάφορους τομείς (τράπεζες, αυτοκίνητα, σούπερ μαρκετ, κλπ), έχει δείξει πως, δυστυχώς, το μεγαλύτερο εμπόδιο, όχι μόνο για την εφαρμογή τεχνικών data mining αλλά και για την αποδοχή της ίδιας της θεωρίας και των ωφέλιμων αποτελεσμάτων της, έχει να κάνει με τον τρόπο συλλογής και διατήρησης των δεδομένων. Τα ελλιπή στοιχεία, ο διαφορετικός τρόπος γραφής ίδιων οντοτήτων (π.χ. διευθύνσεις) , τα σφάλματα και τα τυπογραφικά λάθη είναι ιδιαίτερα συχνό φαινόμενο και συναντιούνται σε τέτοιο βαθμό που οποιαδήποτε απόπειρα εξαγωγής χρήσιμης γνώσης είναι καταδικασμένη. Είναι επομένως σημαντικό να γνωρίζει κανείς πως για την σωστή και ουσιαστική αξιοποίηση οποιουδήποτε εργαλείου data mining, είναι απαραίτητη προυπόθεση, εκτός από τη συλλογή των δεδομένων, η κατάλληλα προετοιμασία και ο καθαρισμός τους. |


Προετοιμασία Δεδομένων
Παρόλο που δεν αναφέρεται συχνά, η Προετοιμασία των Δεδομένων αποτελεί συνήθως το μεγαλύτερο τμήμα, ποσοστιαία, της απαραίτητης εργασίας που πρέπει να πραγματοποιηθεί για να προκύψει ένα αξιόπιστο αποτέλεσμα σε μια διαδικασία data mining.