Από το Χάος στη Δομή: Οδηγός για τη Μοντελοποίηση Δεδομένων (Netflix Edition)

Όταν ξεκινάς στον χώρο των Data Analytics, η πρώτη σου τάση είναι να φορτώσεις ένα αρχείο Excel ή CSV στο Power BI και να αρχίσεις αμέσως να φτιάχνεις διαγράμματα. Πολύ γρήγορα όμως, έρχεσαι αντιμέτωπος με έναν τοίχο: τα φίλτρα δεν λειτουργούν σωστά, οι υπολογισμοί βγάζουν διπλάσια νούμερα και το report καθυστερεί να φορτώσει.

Το πρόβλημα δεν είναι οι οπτικοποιήσεις σου. Το πρόβλημα είναι η μοντελοποίηση δεδομένων (Data Modeling).

Η μοντελοποίηση δεδομένων είναι η διαδικασία όπου καθορίζεις πώς οι πίνακές σου οργανώνονται και πώς επικοινωνούν μεταξύ τους. Στον επαγγελματικό κόσμο, η σωστή δομή των δεδομένων είναι αυτή που ξεχωρίζει έναν Junior από έναν Senior Analyst. Σε αυτόν τον οδηγό, θα χρησιμοποιήσουμε το dataset του Netflix για να δούμε πώς μετατρέπουμε έναν χαοτικό πίνακα σε ένα πεντακάθαρο, αποδοτικό Star Schema.

Το πρόβλημα των “Φουσκωμένων” Πινάκων (Flat Tables)

Αν ανοίξεις το ακατέργαστο dataset του Netflix, θα παρατηρήσεις μια στήλη με το όνομα country και μια άλλη με το όνομα cast. Σε πολλές παραγωγές, η στήλη country γράφει "United States, United Kingdom, Canada".

Αυτή η δομή δημιουργεί δύο τεράστια προβλήματα:

  1. Αδυναμία Φιλτραρίσματος: Αν θέλεις να φτιάξεις ένα dashboard στο Power BI που δείχνει μόνο τις ταινίες του Καναδά, το φίλτρο σου θα αποτύχει γιατί ψάχνει για ακριβή ταύτιση και η λέξη “Canada” είναι εγκλωβισμένη μαζί με τις άλλες χώρες.
  2. Πλεονασμός Δεδομένων: Η βάση σου αναγκάζεται να αποθηκεύει τεράστια strings κειμένου ξανά και ξανά, σπαταλώντας πολύτιμη μνήμη.

Η λύση σε αυτό το πρόβλημα κρύβεται στον σωστό καθαρισμό δεδομένων και τη δημιουργία ενός Star Schema.

Η Ανατομία ενός Star Schema

Το Star Schema είναι το χρυσό πρότυπο για το Power BI και τα Data Warehouses. Αποτελείται από έναν κεντρικό πίνακα που περιέχει τα “γεγονότα” (Fact Table) και περιβάλλεται από υποστηρικτικούς πίνακες που περιέχουν τις “ιδιότητες” (Dimension Tables).

Ας δούμε πώς θα αποδομήσουμε το Netflix dataset:

    [Dim_Cast]          [Dim_Directors]
         \                   /
          \                 /
           [  Fact_Titles  ]
          /                 \
         /                   \
   [Dim_Countries]     [Dim_Categories]

1. Ο Κεντρικός Πίνακας: Fact_Titles

Εδώ κρατάμε μόνο τις μοναδικές πληροφορίες της κάθε παραγωγής και τα IDs που θα μας επιτρέψουν να συνδεθούμε με τους υπόλοιπους πίνακες:

  • show_id (Το πρωτεύον κλειδί – Primary Key)
  • title (Ο τίτλος της ταινίας/σειράς)
  • type (Movie ή TV Show)
  • release_year (Έτος κυκλοφορίας)
  • rating (Κατάταξη καταλληλότητας, π.χ. PG-13)

2. Οι Πίνακες Διαστάσεων: Dimension Tables

Μετά από κατάλληλο split των δεδομένων μας (pivot/unpivot στο Power Query), δημιουργούμε ξεχωριστούς πίνακες:

  • Dim_Cast: Περιλαμβάνει δύο στήλες: show_id και actor_name. Αν μια ταινία έχει 5 ηθοποιούς, θα έχει 5 γραμμές σε αυτόν τον πίνακα, όλες συνδεδεμένες με το ίδιο show_id.
  • Dim_Countries: Περιλαμβάνει τις στήλες show_id και country_name.
  • Dim_Directors: Περιλαμβάνει τις στήλες show_id και director_name.

Δημιουργώντας Σχέσεις 1-προς-Πολλά (1-to-Many Relationships)

Το τελευταίο και πιο κρίσιμο βήμα στο Data Modeling είναι η δημιουργία των σχέσεων στο Model View του Power BI.

Συνδέουμε τη στήλη show_id του πίνακα Fact_Titles με τη στήλη show_id του πίνακα Dim_Countries.

  • Στον πίνακα Fact_Titles, κάθε show_id εμφανίζεται μόνο μία φορά (Πλευρά του “1”).
  • Στον πίνακα Dim_Countries, το ίδιο show_id μπορεί να εμφανίζεται πολλές φορές αν η ταινία έχει γυριστεί σε πολλές χώρες (Πλευρά των “Πολλών” ή *).

Αυτή η σχέση 1-προς-πολλά επιτρέπει στο Power BI να φιλτράρει τα δεδομένα με τρομερή ταχύτητα. Όταν ο χρήστης επιλέγει “Canada” από το slicer, ο πίνακας Dim_Countries φιλτράρει αυτόματα τον κεντρικό πίνακα Fact_Titles και σου δείχνει τα σωστά, αλάνθαστα αποτελέσματα.

Χτίσε Portfolio που ξεχωρίζει στην αγορά εργασίας

Οι recruiters και οι Senior Analysts στις τεχνικές συνεντεύξεις δεν εντυπωσιάζονται από πολύχρωμα charts. Το πρώτο πράγμα που ζητούν να δουν στο GitHub Portfolio σου είναι το Model View. Θέλουν να δουν αν ξέρεις να σχεδιάζεις ένα Star Schema που αντέχει στον χρόνο.

Αν θέλεις να σταματήσεις να κινείσαι τυχαία, να νιώσεις αυθεντική αυτοπεποίθηση και να αποκτήσεις τη στρατηγική σκέψη ενός επαγγελματία, είμαστε εδώ για να σε βοηθήσουμε.

Στο ολοκληρωμένο πρόγραμμα Data Analyst Roadmap, η θεωρία γίνεται πράξη μέσα από 5 Real-World Projects. Δεν σου δίνω απλώς βίντεο· λαμβάνεις εξατομικευμένο, one-on-one feedback από μένα για κάθε σου project, διασφαλίζοντας ότι η δουλειά σου είναι επαγγελματικού επιπέδου και έτοιμη να σου ανοίξει πόρτες στην αγορά εργασίας.

👉🏻 Κλείσε ένα online meeting μαζί μου για να βρούμε το δικό σου course.

Περιεχόμενα

Πρόοδος ανάγνωσης

Κύλιση στην κορυφή