Ο μεγαλύτερος φόβος όσων θέλουν να κάνουν career switch στα Data Analytics ή να αυτοματοποιήσουν τη δουλειά τους είναι ο προγραμματισμός. Βλέπεις το κενό αρχείο και νιώθεις το λεγόμενο “σύνδρομο του λευκού καμβά”.
Η αλήθεια όμως είναι πολύ πιο απλή. Για να ξεκινήσεις ανάλυση δεδομένων με Python, δεν χρειάζεται να είσαι math genius. Χρειάζεται να έχεις τη σωστή καθοδήγηση, ένα πρακτικό roadmap και δεδομένα που σε ενδιαφέρουν πραγματικά.
Σε αυτόν τον οδηγό, θα χρησιμοποιήσουμε τη βιβλιοθήκη Pandas για να αναλύσουμε τα δεδομένα της θρυλικής σειράς The Office. Θα δούμε στην πράξη πώς με ελάχιστες γραμμές κώδικα μπορούμε να βγάλουμε actionable insights.
Γιατί η βιβλιοθήκη Pandas είναι ο καλύτερος σύμμαχός σου
Αν το Excel είναι ο βασιλιάς της ad-hoc ανάλυσης, η βιβλιοθήκη Pandas της Python είναι το “superhero” εργαλείο που σε βγάζει από το manual labour. Σου επιτρέπει να διαβάζεις, να φιλτράρεις και να ομαδοποιείς χιλιάδες ή εκατομμύρια γραμμές δεδομένων χωρίς να κολλάει ο υπολογιστής σου.
Πάμε να δούμε πώς γίνεται η διαδικασία βήμα-βήμα, προετοιμάζοντας το έδαφος για το δικό σου GitHub Portfolio.
Βήμα 1: Φόρτωση και επισκόπηση των δεδομένων μας
Το πρώτο πράγμα που κάνουμε σε κάθε data analytics project είναι να “διαβάσουμε” το αρχείο μας. Στην Python, αυτό γίνεται με μία μόνο εντολή.
import pandas as pd
# Φορτώνουμε το dataset των επεισοδίων
df = pd.read_csv(‘the_office_episodes.csv’)
# Βλέπουμε τις πρώτες 5 γραμμές για να καταλάβουμε τη δομή
print(df.head())
Με το df.head(), η Python μας εμφανίζει τις στήλες μας: τη σεζόν (season), τον τίτλο του επεισοδίου (episode_title), την τηλεθέαση σε εκατομμύρια (viewers_millions) και τη βαθμολογία στο IMDb (imdb_rating). Ο καθαρισμός δεδομένων γίνεται πολύ πιο εύκολος όταν έχεις μια τόσο καθαρή πρώτη εικόνα.
Βήμα 2: Υπήρξε όντως post-Michael Scott drop στην τηλεθέαση;
Πολλοί τηλεθεατές υποστηρίζουν ότι μετά την Season 7, όταν ο Steve Carell (Michael Scott) αποχώρησε από τη σειρά, η τηλεθέαση κατέρρευσε. Ας σταματήσουμε να μαντεύουμε και ας αφήσουμε τους αριθμούς να μιλήσουν.
Θα ομαδοποιήσουμε τα δεδομένα ανά σεζόν και θα βρούμε τον μέσο όρο τηλεθέασης.
# Υπολογισμός μέσης τηλεθέασης ανά σεζόν
viewership_by_season = df.groupby(‘season’)[‘viewers_millions’].mean()
print(viewership_by_season)
👉🏻 Το insight: Θα παρατηρήσεις ότι η Season 5 είχε την υψηλότερη μέση τηλεθέαση, ενώ από την Season 8 και μετά υπάρχει όντως μια σταδιακή, μετρήσιμη μείωση. Αυτό ακριβώς είναι το data storytelling: μετατρέπεις μια θεωρία σε απτή επιχειρηματική (ή τηλεοπτική) απόδειξη.
Βήμα 3: Φιλτράρισμα για τα κορυφαία επεισόδια (IMDb > 9.5)
Ας υποθέσουμε ότι θέλεις να προτείνεις σε έναν φίλο σου να δει μόνο τα “διαμάντια” της σειράς. Πώς θα απομονώσεις τα επεισόδια με βαθμολογία πάνω από 9.5 στο IMDb;
# Φιλτράρισμα δεδομένων με μία συνθήκη
top_rated = df[df[‘imdb_rating’] > 9.5][[‘season’, ‘episode_title’, ‘imdb_rating’]]
print(top_rated)
Μέσα σε κλάσματα δευτερολέπτου, η Python σου επιστρέφει επεισόδια όπως το “Goodbye, Michael” ή το “Stress Relief”. Φαντάσου πόση ώρα θα χρειαζόσουν για να το κάνεις αυτό χειροκίνητα, ψάχνοντας γραμμή-γραμμή.
Από τη θεωρία στην πράξη: Χτίσε το δικό σου portfolio
Το μυστικό για να μάθεις Python δεν είναι να βλέπεις τις ώρες να περνάνε σε βίντεο. Είναι να “λερώσεις τα χέρια σου” με πραγματικά σενάρια.
Μόλις γράψεις αυτόν τον κώδικα:
- Αποθήκευσε το αρχείο σου.
- Πρόσθεσε μια σύντομη σύνοψη με τα 3 σημαντικότερα πράγματα που ανακάλυψες.
- Ανέβασέ το στο GitHub Portfolio σου.
Αυτή η μικρή, ολοκληρωμένη νίκη (Quick Win) είναι που θα σου δώσει την αυτοπεποίθηση να προχωρήσεις σε πιο σύνθετα business datasets.
Αν νιώθεις ότι πνίγεσαι στο χάος της πληροφορίας και θέλεις μια δομημένη διαδρομή με προσωπικό mentor που ελέγχει τον κώδικά σου γραμμή προς γραμμή, ρίξε μια ματιά στο online μάθημα Python. Είμαστε εδώ για να χτίσουμε μαζί το επαγγελματικό σου μέλλον, βήμα-βήμα, χωρίς να νιώσεις ποτέ ξανά μόνος σου μπροστά στην οθόνη.