Τεχνικές µοντελοποίησης ϑεµάτων σε κείµενα και οµιλίες ειδησεογραφικού περιεχοµένου

Περίληψη
Η επεξεργασία φυσικής γλώσσας βρίσκει εφαρμογή και στη δημοσιογραφία, αναδιαμορφώνοντας τον τρόπο ανάλυσης μεγάλων δεδομένων κειμένων, με στόχο την καλύτερη διαχείρισή τους. Η μοντελοποίηση θεμάτων είναι μια τεχνική ανάλυσης δεδομένων που χρησιμοποιείται για την ανάδειξη κυρίαρχων εννοιών που διατρέχουν μεγάλα σύνολα κειμένων, με στόχο την αναγνώριση των σημαντικότερων θεμάτων που υπάρχουν μέσα σε αυτά και την κατάλληλη ομαδοποίησή τους. Λύσεις σε τέτοια προβλήματα προσφέρουν τα Γλωσσικά Μοντέλα Μετασχηματιστών (Transformers). Στην παρούσα εργασία προτείνεται ένα υβριδικό σύστημα επεξεργασίας φυσικής γλώσσας, που συνδυάζει γλωσσικά μοντέλα BERTopic, για άρθρα και πολιτικές ομιλίες, καθώς και την ελληνική έκδοση του BERT για ταξινόμηση θεμάτων. Τα κείμενα υποβάλλονται σε επεξεργασία για την εξαγωγή θεμάτων και λέξεων-κλειδιών, επιτρέποντας την οπτικοποίηση των αποτελεσμάτων και διευκολύνοντας την αναζήτηση και ομαδοποίηση δεδομένων. Το προτεινόμενο σύστημα επιτρέπει σε δημοσιογράφους, επαγγελματίες και ερασιτέχνες να συντάσσουν ειδησεογραφικά άρθρα, να υπαγορεύουν κείμενα και να καταγράφουν ομιλίες, με στόχο την εξαγωγή των κύριων θεμάτων που αναγνωρίζονται στο περιεχόμενο τους και την ταξινόμηση τους σε 12 δημοσιογραφικές κατηγορίες.
Λεπτομέρειες άρθρου
- Πώς να δημιουργήσετε Αναφορές
-
Κοσμάς Π., Σταματιάδου Μ.-Ε., & Δημούλας Χ. (2025). Τεχνικές µοντελοποίησης ϑεµάτων σε κείµενα και οµιλίες ειδησεογραφικού περιεχοµένου. Ετήσιο Ελληνόφωνο Επιστημονικό Συνέδριο Εργαστηρίων Επικοινωνίας, 3(1), 119–133. https://doi.org/10.12681/cclabs.8066
- Ενότητα
- cclabs3

Αυτή η εργασία είναι αδειοδοτημένη υπό το CC Αναφορά Δημιουργού 4.0.