Τεχνικές µοντελοποίησης ϑεµάτων σε κείµενα και οµιλίες ειδησεογραφικού περιεχοµένου


Δημοσιευμένα: Μαρ 4, 2025
Λέξεις-κλειδιά:
Μοντελοποίηση Θεμάτων Επεξεργασία Φυσικής Γλώσσας Ταξινόμηση BERT Φορητή Δημοσιογραφία
Παναγιώτης Κοσμάς
Μαρίνα-Ειρήνη Σταματιάδου
Χαράλαμπος Δημούλας
Περίληψη

Η επεξεργασία φυσικής γλώσσας βρίσκει εφαρμογή και στη δημοσιογραφία, αναδιαμορφώνοντας τον τρόπο ανάλυσης μεγάλων δεδομένων κειμένων, με στόχο την καλύτερη διαχείρισή τους. Η μοντελοποίηση θεμάτων είναι μια τεχνική ανάλυσης δεδομένων που χρησιμοποιείται για την ανάδειξη κυρίαρχων εννοιών που διατρέχουν μεγάλα σύνολα κειμένων, με στόχο την αναγνώριση των σημαντικότερων θεμάτων που υπάρχουν μέσα σε αυτά και την κατάλληλη ομαδοποίησή τους. Λύσεις σε τέτοια προβλήματα προσφέρουν τα Γλωσσικά Μοντέλα Μετασχηματιστών (Transformers). Στην παρούσα εργασία προτείνεται ένα υβριδικό σύστημα επεξεργασίας φυσικής γλώσσας, που συνδυάζει γλωσσικά μοντέλα BERTopic, για άρθρα και πολιτικές ομιλίες, καθώς και την ελληνική έκδοση του BERT για ταξινόμηση θεμάτων. Τα κείμενα υποβάλλονται σε επεξεργασία για την εξαγωγή θεμάτων και λέξεων-κλειδιών, επιτρέποντας την οπτικοποίηση των αποτελεσμάτων και διευκολύνοντας την αναζήτηση και ομαδοποίηση δεδομένων. Το προτεινόμενο σύστημα επιτρέπει σε δημοσιογράφους, επαγγελματίες και ερασιτέχνες να συντάσσουν ειδησεογραφικά άρθρα, να υπαγορεύουν κείμενα και να καταγράφουν ομιλίες, με στόχο την εξαγωγή των κύριων θεμάτων που αναγνωρίζονται στο περιεχόμενο τους και την ταξινόμηση τους σε 12 δημοσιογραφικές κατηγορίες.

Λεπτομέρειες άρθρου
  • Ενότητα
  • cclabs3
Αναφορές
Angelov, D. (2020). Top2vec: Distributed representations of topics. arXiv preprint arXiv:2008.09470.
Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the association for computational linguistics, 5, 135-146.
Campello, R. J., Moulavi, D., Zimek, A., & Sander, J. (2015). Hierarchical density estimates for data clustering, visualization, and outlier detection. ACM Transactions on Knowledge Discovery from Data (TKDD), 10(1), 1-51.
Galke, L., & Scherp, A. (2021). Bag-of-words vs. graph vs. sequence in text classification: Questioning the necessity of text-graphs and the surprising strength of a wide MLP. arXiv preprint arXiv:2109.03777.
George, L., & Sumathy, P. (2023). An integrated clustering and BERT framework for improved topic modeling. International Journal of Information Technology, 15(4), 2187-2195.
Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv preprint arXiv:2203.05794.
Koutsikakis, J., Chalkidis, I., Malakasiotis, P., & Androutsopoulos, I. (2020, September). Greek-bert: The Greeks visiting Sesame Street. In 11th Hellenic Conference on Artificial Intelligence (pp. 110-117).
Kuuluvainen, E. (2023). Classifying news articles based on user needs using transfer learning and deep neural networks: a multi-class approach combining BERT with non-textual features.
Mastrokostas, C., Giarelis, N., & Karacapilidis, N. (2024). Social Media Topic Classification on Greek Reddit. Information, 15(9), 521.
McInnes, L., Healy, J., & Melville, J. (2018). Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426.
Nugroho, K. S., Sukmadewa, A. Y., & Yudistira, N. (2021, September). Large-scale news classification using BERT language model: Spark NLP approach. In Proceedings of the 6th International Conference on Sustainable Information Engineering and Technology (pp. 240-246).
Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).