Analisis Model-Model Machine Learning Interpretable Pada Emotional Tweets Berbahasa Indonesia

Joseph Setiawan Hardadi; Hendra Bunyamin

doi:10.51211/biict.v10i2.2526

Joseph Setiawan Hardadi Universitas Kristen Maranatha
Hendra Bunyamin Universitas Kristen Maranatha

DOI: https://doi.org/10.51211/biict.v10i2.2526

Abstract

Penelitian ini membahas analisis model machine learning yang interpretable terhadap prediksi emosi tweets berbahasa Indonesia. Banyaknya pengguna Twitter di Indonesia membuat analisis emosi menjadi penting, karena hal ini dapat digunakan untuk memprediksi respon orang terhadap sesuatu, seperti keluhan karyawan terhadap perusahaannya dan respon siswa terhadap . Tujuan utama penelitian ini adalah menilai bagaimana algoritma-algoritma interpretable yang digunakan memprediksi emosi dari tweets tersebut. Metode yang digunakan dalam penelitian ini adalah normalisasi data, ekstraksi fitur, training, evaluasi dan interpretasi. Setelah normalisasi data, fitur-fitur yang diekstraksi adalah Part-of-Speech Tagging, Stemming, perhitungan jumlah kata emosi, TF-IDF, Word Embedding, nilai sentimen, dan ortografi yang terdiri dari jumlah huruf kapital, tanda seru, tanda baca, jumlah kata, dan jumlah huruf masing-masing tweet. Kemudian, model dilatih dan dievaluasi berdasarkan metrik F1 score. Kemudian interpretasi dengan menggunakan partial dependence plot dilakukan untuk melihat efek data terhadap model. Hasil penelitian menunjukkan bahwa Logistic Regression memiliki F1 score terbaik dibanding ketiga algoritma lainnya, yaitu di atas 60%. Partial dependence plot dari Logistic Regression juga dapat menggambarkan relasi kata-kata dalam TF-IDF terhadap model, dengan komposisi sebagian kata berdampak positif dan sebagian pula berdampak negatif atau berdampak tidak besar. Dengan demikian, dibandingkan semua algoritma, Logistic Regression adalah pilihan algoritma interpretable terbaik dalam kasus ini. Kode program dari penelitian dapat diakses di https://github.com/1972007/Kode-Jurnal_Joseph.

References

1. M. S. Saputri, R. Mahendra dan M. Adriani, "Emotion Classification on Indonesian Twitter Dataset," 2018.
2. C. Molnar, Interpretable Machine Learning, 2022.
3. F. Z. Tala, "A Study of Stemming Effects on Information," Institute for Logic, Language and Computation, The Netherlands, 2003.
4. U. Kamath, J. Liu dan J. Whitaker, Deep Learning for NLP and Speech Recognition, 2019.
5. A. Dinakaramani, F. Rashel, A. Luthfi dan R. Manurung, "Designing an Indonesian Part of speech Tagset," 2014.
6. D. Jurafsky dan J. H. Martin, Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2021.
7. A. . Z. Arifin, I. P. A. K. Mahendra dan H. . T. Ciptaningtyas, "Enhanced Confix Stripping Stemmer and Ants Algorithm for Classifying News Document in Indonesian Language," 2009.
8. J. Asian, "Effective Techniques for Indonesian Text Retrieval," 2009.
9. A. D. Tahitoe e D. Purwitasari, "Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia Dengan Metode Corpus Based Stemming".
10. P. R. Shaver e U. Murdaya, "Structure of the Indonesian emotion lexicon," 2001.
11. J. Eisenstein, Introduction to Natural Language Processing, 2019.
12. G. Bonaccorso, Machine Learning Algorithms, Packt Publishing, 2018.
13. R. Rehurek dan P. Sojka, "Software Framework for Topic Modelling with Large Corpora," dalam Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, 2010.
14. F. Koto dan G. Y. Rahmaningtyas, InSet Lexicon: Evaluation of a Word List for Indonesian Sentiment Analysis in Microblogs, 2017.
15. S. Raschka dan V. Mirjalili, Python Machine Learning Third Edition Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2, Packt Publishing, 2019.
16. S. Widodo, . H. Brawijaya dan S. , "Stratified K-fold cross validation optimation on machine learning for prediction," 2022.
17. F. Pedregosa, G. Varoquaux, A. Gramfort, . V. Michel, . B. Thirion, . O. Grisel, M. Blondel, P. Prettenhofer, . R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot dan E. Duchesnay, "Scikit-learn: Machine Learning in Python," Journal of Machine Learning Research, pp. 2825-2830, 2011
18. S. Masis, Interpretable Machine Learning with Python, Packt Publishing, 2021.