Komparasi Algoritma Klasifikasi Machine Learning Pada Analisis Sentimen Film Berbahasa Indonesia

  • Heny Sumarno Sistem Informasi; AMIK BSI Bekasi

Abstract

Abstrak: Analisa Sentimen adalah proses yang bertujuan membedakan antara polarita di antara tiga harga yaitu positif, negatif dan netral. Opini publik adalah sumber informasi penting yang dibutuhkan dalam pengambilan keputusan sesorang terhadap suatu produk. Saat ini, opini konsumen terhadap pengalaman suatu produk semakin meningkat melalui media online. Untuk membaca opini-opini ini membutuhkan waktu yang banyak, tetapi jika hanya mengambil opini dalam jumlah yang sedikit dapat menimbulkan bias informasi. Algoritma Klasifikasi seperti Naïve Bayes (NB), Support Vector Machine (SVM), dan C.45 dapat digunakan peneliti untuk tujuan melakukan analisa sentimen dari opini suatu produk film. Berdasarkan hal ini, dalam penelitian ini dilakukan perbandingan dari tiga algoritma tersebut untuk mendapatkan tingkat pengetesan data yang paling tinggi. Dari penelitian ini didapat kesimpulan bahwa algoritma Naïves Bayeslah yang mendapatkan tingkat yang paling tinggi. Setelah dilakukan kombinasi antara algoritma Naïve Bayes dan Algoritma Genetika dengan seleksi fitur untuk meningkatkan tingkat akurasi dari Naïve Bayes classifier. Evaluasi selesai dilakukan dengan menggunakan metode 10 fold cross validation. Akurasi dari tingkat pengukuran diukur dengan menggunakan confussion matrix dan kurva ROC. Hasil akhir yang didapat dari klasifikasi text yang merupakan penggabungan dari opini positif dan negatif menunjukan terjadi peningkatan dalam hal akurasi sebesar 73 sampai dengan 80 persen pada algoritma Naïve Bayes.
 
Kata Kunci: Algoritma Genetika, Analisa Sentimen, Machine, C4.5, Naïve Bayes, Opini, Support Vector
 
Abstract: Sentiment analysis is the process aiming to determine whether the polarity of a towards the positive, negative or neutral. Public opinion is an important source in the decision-making person to a product. Nowadays consumers are increasingly making their opinions and experiences online. Reading those opinions are time-consuming, but, if only few opinions were read, the evaluation would be biased. Classification algorithms such as Naive Bayes (NB), Support Vector Machine (SVM), and C4.5 were proposed by many researchers to be used in sentiment analysis of movie opinions. Therefore, in this study will be to compare the third is to get agorima agoritma where most superior in the test data. So Naive Bayes algorithm generated the most superior. After the Naive Bayes algorithm will be combined with genetic algorithm feature selection in order to improve the accuracy of Naive Bayes classifier. The evaluation was done using 10 fold cross validation. While the measurement accuracy is measured by the confusion matrix and ROC curves. This research resulted in text classification in the form of a positive or negative opinions Indonesian language film. The results showed an increase in the accuracy of Naive Bayes 73.00% to 80.50%.
 
Keywords: C4.5, Genetic Algorith,.Sentimetn Analysis, Naive Bayes, Opinion, Support Vector Machine.

Author Biography

Heny Sumarno, Sistem Informasi; AMIK BSI Bekasi
Sistem Informasi; AMIK BSI Bekasi
Published
2017-12-27
How to Cite
SUMARNO, Heny. Komparasi Algoritma Klasifikasi Machine Learning Pada Analisis Sentimen Film Berbahasa Indonesia. Bina Insani ICT Journal, [S.l.], v. 4, n. 2, p. 189-196, dec. 2017. ISSN 2527-9777. Available at: <http://ejournal-binainsani.ac.id/index.php/BIICTJ/article/view/691>. Date accessed: 24 jan. 2018.