PENERAPAN SMOTE DAN CLUSTER-BASED UNDERSAMPLING DALAM KLASIFIKASI OPINI PUBLIK BERBASIS SUPPORT VECTOR MACHINE

Authors

  • Dina Zulfiana Matiyeni Dina Universitas Negeri Gorontalo
  • Djihad Wungguli Universitas Negeri Gorontalo
  • Siti Nurmardia Abdussamad Abdussamad Universitas Negeri Gorontalo

DOI:

https://doi.org/10.26618/n8cyqc26

Keywords:

Analisis Sentimen, SVM, SMOTE, Cluster-Based Undeersampling , Imbalanced Data

Abstract

Tujuan: Penelitian ini bertujuan untuk menerapkan metode hybrid yang menggabungkan SMOTE dan Cluster-Based Undersampling Technique guna mengatasi ketidakseimbangan data dalam klasifikasi sentimen terhadap Rancangan Undang-Undang Perampasan Aset menggunakan Support Vector Machine (SVM).

Metode: Penelitian ini menggunakan pendekatan kuantitatif dengan rancangan eksperimental komparatif. Data dikumpulkan dari media sosial X terkait Rancangan Undang-Undang Perampasan Aset, dilanjutkan dengan preprocessing, pelabelan, ekstraksi fitur, serta pemisahan data latih dan data uji. Ketidakseimbangan data diatasi dengan menggabungkan metode SMOTE dan Cluster-Based Undersampling Technique pada data latih. Selanjutnya, klasifikasi sentimen dilakukan menggunakan Support Vector Machine (SVM).

Hasil: Hasil penelitian menunjukkan bahwa model SVM tanpa penyeimbangan data menghasilkan akurasi 70,10%, presisi 62%, recall 46%, dan F1-score 47%, dengan recall kelas negatif yang sangat rendah sebesar 8%. Setelah penerapan metode resampling hybrid SMOTE dan Cluster-Based Undersampling Technique, performa model meningkat signifikan dengan akurasi 82%, presisi 84%, recall 82%, dan F1-score 82%, yang mengindikasikan bahwa metode hybrid mampu mengatasi dominasi kelas mayoritas dan meningkatkan sensitivitas model secara merata pada seluruh kelas sentimen.

Simpulan: Temuan penelitian ini mengindikasikan bahwa penerapan metode SMOTE dan Cluster-Based Undersampling Technique berkontribusi signifikan dalam meningkatkan keadilan prediksi model SVM pada data yang tidak seimbang. Oleh karena itu, kombinasi kedua metode tersebut dapat dijadikan solusi yang efektif dalam pengembangan sistem klasifikasi sentimen opini publik, khususnya pada kasus dengan distribusi kelas yang tidak proporsional.

Author Biographies

  • Dina Zulfiana Matiyeni Dina, Universitas Negeri Gorontalo

    Matematika

  • Djihad Wungguli, Universitas Negeri Gorontalo

    Matematika

  • Siti Nurmardia Abdussamad Abdussamad, Universitas Negeri Gorontalo

    Matematika

References

Akbari, M. I. H. A. D., Novianty, A., & Setianingsih, C. (2017). Analisis Sentimen Menggunakan Metode Learning Vector Quantization. eProceedings of Engineering, 4(2).

Bach, M., Trofimiak, P., Kostrzewa, D., & Werner, A. (2023). CLEANSE - Cluster-based undersampling method. Procedia Computer Science, 225, 4541–4550. https://doi.org/10.1016/j.procs.2023.10.452

Fajriyah, N., Lapatta, N. T., Nugraha, D. W., & Laila, R. (2025). Implementasi SVM dan SMOTE pada analisis sentimen media sosial X terhadap pelantikan Agus Harimurti Yudhoyono. JIPI (Jurnal Ilmiah Penelitian dan Pembelajaran Informatika), 10(2), 1359–1370. https://doi.org/10.29100/jipi.v10i2.6246

Fred, A. (Ed.). (2016). IC3K 2015: Proceedings of the 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management – Volume 3: KMIS. SCITEPRESS - Science and Technology Publications, Lda.

Handayani, A., & Zufria, I. (2023). Analisis sentimen terhadap bakal capres RI 2024 di Twitter menggunakan algoritma SVM. Journal of Information System Research (JOSH), 5(1), 53–63. https://doi.org/10.47065/josh.v5i1.4379

Indrawati, A. (2021). Penerapan teknik kombinasi oversampling dan undersampling untuk mengatasi permasalahan imbalanced dataset. Jurnal Informatika dan Komputer, 4(1), 1–8. https://doi.org/10.33387/jiko

Mujilahwati, S. (2016). Pre-processing text mining pada data Twitter. Dalam Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (hal. 1–6). Universitas Nahdlatul Ulama Surabaya.

Mustaqim, E. R. N., Pagalay, U., & Crysdian, C. (2024). Prediksi tingkat kepercayaan masyarakat terhadap PILPRES 2024 menggunakan TF-IDF dan Bow menggunakan metode SVM. Jurnal Cahaya Mandalika, 5(1), 515-530.

Ningsih, W., Alfianda, B., Rahmaddeni, R., & Wulandari, D. (2024). Perbandingan algoritma SVM dan Naïve Bayes dalam analisis sentimen Twitter pada penggunaan mobil listrik di Indonesia. MALCOM: Indonesian Journal of Machine Learning and Computer Science, 4(2), 556–562. https://doi.org/10.57152/malcom.v4i2.1253

Pritama, F., Rueh Daya Leluni, E., Parhusip, J., & Yos Sudarso Palangka Kec Jekan Raya Kota Palangka Raya, J. (2024). Analisis distribusi kinerja SVM dan KNN berdasarkan rata rata simpangan baku dan stabilitas. Jurnal Ilmiah Informatika dan Komputer, 1(2), 170–174.

Putra, K. T. (2023). Analisis Feature Extraction pada Text Processing untuk Analisis Sentimen (Doctoral dissertation, Universitas Islam Negeri Maulana Malik Ibrahim).

Rahman Fauzan, M., Oktafia Lingga Wijaya, H., & Karman, J. (2023). Analisis sentimen masyarakat terhadap kenaikan harga BBM di media sosial Twitter menggunakan metode support vector machine. Dalam Seminar Riset Mahasiswa-Computer & Electrical (SERIMA-CE) (Vol. 1, No. 1, hal. 1–7). Universitas Mercu Buana.

Salehi, A. R., & Khedmati, M. (2024). A cluster-based SMOTE both-sampling (CSBBoost) ensemble algorithm for classifying imbalanced data. Scientific Reports, 14(1), Article 5081. https://doi.org/10.1038/s41598-024-55598-1

Sondriva, W., Kurniawati, Y., Amalita, N., & Salma, A. (2024). Penanganan ketidakseimbangan multikelas pada dataset survei kerangka sampel area menggunakan metode SCUT. UNP Journal of Statistics and Data Science, 2(2), 159–164. https://doi.org/10.24036/ujsds/vol2-iss2/163

Tafana Destiana Larassetya, Arfian Suryasuciramdhan, Nuril Ulia Salsa, & Ira Safaat Aeni. (2024). Analisis opini publik terhadap Pemilu 2024 pada media sosial X. TUTURAN: Jurnal Ilmu Komunikasi, Sosial dan Humaniora, 2(2), 292–301. https://doi.org/10.47861/tuturan.v2i2.994

Published

2026-06-01

Issue

Section

Articles