PENERAPAN TEKNIK BAGGING UNTUK MENINGKATKAN AKURASI KLASIFIKASI PADA ALGORITMA C4.5 DALAM MENENTUKAN BLOGGER PROFESIONAL

Taftazani Ghazi Pratama, Agung prihandono, Achmad Ridwan

Abstract


Ada beberapa model data mining salah satunya fungsinya sebagai  klasifikasi. Di bidang klasifikasi, ada banyak cabang yang berkembang yaitu pohon keputusan (decision tree). Salah satu decision tree yang populer adalah C4.5. tetapi algoritma ini kurang maksimal dalam menangani kesimbangan kelas. Masalah ketidakseimbangan kelas telah dilaporkan sangat menghambat kinerja algoritma klasifikasi dan telah menarik banyak perhatian dari para peneliti dari berbagai bidang. Oleh karena itu telah diusulkan untuk memecahkan masalah ini maka diperlukan sebuah algoritma ensemble yaitu bagging untuk meningkatkan Akurasi. Dalam riset ini, data yang digunakan adalah Blogger dataset yang diambil dari UCI repository of machine learning. Pada dataset ini  atributnya terdiri : Pendidikan (degree), tingkah politik(caprice), topik, media local turnover (LMT) dan ruang lokal, politik dan sosial (LPSS). Dari hasil penelitian, dengan menerapkan  teknik bagging untuk klasifikasi berbasis ensemble pada algoritma C4.5 dapat meningkatkan akurasi sebesar 9 %. Dengan akurasi awal 68 %, setelah diterapkan teknik bagging menjadi 77 %.


Full Text:

PDF

References


Altman, N. and Krzywinski, M. (2017) ‘Points of Significance: Ensemble methods: Bagging and random forests’, Nature Methods. doi: 10.1038/nmeth.4438.

Basuki, A. and Suwarno (2018) ‘Online dissolved gas analysis of power transformers based on decision tree model’, in 4th IEEE Conference on Power Engineering and Renewable Energy, ICPERE 2018 - Proceedings. doi: 10.1109/ICPERE.2018.8739761.

Berry, M. J. and Linoff, G. (1997) ‘Data Mining Techniques: For Marketing, Sales, and Customer Support’, John Wiley & Sons, Inc.

Galar, M. et al. (2012) ‘A review on ensembles for the class imbalance problem: Bagging-, boosting-, and hybrid-based approaches’, IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews. doi: 10.1109/TSMCC.2011.2161285.

Gorunescu, F. (2011) Data Mining, Soft Computing. Berlin, Heidelberg: Springer Berlin Heidelberg. doi: 10.1007/978-3-642-19721-5.

Hoo, Z. H., Candlish, J. and Teare, D. (2017) ‘What is an ROC curve?’, Emergency Medicine Journal. doi: 10.1136/emermed-2017-206735.

Larose, D. T. (2006) Data Mining Methods and Models, Data Mining Methods and Models. doi: 10.1002/0471756482.

Luque, A. et al. (2019) ‘The impact of class imbalance in classification performance metrics based on the binary confusion matrix’, Pattern Recognition. doi: 10.1016/j.patcog.2019.02.023.

Mordelet, F. and Vert, J. P. (2014) ‘A bagging SVM to learn from positive and unlabeled examples’, Pattern Recognition Letters. doi: 10.1016/j.patrec.2013.06.010.

Naik, A. and Samant, L. (2016) ‘Correlation Review of Classification Algorithm Using Data Mining Tool: WEKA, Rapidminer, Tanagra, Orange and Knime’, Procedia Computer Science, 85, pp. 662–668. doi: 10.1016/j.procs.2016.05.251.

Quinlan, J. R. (1996) ‘Bagging, boosting, and C4.5’, in Proceedings of the National Conference on Artificial Intelligence.

Ridwan, A., Andono, P. N. and Supriyanto, C. (2018) ‘Optimasi Klasifikasi Status Gizi Balita Berdasarkan Indeks Antropometri Menggunakan Algoritma Naive’, Teknologi Informasi.

Wu, X. and Kumar, V. (2009) The Top Ten Algorithms in Data Mining. Taylor & Francis Group.


Refbacks

  • There are currently no refbacks.