Barrung, Lilyani (2018) Implementasi Algoritma Clustering based on Frequent Word Sequences (CFWS) untuk Clustering Dokumen Abstrak Bahasa Indonesia dan Inggris. Tugas Akhir (S1) - thesis, UNIVERSITAS BAKRIE.
Preview |
Text (pdf)
00. Cover.pdf - Submitted Version Download (4MB) | Preview |
Text (pdf)
01. BAB I-III.pdf - Submitted Version Restricted to Registered users only Download (3MB) |
|
Text (pdf)
02. BAB IV.pdf - Submitted Version Restricted to Registered users only Download (3MB) |
|
Text (pdf)
03. BAB V.pdf - Submitted Version Restricted to Registered users only Download (90kB) |
|
Preview |
Text (pdf)
04. DAFTAR PUSTAKA.pdf - Submitted Version Download (231kB) | Preview |
Text (pdf)
05. Lampiran.pdf - Submitted Version Restricted to Registered users only Download (2MB) |
Abstract
Klasterisasi merupakan salah satu metode text mining yang digunakan untuk mengelompokan dokumen. Terdapat banyak teknik klasterisasi yang dikembangkan, salah satunya adalah teknik yang merepresentasikan dokumen sebagai bag-of-words atau sekumpulan kata. Namun, teknik tersebut menyebabkan ukuran dimensi kata yang besar pada dokumen. Untuk mengatasi masalah tersebut digunakan sebuah teknik baru yaitu teknik sequences-of-words untuk klasterisasi dokumen. Penelitian ini berfokus untuk melakukan klasterisasi atau pengelompokan dokumen pada dataset yang digunakan dengan mengimplementasikan algoritma Clustering based on Frequent Word Sequences (CFWS) yang memanfaatkan teknik sequences-of-words serta membandingkan hasil klasterisasi dokumen dari kedua dataset dengan dua cara yaitu berdasarkan parameter minimum support dan berdasarkan stabilitas jumlah cluster yang dihasilkan setelah menggunakan random dataset. Adapun dataset yang digunakan adalah kumpulan dokumen bagian abstrak dari tugas akhir mahasiswa(i) sebanyak 300 dokumen (150 dokumen abstrak Bahasa Indonesia dan 150 dokumen abstrak Bahasa Inggris). Penelitian ini dimulai dengan pengolahan data menjadi dataset, kemudian melakukan implementasi CFWS untuk klasterisasi, serta melakukan validasi hasil dan komparasi. Klasterisasi dengan menggunakan algoritma CFWS dapat mengurangi dimensi kata pada dokumen. Dari komparasi yang telah dilakukan pada penelitian ini, kedua cara memiliki hasil yang serupa. Pada komparasi pertama, jumlah cluster yang dihasilkan oleh dataset abstrak Bahasa Inggris lebih unggul dari segi banyaknya jumlah cluster yang dihasilkan. Pada minimum support 5%, 20%, 25%, dan 30%, jumlah cluster dari dataset abstrak Bahasa Inggris cenderung lebih banyak dibandingkan dari dataset abstrak Bahasa Indonesia. Jumlah cluster terbanyak dihasilkan oleh minimum support 10% pada dataset abstrak Bahasa Indonesia dan minimum support 20% pada dataset abstrak Bahasa Inggris yaitu 7 cluster. Pada komparasi kedua, jumlah cluster yang dihasilkan dataset abstrak Bahasa Inggris juga lebih unggul dari segi stabilitas jumlah cluster yang dihasilkan karena cenderung lebih stabil. Pada dataset abstrak Bahasa Inggris terdapat tiga minimum support yang memiliki presentase stabil, sedangkan pada dataset abstrak Bahasa Indonesia hanya terdapat dua minimum support yang memiliki presentase stabil. Oleh karena itu, berdasarkan kedua hasil komparasi tersebut dapat disimpulkan bahwa dataset abstrak Bahasa Inggris cenderung lebih unggul daripada dataset abstrak Bahasa Indonesia.
Item Type: | Thesis (Tugas Akhir (S1) - ) |
---|---|
Uncontrolled Keywords: | Klasterisasi, algoritma CWFS, cluster, dokumen abstrak, stabilitas, minimum support |
Subjects: | Computer Science Computer Science > Computer - Software Computer Science > Informatics Computer Science > Information analysis Thesis > Thesis (S1) |
Divisions: | Fakultas Teknik dan Ilmu Komputer > Program Studi Informatika |
Depositing User: | Lilyani Barrung |
Date Deposited: | 28 Aug 2018 06:44 |
Last Modified: | 28 Aug 2018 06:44 |
URI: | https://repository.bakrie.ac.id/id/eprint/1632 |
Actions (login required)
View Item |