Lestanto, Yusuf (2026) Modul Panduan - Implementasi Sorted Neighborhood Method Menggunakan Pemrograman Java. Manual. Universitas Bakrie, Jakarta. (Unpublished)
|
Text (pdf)
0e142da0-08b1-4447-bd03-016a91d5fb04.pdf - Draft Version Download (356kB) |
Abstract
Dalam era digital saat ini, organisasi dan perusahaan mengumpulkan data dari berbagai sumber yang berbeda-beda. Hal ini sering kali mengakibatkan terjadinya duplikasi data, yaitu kondisi di mana satu entitas nyata direpresentasikan oleh lebih dari satu record dalam basis data. Duplikasi data dapat menyebabkan berbagai masalah serius, mulai dari pemborosan ruang penyimpanan, ketidakakuratan analisis, hingga pengambilan keputusan yang keliru. Proses mendeteksi dan menghilangkan duplikasi data dikenal sebagai record linkage, entity resolution, atau deduplication. Salah satu algoritma yang paling populer dan efisien untuk tujuan ini adalah Sorted Neighborhood Method (SNM), yang diperkenalkan oleh Hern´andez dan Stolfo pada tahun 1995 [1]. SNM bekerja dengan cara mengurutkan data berdasarkan sorting key tertentu, kemudian membandingkan record-record yang berdekatan dalam jendela geser (sliding window). Pendekatan ini lebih efisien daripada metode perbandingan naive yang membandingkan setiap pasangan record (O(n2)), karena SNM hanya membandingkan record dalam jendela berukuran w, sehingga kompleksitasnya menjadi O(w·n). Proses ini memungkinkan identifikasi data yang mirip atau duplikat dengan lebih efisien dibandingkan dengan membandingkan setiap pasangan data secara keseluruhan. Keuntungan utama dari metode Sorted Neighborhood adalah kemampuannya untuk mengurangi jumlah perbandingan yang diperlukan, terutama pada dataset yang besar. Namun, efektivitas teknik ini sangat bergantung pada pemilihan kunci pengurutan yang tepat dan penentuan ukuran window yang optimal. Tujuan dari modul ini adalah memberikan panduan langkah demi langkah untuk mengimplementasikan Sorted Neighborhood menggunakan bahasa pemrograman Java.
| Item Type: | Monograph (Manual) |
|---|---|
| Subjects: | Computer Science > Computer - Software Science Paper |
| Divisions: | Fakultas Teknik dan Ilmu Komputer > Program Studi Informatika |
| Depositing User: | Ahmad Yani |
| Date Deposited: | 03 Mar 2026 05:53 |
| Last Modified: | 03 Mar 2026 05:53 |
| URI: | https://repository.bakrie.ac.id/id/eprint/13311 |
Actions (login required)
![]() |
View Item |

