Layanan penulisan ilmiah yang disediakan oleh Perpustakaan Universitas Gunadarma
PENGEMBANGAN ALGORITMA COSINE SIMILARITY PADA TF-IDF VECTOR SPACE MODEL (VSM) UNTUK MENDUKUNG INFORMATION RETRIEVAL AL QURAN DAN HADITS TERJEMAHAN BAHASA INDONESIA
ABSTRAKSI :
PENGEMBANGAN ALGORITMA COSINE SIMILARITY PADA TF-IDF VECTOR SPACE MODEL (VSM) UNTUK MENDUKUNG INFORMATION RETRIEVAL AL QURAN DAN HADITS TERJEMAHAN BAHASA INDONESIA Information retrieval (IR) atau temu kembali informasi merupakan pencarian informasi yang biasanya dalam suatu teks dokumen. Pada penelitian ini membahas information retrieval terhadap Al Quran terjemahan bahasa Indonesia yang terdiri dari 6236 ayat dan Hadits Shahih Bukhori yang terdiri dari 7008 Hadits. Teknik yang digunakan adalah perhitungan kemiripan dengan Cosine Similarity dan pembobotan menggunaan TF-IDF Vector Space Model (VSM). Tujuan utama dari information retrieval adalah mencari dan menampilkan dokumen yang relevan sesuai kueri. Permasalahan pada information retrieval yang sering ditemui adalah dokumen yang dianggap kurang relevan ada diperingkat teratas hasil pencarian. Penelitian ini melakukan pengujian untuk meningkatkan relevansi dan presisi hasil pencarian information retrieval. Metodologi pada penelitian ini terdiri dari tahapan-tahapan yaitu Pembentukan korpus Al Quran dan Hadits terjemahan bahasa Indonesia, pembentukan Korpus Sinonim(tesaurus) dan pembentukan tema dari ayat-ayat Al Quran dan Hadits. Algoritma yang digunakan adalah pengembangan dari Cosine Similarity pada Term Frequency dan Invers Document Frequency TF-IDF Vector Space Model (VSM). Pengembangan yang dilakukan adalah menambah 2 kriteria sebagai komponen perhitungan Cosine Similarity yakni prinsip "and" terbanyak tanpa duplikat dan kata-kata yang bergandeng/berurutan sesuai keyword (kueri) menjadi prioritas diperingkat atas perhitungan nilai kemiripan dokumen. Kata-kata bergandeng/berurutan menjadi prioritas dapat juga memecahkan masalah idiom(ungkapan) karena idiom terdiri dari 2 kata atau lebih yang biasanya memiliki 1 arti(kata) contoh "tinggi hati" yang bermakna "Sombong". Dengan menambah dua kriteria tersebut akan lebih menambah relevansi dan presisi pada metode yang berbasis bag of word (Token). Pengujian dilakukan dengan menguji pencarian ayat Al Quran dalam aplikasi information retrieval dan membandingkan hasil pencarian aplikasi dengan pendapat pakar Al Quran dan Hadits. Pengujian pertama adalah pengujian hasil pencarian dengan korpus sinonim(tesaurus). Hasil dari pengujian ini memperlihatkan bahwa dengan adanya korpus sinonim(tesaurus) hasil menjadi lebih luas dengan penambahan yang sangat signifikan; pengujian dengan cara memasukkan keyword dengan menggunakan 1 kata 2 kata dan 3 kata atau lebih (sebuah kalimat). Secara rata-rata pengujian menghasilkan recall mencapai 100?n presisi 85?ngan F-Measures 92%. Uji coba klasifikasi tema pada Al Quran nilai recall sebesar 75%, presisi 53?n F-Measures 61%. Penelitian ini telah membuktikan bahwa pengembangan algoritma cosine similarity pada TF-IDF VSM dan menggunakan korpus sinonim(tesaurus), menambah tingkat relevansi dan presisi, karena secara signifikan memperluas hasil pencarian dan mengurangi dokumen yang tidak relevan.