PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM
DOI:
https://doi.org/10.36499/psnst.v1i1.1161Abstract
Gensim merupakan open-source model ruang vektor dan toolkit topic modeling, yang diimplementasikan dalam bahasa pemrograman Python. Untuk kinerja Gensim, digunakan NumPy, SciPy dan Cython (opsional). Gensim secara khusus ditujukan untuk menangani koleksi teks besar dengan menggunakan algoritma secara online. Gensim mengimplementasikan tf-idf, latent semantic analysis (LSA), Latent Dirichlet Analysis (LDA), dan lain-lain. Pada penelitian ini digunakan metode LSA yang terdapat pada Gensim dan beberapa rumus perhitungan kemiripan untuk mengukur kemiripan dokumen. Pengukuran kemiripan dokumen menggunakan rumus Cosine, Dice, dan Jaccard. Hasil perhitungan kemiripan berupa prosentase kemiripan. Dokumen yang digunakan adalah dokumen abstrak penulisan ilmiah berbahasa Indonesia. Pengujian dilakukan terhadap 30 pasang dokumen yang sama, 30 dokumen yang berbeda, 5 dokumen similar, dan 5 dokumen transposisi dua dan tiga kalimat. Hasil pengujian menunjukkan bahwa untuk dokumen yang sama terdapat kemiripan 100%, untuk dokumen yang berbeda dihasilkan prosentase kemiripan yang berbeda-beda, untuk pengujian dokumen similar menghasilkan kemiripan yang mendekati 100%, sedangkan untuk dokumen transposisi menunjukkan prosentase meningkat untuk transposisi dari dua kalimat ke tiga kalimat.
Kata kunci: gensim, lsa, pengukuran kemiripan