Information Retrieval

Information Retrieval

  1. A.    Tahapan Text Pre-processing
    1. Tokenizing
    2. Filtering
    3. Stemming
    4. Tagging
    5. Analyzing

 

  1. 1.      Tokenizing

Proses tokenizing adalah proses pemotongan string masukan berdasarkan tiap kata yang menyusunnya.

Pada prinsipnya proses ini adalah memisahkan setiap kata yang menyusun suatu dokumen. Pada umumnnya setiap kata terindentifikasi atau terpisahkan dengan kata yang lain oleh karakter spasi, sehingga proses tokenizing mengandalkan karakter spasi pada dokumen untuk melakukan pemisahan kata.

 

 

 

 

 

Tokenizing

 

Tokenizing

Gambar di atas  merupakan gambaran dan hasil proses tokenizing. Pada gambar tersebut diperlihatkan serangkaian kalimat utuh, yang dipisahkan oleh spasi setiap katanya, setelah melalui proses tokenizing maka kalimnat tersebut menjadi sekumpulan array yang setiap selnya berisi kata-kata yang ada pada kalimat tersebut.

 Pada proses tokenizing biasanya juga ditambahkan informasi jumlah kemunculan setiap kata pada kalimat tersebut.

  1. 2.      Filtering

Proses Filtering adalah proses pengambilan kata-kata yang dianggap penting atau mempunyai makna saja.

Pada proses ini kata-kata yang dianggap tidak mempunyai makna seperti kata sambung akan dihilangkan.

Pada proses ini biasanya digunakan daftar stopword yang tersimpan dalam suatu tabel basis data, yang nantinya digunakan sebagai acuan penghilangan kata. Daftar stopword berbeda untuk  setiap bahasanya.

 

 

Contoh Filtering

Gambar diatas merupakan gambaran dan hasil proses filtering. pada gambar tersebut diperlihatkan kata seperti ‘di’, ‘adalah’ dan ‘sebuah’ melalui proses penghilangan. karena kata-kata tersebut tidak mempunyai makna dan hanya berfungsi sebagai kata sambung saja.

 

  1. 3.      Stemming

Proses stemming adalah proses untuk mencari root dari kata hasil dari proses filtering. Pencarian root sebuah kata atau biasa disebut dengan kata dasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna.

Filtering adalah proses pengambilan kata-kata yang dianggap penting atau mempunyal makna. Ada dua pendekatan pada proses stemming yaitu pendekatan kamus dan pendekatan aturan.

 

Contoh Stemming

Gambar di atas adalah contoh stemming dalam bahasa inggris. pada gambar tersebut diperlihatkan kata asal learning dirubah menjadi kata dasarya yaitu learn.

Kemudian kata using dikembalikan ke bentuk dasar menjadi use.

Tetapi kata text merupakan kata dasar sehingga tidak dirubah.

Stemmer Bahasa Indonesia

 

Stemmer Tala

Stemmer tala merupakan adopsi dari algoritma stemmer bahasa inggrs terkenal porter stemmer.

Stemmer ini menggunakan rule base analisis untuk mencari root sebuah kata. Stemmer ini sama sekali tidak menggunakan kamus sebagai acuan.

Pada stemmer Tala terdapat 5 Iangkah utama dengan 3 Iangkah awal dan 2 langkah pilihan. Iangkah-langkah tersebut adalah

Menghilangkan partikel.

Menghilangkan kata sandang dan kepunyaan.

Menghilangkan awalan 1.

Jika suatu aturan terpenuhi jalankan Iangkah : Hilangkan Akhiran. Jika suatu aturan terpenuhi, hilangkan awalan 2. jika tidak proses stemming selesai.

Jika tidak ada aturan yang terpenuhi jalankan langkah : Hilangkan awalan 2, hilangkan akhiran, Proses stemming sdesai. Selain itu, tala membagi imbuhan menjadi 5 cluster/kelompok. Alur proses dari algoritma Tala diperlihatkan pada gambar  di atas.

Proses Menghilangkan kata sandang

 

Pada proses ini dokumen melalui perlakuan untuk menghilangkan kata sandang dan kepunyaan. Proses ini dibagi dalam 2 cluster proses yang harus diproses secara urut.

  1. 4.      Tagging

Proses tagging adalah mencari bentuk utama/root dan suatu kata lampau.

Proses tagging tidak digunakan pada dokumnen berbahasa Indonesia dikarenakan bahasa Indonesia tidak mengenal kata bentuk lampau.

  1. 5.      Analyzing

Proses analyzing adalah proses analisa dari hasil proses tagging sehingga diketahui seberapa jauh tingkat keterhubungan antar kata-kata dan antar dokumnen yang ada.

Ada 3 pendekatan untuk melakukan pembobotan hubungan antar dokumen yaitu (Baesa dan Ribeiro, 1998).

Model boolean

Model Vektor

Model Probabilistic

 

By echa89

Tinggalkan komentar