Text Preprocessing Menggunakan PHP
1. Pendahuluan
Text preprocessing adalah istilah untuk pengolahan awal sebelum dilakukan text processing. Saat ini pengetahuan big data, maupun data sains banyak dipelajari. Sebagian besar data yang dihasilkan oleh sistem informasi adalah teks. Jadi sangat menarik mempelajari text processing ini. Apalagi jika anda seorang akademisi yang sering atau akan melakukan penelitian. Berikut ini dapat menjadi referensi anda dalam melakukan text preprocessing.
2. Tahapan Text Preprocessing
Preprocessing adalah sebagai tahap pembersihan teks dari bagian-bagian yang kurang penting. Sehingga didapatkan fitur dari teks tersebut. Preprocessing menjadi tahapan yang penting bagi keberhasilan text prosesing. Ada banyak sekali metode atau cara yang dapat dilakukan pada tahapan ini. Pada kesempatan ini saya hanya membagikan 4 saja tahapan preprocessing.
1. Case Folding
Pada tahap ini text diubah menjadi huruf kecil semua. Secara logika huruf besar atau kecil tidak mengubah arti dari kata. Namun komputer jelas menganggap besar kecil huruf menjadi hal yang berbeda. Untuk itulah perlunya dilakukan pengubahan semua huruf menjadi huruf kecil semua.
2. Cleaning
Pada tahap ini dilakukan penghapusan tanda baca seperti titik, koma dan lain sebagainya. Bagian teks ini tidak dapat diikutkan dalam proses selanjutnya.
3. Tokenizing
Pada tahap ini setiap kata dipisahkan satu persatu dan disimpan sebagai token. Proses ini tidak sulit cukup memecah kedalam array melalui fungsi explode.
4. Stemming
Pada tahap ini imbuhan sebuah kata dihilangkan. Imbuhan terdiri dari awalan dan akhiran. Sementara kata dasar menjadi token yang diperlukan. Proses ini cukup sulit namun dengan bantuang array, perulangan dan kondisi bisa diatasi.
3. Progam Text Preprocessing
Berdasarkan teori diatas maka saya merancang program untuk menyelesaikan masalah diatas. Berikut ini hasil program text preprocessing menggunakan PHP.
3. Hasil Progam Text Preprocessing
Setelah dijalankan maka tampil hasil text preprocessing sebagai berikut:
Untuk penjelasan program anda bisa membaca komentar di dalam program tersebut. Terimakasi sudah membaca artikel ini.