I Pendahuluan
Akhir-akhir ini banyak dilakukan penelitian speech recognition dengan menggunakan informasi dari sebuah fonem, dengan melakukan penyusunan sebuah bentuk kata dari tata bahasa yang ada, akan tetapi apabila dilakukan terhadap pengucapan yang berurutan, dapat menimbulkan kesukaran saat menentukan segmentation dan recognition yang tepat pada fonem serta kata, salah satu penyebabnya dikarenakan kurang jelasnya pengucapan.
Dalam melakukan pengucapannya, manusia tidak hanya memahami dari fonem saja, melainkan juga dari intonasi irama pengucapan. Untuk sebuah percakapan, intonasi irama ini, merupakan hal penting yang perlu diperhatikan agar lawan bicara dapat memahami dengan jelas makna dari sebuah percakapan. Sehingga dapat dikatakan, Informasi dari intonasi irama ini, juga sangat penting dalam melakukan speech recognition dengan komputer.
Pada tulisan kali ini, sebagai salah satu aplikasi dari sampling fundamental frequency dengan metode MABC, akan dilakukan penentuan batas kata pada pengucapan berurutan dengan menggunakan informasi dari intonasi irama percakapan.
II Metode Penentuan Batas Kata
II.1 Algoritma Penentuan Batas Kata
Fundamental frequency hanya terdapat pada voiced sound, sedangkan batas kata tidak tergantung pada voiced maupun unvoiced sound. Apabila melakukan penentuan batas kata berdasarkan keadaan tersebut, akan terlalu sulit untuk dilakukan. Akan tetapi, dengan melakukan pengaturan interpolasi, dapat disusun suatu pola fundamental frequency yang berurutan, sehingga terbentuk informasi dari intonasi irama serta batas kata. Secara umum dapat dikatakan, lembah yang terdapat pada pola berurutan tersebut menunjukkan batas kata.
Algoritma penentuan batas kata ditunjukkan pada gambar 1, di bawah ini. Pertama, melakukan penentuan bagian unvoiced sound dengan menggunakan jumlah zero cross dan speech power. Lalu, interpolasi pada fundamental frequency bagian unvoiced sound, dan membuat pola interpolasi fundamental frequency yang berurutan. Dari pola ini, dilakukan differential orde pertama, untuk menentukan kandidat dari posisi yang diduga sebagai batas kata. Kemudian, dari hasil penentuan bagian unvoiced sound, dilakukan penghapusan kesalahan batas kata unvoiced sound dari penentuan kandidat batas kata dengan differential orde pertama. Batas kata yang benar dapat ditentukan dari nilai peak hasil differential orde pertama pada kandidat yang dianggap batas kata sebenarnya.
Gbr. 1. Diagram Cara Penentuan Batas Kata
II.2 Pembuatan Pola Interpolasi Fundamental Frequency
Dikarenakan tidak terdapatnya fundamental frequency pada bagian unvoiced sound (glottis tidak bergetar/istirahat/pause), akan terlihat bagian fundamental frequency yang terputus dipertengahan kata. Sehingga untuk melakukan proses analysis perubahan waktu fundamental frequency tidak dapat dilakukan begitu saja. Oleh karena itu, dilakukan interpolasi sebagai fundamental frequency bayangan hanya pada bagian unvoiced sound saja, lalu dilakukan pembuatan pola waktu fundamental frequency yang berurutan.
Proses pertama dalam pembuatan pola, untuk melakukan smoothing data fundamental frequency dalam interval voiced sound, tarik garis balik lurus pada data fundamental frequency yang telah ditambah frame di awal dan akhir, sehingga berjumlah frame. Nilai yang terdapat pada persinggungan garis dengan fundamental frequency digunakan sebagai data baru dari fundamental frequency.
Proses kedua, untuk interpolasi bagian unvoiced sound, dilakukan proses seperti proses pertama pada lebar interpolasi yang telah ditambah frame diawal dan akhir, sehingga berjumlah frame.
Parameter interpolasi ini, berhubungan dengan kecepatan pengucapan. Sehingga perbedaan setiap orangnya cukup besar. Oleh karena itu, penetapan nilai parameter ini seharusnya dihubungkan dengan kecepatan pengucapan, akan tetapi ini merupakan suatu hal yang sangat sulit untuk melakukan samplingnya. Maka, dilakukan percobaan dengan menetapkan nilai parameter interpolasi pertama , sebanyak 3 titik, dan parameter interpolasi kedua , sebanya 4 titik yaitu, 5, 10, 15, 20. Pada gambar 2 ditunjukkan contoh pengaturan interpolasi, dari gambar ini dapat diketahui, dengan , terinterpolasi dengan baik.
Gbr.2 Contoh Pengaturan Pola Interpolasi
II.3 Penentuan Pause
Dikarenakan adanya pengucapan kalimat secara berurutan dalam suatu percakapan, pertama-tama perlu dilakukan penentuan batas kalimat terlebih dahulu. Proses ini dilakukan dengan cara menggunakan pause yang terjadi sewaktu jeda pengambilan nafas, dengan kata lain melakukan pemenggalan kalimat. Untuk penetapan pause menggunakan jumlah zero cross dan speech power. Untuk panjang/lamanya pause, ditetapkan sebesar 300msec(1). Sedangkan speech power ditetapkan dibawah 60dB, dan jumlah zero cross di bawah 40 kali.
II.4 Penentuan Batas Kata dari Pola Fundamental Frequency
Lembah yang terdapat pada pola fundamental frequency hasil interpolasi mengandung batas kalimat dan batas kata. Untuk penentuan batas kata, dilakukan dengan penyamplingan dan digunakan sebagai kandidat batas kata. Tetapi, lembah ini juga terdapat pada batas syllable dalam kata, pada percobaan ini, tidak diperhitungkan, dan dianggap sebagai bagian dari batas kata. Guna menentukan lembah pola, posisi peak, pertama-tama, pada awal dan akhir informasi irama pola fundamental frequency ditambahkan frame sehingga berjumlah frame, dan dipergunakan sebagai data penarikan garis lurus, lalu dengan differential orde pertama pada kemiringannya, dilakukan perbandingan hasilnya dengan pola fundamental frequency.
Secara keseluruhan proses aturan penentuan tersebut seperti berikut,
1. Lembah pola fundamental frequency, merupakan posisi perubahan hasil differential dari nilai negatif ke positif.
2. Posisi peak, adalah posisi daerah perubahan nilai positif ke negatif dari hasil differential.
Dari lembah ini, dapat dihitung selisih ketinggian peak, dan dengan menetapkan nilai threshold, dapa diperkirakan batas kata yang lebih benar. Pada gambar 3, ditunjukkan cara penentuan batas kata tersebut. Dalam percobaan dipergunakan parameter differential yaitu, 5, 10, 15, dan 20.
Gbr. 3 Cara Penentuan Batas Kata
III. Percobaan Penentuan Batas Kata
III.1 Ketentuan Percobaan
Sebagai data suara dipergunakan suara percakapan announcer laki-laki sebanyak 25 kalimat, dan parameter lainnya dapat dilihat pada table 1, di bawah ini.
Tabel 1. Parameter dalam penentuan batas kata
III.2 Hasil dan Analisa
Contoh penentuan batas kata ditunjukkan pada gambar 4 di bawah ini. Dari gambar ini, terlihat dapat ditentukan dengan lebih tepat daerah pause pada speech power dan zero cross. Pada pola interpolasi fundamental frequency, sedikit terlihat perbedaan tinggi, yang dapat dikurangi dengan differential orde pertama, dan kesalahan penentuan daerah pause dapat dihilangkan, sehingga keseluruhan batas kata dapat ditentukan dengan benar.
Pada gambar 5, ditunjukkan hasil dari percobaan. Pada parameter , meskipun terlihat adanya kesalahan tambahan yang disebabkan adanya perbedaan tinggi signifikan pada fundamental frequency saat dilakukan differential orde pertama.
Pada parameter differential orde pertama dan lebar interpolasi terjadi tingkat penentuan batas kata yang tepat sebesar 80.5%.
Gbr. 4 Contoh Hasil Penentuan Batas Kata
Gbr. 5 Hasil Percobaan Penentuan Batas Kata
No comments:
Post a Comment