Pengenalan ucapan atau pengenalan
wicara dalam istilah bahasa
Inggrisnya, automatic speech
recognition (ASR) adalah
suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata
yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan
memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu
yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya
menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian
disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata
tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam
bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah
komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan
komando suara.
Alat pengenal ucapan, yang
sering disebut dengan speech
recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari
pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian
digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya.
Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pengeras
suara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua
orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang
dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari
peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pengeras suara.
Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga
dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya
tidak terdapat jeda antar kata.
Pengenalan ucapan dalam
perkembangan teknologinya merupakan bagian dari pengenalan suara (proses
identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi
menjadi dua, yaitu pengenalan pengguna (identifikasi suara berdasarkan orang
yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang
diucapkan).
Perkembangan alat pengenal ucapan
Sejak tahun 1940,
perusahaan American Telephone and Telegraph Company (AT&T)
sudah mulai mengembangkan suatu perangkat teknologi yang dapat mengidentifikasi
kata yang diucapkan manusia. Sekitar tahun 1960-an, para peneliti dari
perusahaan tersebut sudah berhasil membuat suatu perangkat yang dapat
mengidentifikasi kata-kata terpisah dan pada tahun 1970-an mereka berhasil
membuat perangkat yang dapat mengidentifikasi kata-kata kontinu. Alat pengenal
ucapan kemudian menjadi sangat fungsional sejak tahun 1980-an dan masih
dikembangkan dan terus ditingkatkan keefektifannya hingga sekarang.
Jenis-jenis pengenalan ucapan
Berdasarkan kemampuan
dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata,
yaitu :
1.
Kata-kata yang terisolasi
Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan
jika kata tersebut memiliki jeda waktu pengucapan antar kata
2.
Kata-kata yang berhubungan
Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun
membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
3.
Kata-kata yang berkelanjutan
Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal
kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat
sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena
membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda
waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
4.
Kata-kata spontan
Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan
secara spontan tanpa jeda waktu antar kata
5.
Verifikasi atau identifikasi suara
Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga
mengidentifikasi siapa yang berbicara.
Proses kerja alat pengenal ucapan
Alat pengenal ucapan
memiliki empat tahapan dalam prosesnya, yaitu :
1.
Tahap penerimaan masukan
Masukan berupa kata-kata yang diucapkan lewat pengeras suara.
2.
Tahap ekstraksi
Tahap ini adalah tahap penyimpanaan masukan yang berupa suara sekaligus
pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan
metode Model Markov Tersembunyi atau Hidden
Markov Model (HMM), yang merupakan model statistik dari sebuah sistem
yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak
diketahui. Tantangan dalam model statistik ini adalah menentukan
parameter-parameter tersembunyi dari parameter yang dapat diamati.
Parameter-parameter yang telah kita tentukan kemudian digunakan untuk analisis
yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM,
proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat
dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad)
maupun kontinu (pengukuran temperatur, alunan musik). Sinyal dapat pula bersifat stabil (nilai statistiknya
tidak berubah terhadap waktu) maupun nonstabil (nilai sinyal berubah-ubah
terhadap waktu). Dengan melakukan pemodelan terhadap sinyal secara benar, dapat
dilakukan simulasi terhadap masukan dan pelatihan sebanyak mungkin melalui
proses simulasi tersebut sehingga model dapat diterapkan dalam sistem prediksi,
sistem pengenalan, maupun sistem identifikasi. Secara garis besar model sinyal
dapat dikategorikan menjadi dua golongan, yaitu: model
deterministik dan model
statistikal. Model
deterministik menggunakan nilai-nilai properti dari sebuah
sinyal seperti: amplitudo, frekuensi, dan fase dari gelombang sinus. Model
statistikal menggunakan nilai-nilai statistik dari sebuah
sinyal seperti: proses Gaussian, proses Poisson,
proses Markov,
dan proses Markov Tersembunyi. Suatu model HMM secara umum memiliki unsur-unsur
sebagai berikut:
a.
N, yaitu jumlah bagian dalam model. Secara
umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian
bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model
ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi
lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke
satu bagian berikutnya. Hal ini bergantung pada implementasi dari model.
b.
M, yaitu jumlah simbol observasi secara
unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian
diartikan sebagai huruf dalam kata.
c.
Probabilita Perpindahan Bagian { } = ij A
a
d.
Probabilita Simbol Observasi pada bagian
j, { } () = j Bb k
e.
Inisial Distribusi Bagian i p p
Setelah memberikan nilai
N, M, A, B, dan p , maka proses ekstraksi dapat diurutkan. Berikut adalah
tahapan ekstraksi pengenalan ucapan berdasarkan HMM :
6.
Tahap ekstraksi tampilan
Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital
7.
Tahap tugas pemodelan
Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata
yang sudah berupa data digital
8.
Tahap sistem pengenalan HMM
Penemuan parameter-parameter yang dapat merepresentasikan sinyal suara untuk
analisis lebih lanjut.
3.
Tahap pembandingan
Tahap ini merupakan tahap pencocokan data baru dengan data suara (pencocokan
tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara
digital hasil dari proses ekstraksi ke dalam bentuk spektrum
suara yang akan dianalisa dengan membandingkannya dengan pola
suara pada basis data. Sebelumnya, data suara masukan dipilah-pilah dan
diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar
proses analisis dapat dilakukan secara paralel. Proses yang pertama kali
dilakukan ialah memproses gelombang
kontinu spektrum
suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses
kalkulasi yang dibagi menjadi dua bagian :
0.
Transformasi gelombang
diskrit menjadi data yang terurut
Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan
dibagi pada proses konversi dengan cara pembagian rincian waktu
1.
Menghitung frekuensi pada tiap elemen data yang
terurut
Selanjutnya tiap elemen
dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner.
Data biner tersebut nantinya akan dibandingkan
dengan pola data suara dan kemudian diterjemahkan sebagai keluaran yang dapat
berbentuk tulisan ataupun perintah pada perangkat.
4.
Tahap validasi identitas pengguna
Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara
akan melakukan identifikasi orang yang berbicara berdasarkan kata yang
diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.
Aplikasi alat pengenal ucapan
Bidang
komunikasi
Komando Suara
Komando Suara adalah suatu program pada komputer yang melakukan perintah
berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft
Voice yang berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai
kalkulator” dengan intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi
kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah
yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan
tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan
verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung
beroperasi.
Pendiktean
Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan
dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft
Dictation yang merupakan aplikasi yang dapat menuliskan apa yang
diucapkan oleh pengguna secara otomatis.
Telepon
Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol
otomatis yang dapat menelpon nomor tujuan dengan komando suara.
Bidang kesehatan
Alat pengenal ucapan
banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat
dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice
User Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana
pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan
menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk
ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak
dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini
tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol
yang lain.
Bidang militer
Pelatihan Penerbangan
Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur
lalu-lintas udara atau yang dikenal dengan Air Traffic
Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan
keterangan mengenai keadaan lalu-lintas udara seperti radar,
cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada
pilot dengan cara berdialog.
Helikopter
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi
lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada
helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan
pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu
memencet tombol tertentu.
Kelebihan alat pengenal ucapan
Kelebihan dari peralatan
yang menggunakan teknologi ini adalah :
1.
Cepat
Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi
tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu
atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer
sudah memberi umpan balik atas komando kita.
2.
Mudah digunakan
Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara.
Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya
kita lakukan tanpa perangkat keras, yakni dengan komando suara.
Kekurangan alat pengenal ucapan
Kekurangan dari
peralatan yang menggunakan teknologi ini adalah :
1.
Rawan terhadap gangguan
Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi.
Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang
sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk
memisahkan gangguan dari sinyal suara
2.
Jumlah kata yang dapat dikenal terbatas
Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan
basis data yang dimiliki.