Utama teknologi

Teknologi pengenalan ucapan

Teknologi pengenalan ucapan
Teknologi pengenalan ucapan

Video: Perkembangan Teknologi pada Fitur Pengenalan Ucapan (Speech Recognition) 2024, Juli

Video: Perkembangan Teknologi pada Fitur Pengenalan Ucapan (Speech Recognition) 2024, Juli
Anonim

Pengenalan ucapan, kemampuan perangkat untuk merespons perintah yang diucapkan. Pengenalan ucapan memungkinkan kontrol bebas genggam dari berbagai perangkat dan peralatan (anugerah khusus bagi banyak penyandang cacat), memberikan input ke terjemahan otomatis, dan menciptakan dikte siap-cetak. Di antara aplikasi paling awal untuk pengenalan suara adalah sistem telepon otomatis dan perangkat lunak dikte medis. Ini sering digunakan untuk dikte, untuk query database, dan untuk memberikan perintah pada sistem berbasis komputer, terutama dalam profesi yang mengandalkan kosa kata khusus. Ini juga memungkinkan asisten pribadi di kendaraan dan ponsel cerdas, seperti Apple Siri.

Sebelum mesin apa pun dapat menafsirkan ucapan, mikrofon harus menerjemahkan getaran suara seseorang menjadi sinyal listrik seperti gelombang. Sinyal ini pada gilirannya dikonversi oleh perangkat keras sistem — misalnya, kartu suara komputer — menjadi sinyal digital. Ini adalah sinyal digital yang dianalisis oleh sebuah program pengenalan ucapan untuk mengenali fonem-fonem yang terpisah, bahan-bahan dasar pembangun pidato. Fonem-fonem kemudian digabungkan kembali menjadi kata-kata. Namun, banyak kata yang mirip, dan, untuk memilih kata yang tepat, program harus bergantung pada konteksnya. Banyak program menetapkan konteks melalui analisis trigram, sebuah metode yang didasarkan pada basis data cluster tiga kata yang sering di mana probabilitas diberikan bahwa setiap dua kata akan diikuti oleh kata ketiga yang diberikan. Sebagai contoh, jika seorang pembicara mengatakan "siapakah", kata berikutnya akan dikenali sebagai kata ganti "Aku" daripada "mata" yang terdengar serupa. Meskipun demikian, intervensi manusia kadang diperlukan untuk memperbaiki kesalahan.

Program untuk mengenali beberapa kata yang terisolasi, seperti sistem navigasi suara telepon, bekerja untuk hampir setiap pengguna. Di sisi lain, program pidato berkelanjutan, seperti program dikte, harus dilatih untuk mengenali pola bicara seseorang; pelatihan melibatkan pengguna membacakan sampel teks dengan keras. Saat ini, dengan meningkatnya kekuatan komputer pribadi dan perangkat seluler, keakuratan pengenalan suara telah meningkat secara nyata. Tingkat kesalahan telah dikurangi menjadi sekitar 5 persen dalam kosa kata yang berisi puluhan ribu kata. Akurasi yang lebih besar dicapai dalam kosa kata terbatas untuk aplikasi khusus seperti dikte diagnosa radiologis.