BLOGGER TEMPLATES AND TWITTER BACKGROUNDS

Friday, February 19, 2010

PERKAMUSAN SAINS KOMPUTER DAN BIDANG LINGUISTIK TERKOMPUTASI



Selain isu pemantapan leksikologi dan perkembangan bahasa, cabaran yang dihadapi oleh bidang perkamusan ialah keperluan terhadap bahan sumber linguistik dalam bentuk elektronik. Pada zaman ini aplikasi komputer boleh dikatakan telah mempengaruhi hampir semua bidang penyelidikan, termasuklah bidang linguistik. Bidang linguistik terkomputasi (computational linguistic) merupakan satu bidang yang mengaplikasikan penggunaan komputer dalam pengkajian bahasa. Bidang ini bukan sekadar menggunakan komputer untuk menyunting dokumen. Tetapi ia mengkaji bagaimana memanfaatkan keupayaan komputer untuk menyelesaikan masalah dalam bidang linguistik, merangkumi sub-bidangnya seperti pragmatik, semantik, sintaksis dan nahu, morfologi dan fonologi.
Amnya aplikasi komputer dalam bidang linguistik lebih tertumpu pada penggunaan korpus dalam mengkaji ciri-ciri dan bentuk bahasa dalam kegunaan masyarakat seharian. Penggunaan komputer untuk mengurus korpus sangat relevan. Apabila mengungkapkan tentang ciri kamus, Asmah Omar menyatakan, ‘The dictionary should be considered as a storehouse for lexical items which from time to time can be taken out to be given various functions in the language usage of speakers in definite situations in the course of human interactions’ (1975: 345). Idea sebagai ‘storehouse’ ini secara tidak langsung merujuk kepentingan komputer sebagai mekanisma bagi meningkatkan kecekapan penyimpanan, pencarian dan pemprosesan maklumat dalam bidang perkamusan. Keperluan yang dinyatakan adalah fungsi asas bagi penyelia ‘storehouse’, dan yang nyata semua ciri ini dipunyai oleh komputer. Apatah lagi, tugas perkamusan sebahagian besarnya bergantung pada carian dalam korpus (KD, 2005:xvi, xxv).
Penggunaan korpus dapat membantu ahli bahasa memahami persoalan berkaitan bahasa berdasarkan konkordans. Konkordans merujuk kepada senarai kata dlm korpus (buku, majalah, dsb) yg disusun mengikut abjad yg menyatakan kedudukan sesuatu kata, dan cara penggunaannya dlm bahagian korpus yg berkenaan (KD, 2005: 815). Manakala persoalan bagi ahli komputer pula ialah bagaimana komputer dapat memproses konkordans dan mentafsirkan entri yang dimuatkan (Salinah, 2000: 811). Salinah (2000) menyentuh tentang peranan komputer kepada bidang perkamusan dari aspek pemprosesan konkordans. Namun kebanyakan isu lebih ditumpukan kepada aspek perisian kamus (kamus elektronik) sebagai bahan pendidikan dan rujukan masyarakat. Hakikatnya perkembangan dan pembangunan perisian kamus nyata menggalakkan jika dilihat pada kemunculan pelbagai perisian kamus untuk komputer peribadi dan atas talian. Antaranya ialah perisian Dewan Eja, E-Kamus dan kamus atas talian Dewan Bahasa dan Pustaka, DBP (http://www.dbp.gov.my). Selain penggunaan komputer peribadi, konsep kamus elektronik seperti Kamus Besta juga turut diketengahkan di kalangan masyarakat.
Namun perlu difahami bahawa penggunaan kamus tidak terhad pada pengguna dan masyarakat saja. Perisian kamus juga sangat berguna kepada perisian komputer. Misalnya perisian Dewan Eja dapat berinteraksi dengan perisian pemproses perkataan MS Word untuk menyemak kesalahan tatabahasa dalam dokumen suntingan. Jadi sumbangannya dapat meningkatkan keberkesanan MS Word sebagai pemproses perkataan.
Hubungan bidang linguistik dan sains komputer tidak lagi sekadar hubungan satu hala (iaitu komputer berguna kepada linguistik). Apabila bidang linguistik terkomputasi semakin berkembang, kepentingan bidang linguistik kepada sains komputer juga meningkat. Ini kerana untuk menyelesaikan masalah berkaitan linguistik, komputer perlu diberi maklumat tentangnya. Jika berkaitan masalah analisis morfologi, komputer perlu maklumat tentang peraturan dan ciri pengimbuhan, serta kaedah-kaedah berkaitan morfonologi bahasa (Chang May See, 1980, Ranaivo Bali, 2001; Mohd Yunus et al, 2007, Femphy Pisceldo et al, 2008). Selain maklumat tentang bahasa, penggunaan korpus dan leksikon menjadi sangat penting terutama dalam bidang penyelidikan (analisis dan janaan berkomputer), kerana seperti mana korpus penting kepada ahli bahasa, korpus dan leksikon juga penting kepada penganalisis berkomputer.
Misalnya dalam pembangunan perisian penganalisis dokumen atau ayat secara berkomputer, penggunaan korpus dapat memberi maklumat kepada perisian terbabit tentang aspek penggunaan istilah; seperti kolokasi bagi mengenalpasti kelas kata (Knowles et al, 2006). Ini membolehkan analisis berkomputer dilakukan dengan lebih baik. Begitu juga dengan leksikon. Penggunaan leksikon begitu meluas dalam linguistik terkomputasi. Leksikon yang digunakan terdapat dalam pelbagai bentuk bergantung pada konteks penggunaannya. Bagi analisis morfologi terkomputasi, leksikon digunakan untuk mengenal pasti ciri dan atribut istilah; seperti kelas kata. Selain itu maklumat morfologi dalam bentuk leksikon morfologi juga digunakan dalam penganalisis morfologi (Ranaivo Bali, 2001). Manakala leksikon bagi fungsi penterjemahan perlu mengandungi pasangan kata yang sepadan bagi bahasa-bahasa yang terlibat dalam penterjemahan. Melalui penggunaan leksikon penterjemahan boleh dilakukan secara automatik (C.K. Quah, 2001).
Perkembangan penyelidikan untuk tujuan analisis linguistik berkomputer sudah bermula di Malaysia sejak tahun 1980 (Chang May See, 1980). Unit Terjemahan Melalui Komputer (UTMK), di Universiti Sains Malaysia (USM) telah melaksanakan beberapa kerjasama dalam menghasilkan perisian berkomputer untuk analisis linguistik terkomputasi. Antaranya dalam projek Getha (Chang May See, 1980) dan kerjasama dengan DBP membangunkan korpus bahasa Melayu. Walau bagaimanapun pembangunan aplikasi kamus berkomputer memerlukan perancangan pembangunan yang teliti. Misalnya Zaharin Yusoff dalam (Salinah, 2000:813) menyatakan bahawa setiap kamus mempunyai struktur yang tertentu, dan penyusunan perlu mengikuti struktur tersebut. Beliau menekankan bahawa dengan adanya keputusan mengenai struktur yang tetap dapat meningkatkan keberkesanan penyusunan kandungan dan pembinaan alat perkamusan berkomputer.
Namun menetapkan suatu struktur yang lengkap pada peringkat awal bukan satu perkara mudah. Ini kerana pada bidang perkamusan itu sendiri sentiasa berkembang dari semasa ke semasa. Malahan pembaikan juga berlaku secara berterusan dalam setiap edisi kamus, kerana struktur yang benar-benar mantap nyata sukar diputuskan. Ini mungkin kerana bidang perkamusan dan leksikologi belum benar-benar mantap kerana kekurangan ahli leksikologi (Salinah, 2000: 811). Masalah yang timbul daripada pembangunan berdasarkan struktur yang masih rapuh dan fleksibel ialah perubahan ke atas aplikasi komputer yang dibangunkan apabila perubahan struktur asas berlaku. Perbelanjaan mengubah sistem komputer pastinya mahal dan memerlukan sumber masa dan tenaga yang banyak.
Seandainya ingin membina struktur yang tetap bagi kamus berkomputer, perlu diputuskan bentuk maklumat yang akan disimpan dan diproses oleh perisian berkomputer itu. Bentuk maklumat yang disimpan akan mempengaruhi bentuk perisian yang akan dibangunkan. Ini kerana sesetengah maklumat lebih sesuai disimpan menggunakan pangkalan data (misalnya korpus yang menyimpan berjuta-juta perkataan), manakala sesetengahnya pula lebih sesuai disimpan dan diproses menggunakan perisian yang lebih ringkas (leksikon morfologi).
Selain itu reka bentuk sistem perisian yang ingin dibangunkan perlu mengambil kira penggunaannya. Jika perlu dicapai dari jarak yang jauh (melalui talian/online atau internet), maka sistem perlu berhubung dan boleh dicapai melalui sistem rangkaian internet. Sepertimana pangkalan data korpus DBP yang dapat dicapai melalui aplikasi web di laman web rasminya. Selain itu ada pula sesetengah institusi mengenakan caj dan bayaran terhadap perkhidmatan kamus atas talian yang ditawarkan. Jadi adakah kamus elektronik bahasa Melayu yang disediakan juga perlu dikenakan bayaran? Jika ya, maka sistem kawalan capaian yang lebih tinggi perlu disediakan bagi memastikan hanya pengguna yang berhak saja boleh mencapainya. Semua keperluan ini perlu dipertimbangkan dalam proses pembangunan kamus berkomputer pada peringkat awal, supaya tidak membebankan pengguna kerana pengubahsuaian dan juga tidak menyukarkan penyedia perkhidmatan seperti DBP yang terpaksa menanggung kos pengubahsuaian yang tinggi.
Secara keseluruhannya, cabaran dan isu berkaitan bidang perkamusan (leksikon dan korpus) juga wujud dalam memenuhi keperluan bidang sains komputer berkaitan linguistik (linguistik terkomputasi). Namun apa yang penting kita dapat mengetahui dan memahami bahawa keperluan bidang perkamusan dan perkembangan bidang linguistik Melayu amnya tidak hanya berkait soal bahasa, tetapi juga mempengaruhi perkembangan bidang lain yang berkaitan. Seandainya bidang perkamusan Melayu mantap, maka mudahlah untuk memantapkan bidang lain yang bergantung kepadanya.