PENGELASAN SOALAN PEPERIKSAAN BERLANDASKAN TAKSONOMI BLOOM MENGGUNAKAN N-GRAM DAN PENDEKATAN PERATURAN. Dellicia Tan Nazlia Omar

Similar documents
COVRE OPTIMIZATION FOR IMAGE STEGANOGRAPHY BY USING IMAGE FEATURES ZAID NIDHAL KHUDHAIR

DEVELOPMENT OF PROCESS-BASED ENTROPY MEASUREMENT FRAMEWORK FOR ORGANIZATIONS MAHMOOD OLYAIY

SYSTEM IDENTIFICATION MODEL AND PREDICTIVE FUNCTIONAL CONTROL OF AN ELECTRO-HYDRAULIC ACTUATOR SYSTEM NOOR HANIS IZZUDDIN BIN MAT LAZIM

UNIVERSITI SAINS MALAYSIA. CCS513 Computer Vision and Image Analysis [Penglihatan Komputer dan Analisis Imej]

MULTISTAGE ARTIFICIAL NEURAL NETWORK IN STRUCTURAL DAMAGE DETECTION GOH LYN DEE

INTEGRATED MALAYSIAN METEOROLOGICAL DATA ATMOSPHERIC DISPERSION SOFTWARE FOR AIR POLLUTANT DISPERSION SIMULATION

KOLEJ MULTIMEDIA JALAN GURNEY KIRI KUALA LUMPUR

PANITIA BIOLOGI DAERAH SEPANG PEPERIKSAAN PERCUBAAN SIJIL PELAJARAN MALAYSIA BIOLOGI KERTAS 3 Satu jam tiga puluh minit

UNIVERSITI SAINS MALAYSIA. CIT562 Bioinformatics Computing [Perkomputeran Bioinformatik]

AHMED MOKHTAR ALBSHIR BUDIEA

RUZIAH AHMAD BAHAGIAN PENGKATALOGAN PERPUSTAKAAN TUANKU BAINUN, UPSI

ARTIFICIAL NEURAL NETWORK AND KALMAN FILTER APPROACHES BASED ON ARIMA FOR DAILY WIND SPEED FORECASTING OSAMAH BASHEER SHUKUR

DYNAMIC SIMULATION OF COLUMNS CONSIDERING GEOMETRIC NONLINEARITY MOSTAFA MIRSHEKARI

PENGGUNAAN GAMBAR RAJAH DALAM MENYELESAIKAN MASALAH GERAKAN LINEAR SITI NOR HIDAYAH BINTI ISMAIL UNIVERSITI TEKNOLOGI MALAYSIA

EEM 423 KEJURUTERAAN KEBOLEHPERCAYAAN

REG 363 Site Investigation (Kajian Tapak)

JANGAN BUKA KERTAS SOALAN INI SEHINGGA DIBERITAHU

UNIVERSITI SAINS MALAYSIA. CCS511 Evolutionary Computing [Perkomputeran Berevolusi]

ENHANCED COPY-PASTE IMAGE FORGERY DETECTION BASED ON ARCHIMEDEAN SPIRAL AND COARSE-TO-FINE APPROACH MOHAMMAD AKBARPOUR SEKEH

... [1 mark] pembolehubah bergerakbalas the responding variable. ... [1 mark] pembolehubah yang dimalarkan constant variable. ...

CLASSIFICATION OF MULTIBEAM SNIPPETS DATA USING STATISTICAL ANALYSIS METHOD LAU KUM WENG UNIVERSITITEKNOLOGI MALAYSIA

(Kertas soalan ini mengandungi 7 soalan dalam 8 halaman yang bercetak) (This question paper consists of 7 questions on 8 printed pages)

OPTIMAL CONTROL BASED ON NONLINEAR CONJUGATE GRADIENT METHOD IN CARDIAC ELECTROPHYSIOLOGY NG KIN WEI UNIVERSITI TEKNOLOGI MALAYSIA

SULIT 3472/1 MAJLIS PENGETUA SEKOLAH-SEKOLAH MALAYSIA (MPSM) CAWANGAN KELANTAN PEPERIKSAAN PERCUBAAN SPM TINGKATAN LIMA

POSITION CONTROL USING FUZZY-BASED CONTROLLER FOR PNEUMATIC-SERVO CYLINDER IN BALL AND BEAM APPLICATION MUHAMMAD ASYRAF BIN AZMAN

A STUDY ON THE CHARACTERISTICS OF RAINFALL DATA AND ITS PARAMETER ESTIMATES JAYANTI A/P ARUMUGAM UNIVERSITI TEKNOLOGI MALAYSIA

A COMPUTATIONAL FLUID DYNAMIC FRAMEWORK FOR MODELING AND SIMULATION OF PROTON EXCHANGE MEMBRANE FUEL CELL HAMID KAZEMI ESFEH

INFORMATION FOR CANDIDATES MAKLUMAN UNTUK CALON

Perbandingan Stail Kognitif di Kalangan Guru Pelatih Berpengkhususan Matematik dan Implikasi Terhadap Pemilihan Bakal Calon Guru Pelatih.

MULTIMEDIA COLLEGE JALAN GURNEY KIRI KUALA LUMPUR

EME 451/3 Computational Fluid Dynamics Pengkomputeran Dinamik Bendalir

INSTRUCTION: This section consists of FOUR (4) structured questions. Answer TWO (2) questions. only.

SHADOW AND SKY COLOR RENDERING TECHNIQUE IN AUGMENTED REALITY ENVIRONMENTS HOSHANG KOLIVAND UNIVERSITI TEKNOLOGI MALAYSIA

BAB 1 PENDAHULUAN. 1.1 Pengenalan

APLIKASI PERMAINAN PENELUSURAN POKOK (TREE TRAVERSAL) DALAM MATEMATIK DISKRET

UNIVERSITI SAINS MALAYSIA. CCS511 Evolutionary Computing [Perkomputeran Berevolusi]

ISOLATION AND CHARACTERIZATION OF NANOCELLULOSE FROM EMPTY FRUIT BUNCH FIBER FOR NANOCOMPOSITE APPLICATION

SIJIL PELAJARAN MALAYSIA /3 KIMIA Kertas 3 1 ½ jam Satu jam tiga puluh minit

Strategi-Strategi Pemahaman dalam Penyelesaian Masalah Matematik Berperkataan dalam Kursus Statistik 1 SITI HAJJAR BINTI MOHD KHALID

MULTIMEDIA COLLEGE JALAN GURNEY KIRI KUALA LUMPUR

DETECTION OF STRUCTURAL DEFORMATION FROM 3D POINT CLOUDS JONATHAN NYOKA CHIVATSI UNIVERSITI TEKNOLOGI MALAYSIA

APLIKASI PEMPROSESAN IMEJ MENGGUNAKAN SCILAB

INSTRUCTION: This section consists of FOUR (4) structured questions. Answer ALL questions.

EVALUATION OF FUSION SCORE FOR FACE VERIFICATION SYSTEM REZA ARFA

WIND TUNNEL TEST TO INVESTIGATE TRANSITION TO TURBULENCE ON WIND TURBINE AIRFOIL MAHDI HOZHABRI NAMIN UNIVERSITI TEKNOLOGI MALAYSIA


PENYULITAN IMEJ MENGGUNAKAN ALGORITMA PIAWAI PENYULITAN LANJUTAN (AES)

PREDICTION OF FREE FATTY ACID IN CRUDE PALM OIL USING NEAR INFRARED SPECTROSCOPY SITI NURHIDAYAH NAQIAH BINTI ABDULL RANI

Arahan : Jawab semua soalan. Instructions: Answer all questions.

SULIT 3472/1. Answer all questions. Jawab semua soalan.

SCES2211/ SCES2241 : KIMIA ANALISIS I/ KIMIA ANALISIS ASAS ANALYTICAL CHEMISTRY I/ BASIC ANALYTICAL CHEMISTRY

SHAPE-BASED TWO DIMENSIONAL DESCRIPTOR FOR SEARCHING MOLECULAR DATABASE

(Kertas soalan ini mengandungi 9 soalan dalam 6 halaman yang dicetak) (This question paper consists of 9 questions on 6 printed pages)

DENSITY FUNCTIONAL THEORY SIMULATION OF MAGNETISM DUE TO ATOMIC VACANCIES IN GRAPHENE USING SIESTA

UNIVERSITI SAINS MALAYSIA. CPT115 Mathematical Methods for Computer Science [Kaedah Matematik bagi Sains Komputer]

17. Power, P = energy. 1. a = v - u. 2. v 2 = u 2 + 2as. 3. s = ut + ½ at Power, P = IV Kuasa. 4. momentum = mv. 5. F = ma 19.

FLOOD MAPPING OF NORTHERN PENINSULAR MALAYSIA USING SAR IMAGES HAFSAT SALEH DUTSENWAI

SCES2242/ SCES2434/SIC2005 : KIMIA POLIMER/ KIMIA POLIMER I POLYMER CHEMISTRY/ POLYMER CHEMISTRY I

UMPUKAN LEMBUT SETEMPAT UNTUK SISTEM PENGESANAN PENCEROBOHAN BERASASKAN HOS: SUATU PERBANDINGAN

EFFECT OF ROCK MASS PROPERTIES ON SKIN FRICTION OF ROCK SOCKET. YUSLIZA BINTI ALIAS UNIVERSITI TEKNOLOGI MALAYSIA

UNIVERSITI PUTRA MALAYSIA

Jawab soalan mengikut arahan yang diberikan dalam setiap bahagian. Questions should be answered according to the instructions given in each section.

SIMULASI MASALAH GENETIK MENGGUNAKAN SCILAB

PEPERIKSAAN IJAZAH SARJANA MUDA SAINS DENGAN PENDIDIKAN EXAMINATION FOR THE DEGREE OF BACHELOR OF SCIENCE WITH EDUCATION

(Kertas ini mengandungi 5 soalan dalam 5 halaman yang dicetak) (This paper consists of 5 questions in 5 printed pages)

HUBUNGAN JARINGAN ANTARA PERUSAHAAN KECIL DAN SEDERHANA INDUSTRI PELANCONGAN DI KAMPUNG CHERATING LAMA, PAHANG SUHAINI BINTI IBRAHIM

ROCK SHAFT RESISTANCE OF BORED PILES SOCKETED INTO DECOMPOSED MALAYSIA GRANITE RAJA SHAHROM NIZAM SHAH BIN RAJA SHOIB UNIVERSITI TEKNOLOGI MALAYSIA

UNIVERSITI SAINS MALAYSIA EEE 354 SISTEM KAWALAN DIGIT

SUBMARINEPIPELINEROUTING ANDINSPECTION WITH GEOGRAPHICALINFORMATION SYSTEMTECHNOLOGY CHAI BENG CHUNG

A STUDY OF DYNAMIC CHARATERISTICS FOR CRACK IDENTIFICATION MOHD SHAFIQ AZRUL BIN AZMI

PORTAL PENGURUSAN LATIHAN UKM (e-latihan)

EXAMINATION FOR THE DEGREE OF BACHELOR OF SCIENCE WITH EDUCATION PEPERIKSAAN IJAZAH SARJANA MUDA SAINS DENGAN PENDIDIKAN

UJIAN PENCAPAIAN SEKOLAH RENDAH 2011 (PERCUBAAN) SCIENCE 018 Bahagian B

SCES3362 : TEKNIK-TEKNIK INSTRUMENTASI DALAM KIMIA INTRUMENTAL TECHNIQUES IN CHEMISTRY

INSTRUCTION: This section consists of SIX (6) structured questions. Answer FOUR (4) questions only.

OPTIMIZATION OF CHROMIUM, NICKEL AND VANADIUM ANALYSIS IN CRUDE OIL USING GRAPHITE FURNACE ATOMIC ABSORPTION SPECTROSCOPY NURUL HANIS KAMARUDIN

This paper consists of SIX (6) structured questions. Answer any FOUR (4) questions.

GARISPANDUAN BERKAITAN PENGECUALIAN CUKAI KE ATAS PEMBERIAN ATAU SUBSIDI (GRANT) DAN PENDAPATAN PIHAK BERKUASA BERKANUN

PEPERIKSAAN PERCUBAAN SIJIL PELAJARAN MALAYSIA 2006

SEDIMENTATION RATE AT SETIU LAGOON USING NATURAL. RADIOTRACER 210 Pb TECHNIQUE

EME 411 Numerical Methods For Engineers [Kaedah Berangka Untuk Jurutera]

EFFECTS OF Ni 3 Ti (DO 24 ) PRECIPITATES AND COMPOSITION ON Ni-BASED SUPERALLOYS USING MOLECULAR DYNAMICS METHOD

Bab 7 : Carian. proses untuk memeriksa satu atau serangkaian unsur untuk mendapatkan data yang dicari. Carian / gelintaran

PEPERIKSAAN PERCUBAAN SPM 2014 ADDITIONAL MATHEMATICS

(Kertas soalan ini mengandungi 7 soalan dalam 7 halaman yang bercetak) (This question paper consists of 7 questions on 7 printed pages)

EEE 208 TEORI LITAR II

Section A [28 marks / markah] Answer all question Jawab semua soalan

SMK KHIR JOHARI SG SUMUN PEPERIKSAAN PERCUBAAN SPM 2018 TINGKATAN 5

MSS 317 Coding Theory [Teori Pengekodan]

NUMERICAL INVESTIGATION OF TURBULENT NANOFLUID FLOW EFFECT ON ENHANCING HEAT TRANSFER IN STRAIGHT CHANNELS DHAFIR GIYATH JEHAD

Proses Pembuatan (Manufacturing Process)

Section B Bahagian B. [20 marks] [20 markah] Answer any one questions from this section. Jawab mana-mana satu soalan daripada bahagian ini.

Explain the differences between Geographical Information System (GIS) and other information system as the following:

AMPLIFICATION OF PARTIAL RICE FLORIGEN FROM MALAYSIAN UPLAND RICE CULTIVAR HITAM AND WAI ABDULRAHMAN MAHMOUD DOGARA UNIVERSITI TEKNOLOGI MALAYSIA

ENERGY EFFICIENT DISTILLATION COLUMNS SEQUENCE FOR HYDROCARBON MIXTURES FRACTIONATION PROCESS MOHAMAD FIRDAUS BIN AZIZAN

EAS 254E/3 Structural Analysis (Analisis Struktur)

(Kertas soalan ini mengandungi 3 soalan dalam 11 halaman yang bercetak) (This question paper consists of 3 questions on 11 printed pages)

COMPUTATIONAL STUDY OF PROTON TRANSFER IN RESTRICTED SULFONIC ACID FOR PROTON EXCHANGE MEMBRANE FUEL CELL SITI NADIAH BINTI MD AJEMAN

Dibentang oleh: Dr. Wong Khai Ming Pusat Pengajian Sains Fizik Universiti Sains Malaysia

CPT244 Artificial Intelligence [Kecerdasan Buatan]

Transcription:

PENGELASAN SOALAN PEPERIKSAAN BERLANDASKAN TAKSONOMI BLOOM MENGGUNAKAN N-GRAM DAN PENDEKATAN PERATURAN Dellicia Tan Nazlia Omar Fakulti Teknologi & Sains Maklumat, Universiti Kebangsaan Malaysia ABSTRAK Taksonomi Bloom telah digunakan secara meluas sebagai panduan dalam sektor pendidikan untuk menghasilkan soalan peperiksaan yang berkualiti dan seimbang. Pengklasifikasian soalan kepada tahap kognitif dalam Taksonomi Bloom merupakan satu cabaran untuk para pengajar. Kebanyakan para pengajar merujuk kepada senarai kata kunci Taksonomi Bloom untuk mengelaskan soalan peperiksaan. Walau bagaimanapun, terdapat perkataan yang tidak disenaraikan dalam senarai kata kunci. Di samping itu, terdapat juga kata kunci yang tergolong dalam lebih daripada satu tahap kognitif. Kajian ini bertujuan untuk mengklasifikasikan soalan berlandaskan Taksonomi Bloom menggunakan kaedah N-gram dan pendekatan peraturan. Sebanyak 734 soalan digunakan dalam kajian ini dengan 80% sebagai set data latihan manakala 20% sebagai set data ujian. Pembahagian set data latihan dan ujian dilakukan secara manual. Ungkapan Nalar (Regular expression -regex) akan digunakan dan pemberat akan diberikan kepada peraturan regex, bigram dan kata kunci. Keputusan kajian menunjukkan peraturan yang dibangunkan adalah berkualiti terutamanya untuk soalan domain terbuka. Nilai F1 tertinggi untuk set data latihan ialah 94% dari kategori Pengetahuan manakala 90% dari kategori Kefahaman untuk set data ujian. Nilai purata F1 kajian ini ialah 92% dengan menggunakan kaedah peraturan dan N-gram. 1 PENGENALAN Pendidikan telah diperkenalkan sejak dahulu lagi untuk mengajar seseorang berfikir secara intensif dan kritis. Pada akhir pengajaran subjek, para pengajar akan menilai pemahaman pelajar. Kaedah penyoalan merupakan salah satu cara untuk memeriksa pemahaman seseorang (Fisher & Frey 2015). Sesungguhnya, peperiksaan bertulis adalah berasaskan kaedah penyoalan. Peperiksaan bertulis merupakan kaedah konvensional tetapi digunakan secara sejagat oleh para pengajar untuk menilai pemahaman pelajar dalam subjek yang diajar. Kertas peperiksaan berkualiti seharusnya terdiri daripada pelbagai tahap kesukaran untuk menguji dan menilai kemahiran berfikir pelajar. Tambahan pula, soalan yang disediakan perlu bersesuaian dengan isi kandungan subjek yang telah diajar kepada para pelajar serta memenuhi aspek objektif pembelajaran. Taksonomi Bloom telah diperkenalkan oleh Benjamin Bloom dan sekumpulan ahli psikologi pada tahun 1956 (Bloom 1956). Taksonomi Bloom telah digunakan sebagai asas

panduan dalam sektor pendidikan sejak ia diperkenalkan kerana ia adalah salah satu kerangka terawal yang direka untuk mengkategorikan proses pemikiran kepada dua kategori iaitu kemahiran berfikir yang lebih rendah dan kemahiran berfikir yang lebih tinggi (Dwyer 2017). Di samping itu, para pengajar telah menggunakan Taksonomi Bloom sebagai garis panduan dalam perancangan pelajaran dan pembangunan soalan-soalan peperiksaan (Zadina et al. 2014). Hal sedemikian kerana Taksonomi ini merupakan pengklasifikasian objektif-objektif pembelajaran (Kovalchick & Dawson 2014). Hingga kini, Taksonomi Bloom masih lagi merupakan garis panduan yang paling dominan dalam sektor pendidikan (Curzon & Tummons 2013). Justeru, ia dapat membantu para pengajar mencapai objektif pengajaran dan pembelajaran (P&P). Taksonomi Bloom mempunyai tiga domain iaitu domain kognitif, afektif dan psikomotor. Walau bagaimanapun, hanya domain kognitif yang digunakan sebagai panduan untuk mengelaskan soalan peperiksaan kerana ia boleh membantu menilai perkembangan mental dan kognitif pelajar dalam sesebuah topik. Taksonomi Bloom mempunyai enam tahap kognitif yang mana setiap tahap akan mewakili serta menilai kemahiran yang berbeza. 2 PENYATAAN MASALAH Taksonomi Bloom telah digunakan secara meluas sebagai panduan dalam sektor pendidikan untuk menghasilkan soalan peperiksaan yang berkualiti dan seimbang bagi para pelajar. Taksonomi Bloom mempunyai 6 peringkat kognitif berbeza dan setiap peringkat mempunyai kata kunci mereka yang tersendiri untuk diklasifikasikan (Bloom, 1956). Walaupun terdapat senarai kata kunci, ia masih boleh menjadi satu cabaran bagi guru-guru, pendidik dan pensyarah untuk mengklasifikasikan soalan peperiksaan mereka. Hal ini demikian kerana terdapat beberapa perkataan yang tidak disenaraikan dalam senarai kata kunci. Oleh itu, sekiranya perkataan yang digunakan dibandingkan dengan perkataan-perkataan yang terdapat dalam senarai kata kunci, terdapat beberapa kata kunci yang mempunyai makna yang hampir sama. Hal ini adalah penting kerana sekiranya perkataan yang digunakan dalam soalan peperikaan dipadankan dengan kata kunci yang salah, maka ia boleh menyebabkan soalan peperiksaan tersebut dikategorikan dalam tahap kognitif yang salah. Selain itu, terdapat juga beberapa kata kunci yang tergolong dalam

kategori kognitif yang sama. Di samping itu, sehingga kini tidak terdapat alat untuk mengklasifikasikan soalan berlandaskan Taksonomi Bloom. 3 OBJEKTIF KAJIAN Objektif utama projek ini adalah untuk mereka bentuk dan membangunkan sebuah sistem yang akan mengklasifikasikan soalan-soalan peperiksaan berdasarkan 6 kategori kognitif yang terdapat dalam Taxonomi Bloom. Justeru, untuk mencapai matlamat projek, objektif-objektif yang dicadangkan adalah seperti yang berikut. Peraturan akan dibangunkan untuk mengklasifikasikan soalan-soalan peperiksaan berdasarkan struktur ayat dengan mengaplikasikan teknik pemprosesan teks dalam pemprosesan Bahasa Tabii. Selepas itu, sistem pengelasan perlu dibangunkan dengan mengintegrasi peraturan yang telah dikenalpasti dan N-gram. Akhirnya, keberkesanan sistem yang dibangunkan akan dinilai. 4 METOD KAJIAN Penggunaan model pembangunan yang sesuai penting untuk memastikan perjalanan projek berjalan dengan lancer dan menjamin hasil kerja yang berkualiti. Kajian ini terdiri daripada empat fasa iaitu Fasa Analisis, Fasa Penyediaan Data, Fasa Pembangunan Prototaip dan Fasa Pengujian. 4.1 Fasa Analisis Perkara-perkara yang dijalankan dalam fasa ini adalah: i) Kajian literatur ii) iii) iv) Pengenalpastian masalah Pengenalpastian objektif kajian Perancangan projek Langkah-langkah yang telah dinyatakan di ats adalah langkah berbalik dua hala. Fasa ini bermula dengan kajian literatur untuk memahami berkenaan tajuk kajian ini terlebih dahulu. Selain itu, kajian literatur membantu untuk mendapatkan hala tuju kajian dan mengenalpasti metodologi kajian yang lebih jelas. Setelah membaca kajian-kajian lepas yang berkaitan, isu-isu perlu

dikenalpasti agar masalah kajian dapat dikenalpasti berdasarkan isu-isu tersebut. Seterusnya, berdasarkan masalah kajian tersebut, objektif-objektif kajian ini akan dikenalpasti. Dalam perancangan projek, proses dan metod untuk kajian akan dirancang. 4.2 Fasa Penyediaan Data Terdapat dua jenis set data yang akan digunakan dalam kajian ini, lazimnya data set latihan dan juga data set ujian. Data set latihan merupakan data yang digunakan dalam pembangunan prototaip tersebut. Ia adalah data yang melatih prototaip berdasarkan pendekatan N-gram dan peraturanperaturan yang dibangunkan. Setelah prototaip dibangunkan, data set ujian pula akan digunakan untuk menguji prestasi dan keberkesanan prototaip yang telah dilatih menggunakan data set latihan. Data set ujian yang digunakan adalah berlainan dengan data set latihan. Kajian ini menggunakan set data dari kajian Alaa (2017) sebagai set data latihan dan set data ujian. Kajian Alaa (2017) mempunyai dua set data, satu untuk domain terbuka dan satu lagi untuk domain pengaturcaraan. Soalan domain terbuka diperoleh daripada kajian Yahya, Toukal dan Osman (2012) dengan jumlah sebanyak 600 soalan. Soalan domain pengaturcaraan pula diperoleh daripada kajian Nur Syahidah (2013) yang mempunyai sebanyak 134 soalan. Oleh itu, jumlah keseluruhan set data kajian ini ialah 734 soalan. Data latihan untuk kajian ini akan menggunakan 80% daripada set data manakala baki 20% akan digunakan sebagai data ujian. Soalan-soalan tersebut merangkumi keenam-kenam tahap Taksonomi Bloom. Kata kunci yang diperoleh daripada Missouri State University, University of Central Florida, Cornell University dan Center Grove Community School Corporation digunakan untuk membina satu senarai kata kunci. Satu senarai kata kunci telah dijana untuk memadan kata kunci soalan. Rajah 1 menunjukkan seni bina kajian yang dicadangkan untuk kajian ini. Ia menerangkan proses yang perlu lalui oleh data latihan dan data ujian untuk digunakan dalam pengelasan soalan dalam fasa pembangunan prototaip.

Rajah 1 Seni bina yang dicadangkan untuk pengklasifikasian soalan peperiksaan Sebelum soalan diproses menggunakan pemprosesan Bahasa Tabii, soalan-soalan akan melalui pra-pemprosesan. Pertama sekali, penormalan teks (normalization) dilakukan terhadap perkataan-perkataan tersebut untuk menjadi huruf kecil. Selepas penormalan teks, perkataan melalui proses tokenisasi (tokenization) agar menjadi kata tunggal. Seterusnya, kata henti disingkarkan. Kata henti ialah perkataan yang tidak mempunyai maksud penting untuk memproses Bahasa Tabii. 4.3 Fasa Pembangunan Prototaip Fasa ini adalah untuk membangunkan prototaip yang akan dilatih menggunakan data set latihan. Ia terdiri daripada 2 bahagian utama iaitu pembangunan peraturan dan pembangunan prototaip.

Sebelum peraturan dibangunkan, soalan-soalan yang dikumpul perlu dianalisis terlebih dahulu. Pembangunan prototaip akan mengintegerasikan pendekatan peraturan dengan pengelas N-gram. 4.3.1 Pembangunan Peraturan Sejumlah 734 soalan akan dibahagikan kepada dua set data iaitu 586 soalan untuk dijadikan sebagai set data latihan dan 148 soalan sebagai set data ujian. Set data latihan dianalisis untuk mengenalpasti peraturan. Berdasarkan Rajah 1, data akan melalui proses pemprosesan data seperti normalisasi dan penyingkiran kata henti terlebih dahulu untuk tujuan pembersihan data. Selepas itu, data akan dilabelkan dan dicantas. Ayat selepas pencantasan akan dianalisis untuk menentukan kata kunci soalan. Kata kunci yang telah dikenalpasti pada setiap soalan akan digunakan untuk membangunkan peraturan secara manual. Kata kunci tersebut boleh merangkumi lebih daripada satu perkataan. Bigram juga akan digunakan untuk menganalisis kekerapan perkataan. Selain itu, kata kunci untuk setiap aras kognitif juga dikumpul daripada rujukan yang dinyatakan di bahagian 4.2. Kata kunci yang akan digunakan terdiri daripada satu perkataan sahaja. Ia akan dipadankan dengan kata kerja soalan dan juga kata tanya iaitu apa, bagaimana, megapa, di mana, siapa dan bila. Akhirnya, peraturan akan dibentuk dengan Ungkapan Nalar (regex) dan kata kunci. Setiap peraturan yang telah dibangunkan akan diuji beberapa kali untuk memastikan peraturan itu menepati set latihan. Peraturan yang tidak menilai dengan tepat akan dinilai semula. 4.3.2 Pembangunan Prototaip Prototaip kajian ini terdiri daripada pemprosesan data dan pendekatan peraturan. Terdapat dua fitur yang akan digunakan iaitu kata kunci yang terdiri daripada satu perkataan sahaja dan kata kunci yang lebih daripada satu perkataan. Regex akan digunakan untuk membangunkan peraturan berdasarkan kata-kata kunci yang lebih daripada satu perkataan dan bigram yang dikenalpasti. Kata kunci yang diambil daripada 4 sumber tidak akan menggunakan regex tetapi akan terus dipadankan dengan kata kerja atau kata tanya dalam soalan. Pemberat akan digunakan untuk menentukan aras kognitif soalan.

Peraturan yang dibentuk akan diuji untuk memastikan ia berkualiti apabila diuji dengan set data latihan. Peraturan yang tidak berfungsi dengan baik akan dinilai semula dan dibaiki. Kategori kognitif akhir soalan akan ditentukan dengan menggunakan jumlah pemberat untuk kategori kata kunci satu perkataan dan kategori regex yang merangkumi kata kunci lebih daripada satu perkataan. Jumlah keseluruhan pemberat yang digunakan adalah 1. Oleh itu, kategori kognitif akhir soalan akan ditentukan dengan tambahan pemberat regex (Pregex), pemberat bigram (Pbigram), dan pemberat kata kunci (Pkata kunci). Formula pengiraannya ialah: Pemberat Akhir Soalan = Pregex + Pbigram + Pkata kunci Pregex, Pbigram dan Pkata kunci ditentukan selepas beberapa percubaan dan kesilapan. Jadual 1 menunjukkan percubaan pembahagian Pregex, Pbigram dan Pkata kunci untuk menentukan pemberat optimum yang memberikan keputusan yang terbaik. Jadual 1 Pembahagian Pregex, Pbigram dan Pkata kunci bagi kenalpasti pemberat optimum Pemberat Nilai purata Regex Bigram Kata Kunci Dapatan Kejituan F 1 0.5 0.1 0.4 0.7941 0.8074 0.7943 0.3 0.3 0.4 0.8768 0.8806 0.8774 0.2 0.3 0.5 0.8875 0.89 0.8877 0.1 0.3 0.6 0.8923 0.8945 0.8927 0.1 0.1 0.8 0.8910 0.8937 0.8914 0.1 0.6 0.3 0.8675 0.8710 0.8680 0.1 0.45 0.45 0.8856 0.8880 0.8860 0.7 0.15 0.15 0.6231 0.6690 0.6225 0.1 0.8 0.1 0.8325 0.8369 0.8334 Berdasarkan Jadual 1 di atas, pembahagian pemberat optimum adalah Pregex sebanyak 0.6, Pbigram sebanyak 0.3 dan Pkata kunci sebanyak 0.1. Jumlah pemberat akhir soalan adalah 1. Pemberat Akhir Soalan = 0.6 + 0.3 + 0.1 = 1

4.4 Fasa Pengujian Fasa ini dijalankan untuk menguji dan menilai keberkesanan pendekatan yang telah dicadangkan. Prestasi prototaip akan diukur menggunakan F-measure (F1) yang mengambil kira kejituan (precision) dan dapatan (recall). Nbetul ialah jumlah kategori yang prototaip berjaya hasilkan dengan tepat. Njawapan_sebenar ialah jumlah jawapan sebenar kategori soalan. Njawapan_sistem ialah jumlah kategori yang dihasilkan oleh sistem yang terdiri daripada campuran kategori yang betul dan salah. Dapatan ialah ukuran peratus ketepatan maklumat dari input yang dikenalpasti oleh prototaip. Jumlah bilangan kategori yang tepat akan dibandingkan dengan kategori sebenar untuk setiap soalan. Formula pengiraan dapatan ialah: Dapatan (R) = N betul N jawapan_sebenar Kejituan ialah ukuran peratus ketepatan maklumat yang diperolehi adalah tepat. Formula kejituan ialah: Kejituan (P) = N betul N jawapan_sistem F1 ialah formula yang paling banyak digunakan untuk menilai dan mengukur kualiti sistem klasifikasi. Ia menggabungkan nilai kejituan dan dapatan. Formula F1 ialah: 5 HASIL KAJIAN F1 = 2PR P + R Sebanyak tiga eksperimen telah dijalankan untuk kajian ini. Kesemua eksperimen dijalankan dengan menggunakan set data latihan dan ujian.

Pengelasan soalan untuk Eksperimen 1 hanya melibatkan kaedah pemadanan kata kunci sahaja. Eksperimen 1 digunakan sebagai garis asas untuk kajian ini. Hasil Eksperimen 1 menunjukkan bahawa ia adalah tidak efisien untuk mengelaskan menggunakan kata kunci sahaja. Setiap kata kunci mempunyai pemberat masing-masing tetapi pemberat tertinggi dalam kata kunci tidak berubah. Oleh itu, setiap kata kunci dalam soalan yang dijumpai akan dikelaskan mengikut pemberat tertinggi kata kunci sahaja. Eksperimen 2 menggunakan gabungan regex, bigram dan kata kunci untuk mengelaskan soalan. Keputusan set data latihan dengan menggunakan kaedah ini adalah baik kerana kesemua nilai dapatan, kejituan dan F1 mempunyai nilai lebih daripada 80%. Hal ini menunjukkan bahawa peraturan regex dan bigram yang dibina adalah berkesan untuk mengelaskan set data latihan. Rajah 2 di bawah menunjukkan graf perbandingan nilai F1 dari Eksperimen 1 dan 2 untuk set data latihan manakala Rajah 3 di bawah menunjukkan graf perbandingan nilai F1 dari Eksperimen 1 dan 2 untuk set data ujian. Jelas sekali bahawa penggunaan kaedah gabungan dalam Eksperimen 2 telah meningkatkan keputusan nilai F1 dalam set data latihan dan ujian kajian ini. Nilai F 1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Perbandingan Set Data Latihan Eksperimen 1 Eksperimen 2 Rajah 2 Graf Perbandingan Nilai F1 Eksperimen 1 dan 2 untuk Set Data Latihan

Rajah 3 Graf Perbandingan Nilai F1 Eksperimen 1 dan 2 untuk Set Data Ujian Eksperimen 3 menggunakan kaedah gabungan seperti dalam Eksperimen 2. Walau bagaimanapun, pembahagian set data laithan dan ujian untuk Eksperimen 3 adalah berbeza daripada eksperimen yang lain. Eksperimen 1 dan 2 menggunakan set data gabungan domain terbuka dengan domain pengaturcaraan, tetapi Eksperimen 3 menggunakan set data latihan dan ujian yang berasingan dan dibahagikan kepada dua domain iaitu domain terbuka dan domain pengaturcaraan. Keputusan dalam Eksperimen 3 untuk domain terbuka adalah sangat memuaskan untuk set data laithan dan ujian. Hal ini adalah kerana kesemua nilai dapatan, kejituan dan F1 adalah lebih daripada 80% dan kebanyakkannya adalah melebihi 90%. Purata kesemua nilai dapatan, kejituan dan F1 untuk set data domain terbuka bagi set data latihan dan ujian adalah masing-masing bernilai 92%. Purata kesemua nilai dapatan, kejituan dan F1 untuk set data latihan domain pengaturcaraan adalah memuaskan dengan nilai melebihi 70%. Walau bagaimanapun, nilai F1 untuk set data ujian adalah sangat rendah dengan nilai sebanyak 47% sahaja. Hal ini disebabkan oleh set data ujian domain pengaturcaraan yang kurang. Pengelasan yang salah menjejaskan keputusan dengan banyak. Nilai F 1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Perbandingan Set Data Ujian Sebagai contohnya, set data ujian domain Pengaturcaraan untuk kategori kognitif Penilaian hanyalah sebanyak 3 soalan dan jumlah soalan yang dikelaskan dengan betul adalah 1 sahaja. Justeru, nilai dapatannya hanya bernilai 33%. Eksperimen 1 Eksperimen 2

Seperti yang telah dibincangkan dalam bahagian 4.2, kajian ini menggunakan set data dari kajian Alaa (2017) yang mempunyai dua set data, satu untuk domain terbuka dan satu lagi untuk domain pengaturcaraan. Soalan domain pengaturcaraan diperoleh daripada kajian Nur Syahidah (2013). Kajian Alaa menggunakan kaedah pengembangan pertanyaan dengan WordNet. Kajian Nur Syahidah pula menggunakan gabungan kaedah peraturan dengan N-gram. Peraturan yang dibangunkan adalah berdasarkan struktur sintaksis soalan. Kedua-dua kajian tersebut juga menggunakan 80% daripada set data sebagai set data latihan manakala baki 20% sebagai set data ujian. Nilai purata F1 domain terbuka kajian ini ialah 92% manakala nilai purata F1 kajian Alaa (2017) ialah 80% sahaja. Kaedah peraturan regex yang digunakan dalam kajian ini menunjukkan prestasi yang lebih baik jika dibandingkan dengan kaedah pengembangan pertanyaan. Untuk domain Pengaturcaraan, nilai purata F1 domain Pengaturcaraan kajian ini ialah 47%, nilai F1 kajian Alaa (2017) ialah 82% manakala nilai F1 kajian Nur Syahidah (2013) ialah 86%. Nilai purata F1 kajian ini untuk domain Pengaturcaraan merupakan nilai yang paling rendah jika dibandingkan dengan nilai purata F1 kajian Alaa (2017) dan kajian Nur Syahidah (2013). Hal ini mungkin demikian kerana kekurangan soalan dalam set data ujian. 6 KESIMPULAN Kesimpulannya, kajian ini yang menggunakan kaedah N-gram dan peraturan boleh memberikan keputusan yang baik. Saiz set data yang digunakan memainkan peranan penting dalam menentukan keputusan kajian. Hal ini boleh dibuktikan dengan perbezaan keputusan domain terbuka yang jauh lebih baik berbanding dengan keputusan domain pengaturcaraan yang mempunyai set data yang lebih kecil. Walaupun data yang lebih besar membolehkan kita membangunkan lebih banyak peraturan, tetapi peraturan yang terlalu banyak boleh menyebabkan percanggahan. 7 RUJUKAN Alaa Hussein Abed 2017. A Query Expansion Method For Classifying Of Examination Questions into Bloom s Taxonomy Cognitive Level

Bloom, B. S. 1956. Taxonomy of Educational Objectives Handbook 1 Cognitive Domain Center Grove Community School Corporation. Bloom's Taxonomy https://www.centergrove.k12.in.us/page/7844 [7 Mac 2018] Cornell University's Center for Teaching Innovation. Action Words for Bloom s Taxonomy https://www.cte.cornell.edu/documents/assessment%20-%20blooms%20taxonomy%20 Action%20Verbs.pdf [7 Mac 2018] Curzon, L. B. & Tummons, J. 2013. Teaching in further education (7 th edition) Dwyer, C. P. 2017. Critical Thinking: Conceptual Perspectives and Practical Guidelines Fisher, D. & Frey, N. 2015. Checking for Understanding: Formative Assessment Techniques for Your Classroom Kovalchick, A. & Dawson, K. 2004. Education and technology: An Encyclopedia Missouri State University. Bloom s Taxonomy Action Verbs https://www.missouristate.edu/assets/fctl/blooms_taxonomy_action_verbs.pdf [7 Mac 2018] Nur Syahidah Sufi bt Haris 2013. Pengelasan Soalan Berdasarkan Taksonomi Bloom Menggunakan Pendekatan Peraturan dan N-gram University of Central Florida. Bloom's Taxonomy http://www.fctl.ucf.edu/teachingandlearningresources/coursedesign/bloomstaxonomy/ [7 Mac 2018] Yahya, A. A. & Osman A. 2011. Automatic Classification Of Questions into Bloom's Cognitive Levels Using Support Vector Machines Zadina, J.N., Rita Smilkstein, Deborah Daiek & Anter 2014. College Reading: The Science and Strategies of Expert Readers Curzon dan Tummons (2013)