Menulis Sekilas Analisis Rasch

 

Menulis Sekilas Analisis Rasch

 

Abstrak

Esai ini menjelaskan teknik psikometri analisis Rasch dan bagaimana teknik tersebut dapat digunakan oleh peneliti pendidikan ilmu kehidupan untuk memandu pengembangan dan penggunaan survei dan tes. Secara khusus, teknik Rasch dapat digunakan untuk mendokumentasikan dan mengevaluasi fungsi pengukuran instrumen tersebut. Teknik Rasch juga memungkinkan peneliti untuk membangun "peta Wright" untuk menjelaskan arti dari skor tes atau skor survei dan mengembangkan bentuk alternatif tes dan survei. Teknik Rasch menyediakan mekanisme di mana kualitas tes dan survei terkait ilmu kehidupan dapat dioptimalkan dan teknik dapat digunakan untuk memberikan konteks (misalnya, topik apa yang telah dikuasai siswa) saat menjelaskan hasil tes dan survei.

Kata-kata Kunci: analisis Rasch; instrumen; teknik psikometri;

 

A)   Pengantar

 

Berbagai teknik statistik seperti analisis faktor, perhitungan alfa Cronbach, korelasi titik biserial, dan menghitung total skor mentah biasanya digunakan untuk mengembangkan instrumen (tes, survei) untuk penilaian pembelajaran dan/atau penelitian pendidikan. Pendekatan ini telah digunakan untuk mengevaluasi kekuatan simpulan yang diambil dari instrumen dan untuk menghitung kinerja responden (misalnya, siswa, guru). Analisis rasch adalah teknik psikometrik yang dikembangkan untuk meningkatkan ketepatan yang digunakan peneliti untuk membangun instrumen, memantau kualitas instrumen, dan menghitung kinerja responden. Analisis Rasch memungkinkan peneliti untuk membangun bentuk alternatif instrumen pengukuran, yang membuka pintu untuk mengubah instrumen dalam terang pertumbuhan dan perubahan siswa. Analisis rasch juga membantu peneliti berpikir dengan cara yang lebih canggih sehubungan dengan konstruksi (variabel) yang ingin mereka ukur. Beberapa peneliti pendidikan sudah menggunakan teknik Rasch (misalnya Fenny Rshayanti), tetapi banyak yang terus menggunakan pendekatan pengembangan dan validasi instrumen yang mengandalkan teori tes klasik.

 

Tujuan artikel ini adalah untuk memberikan pengenalan singkat tentang mengapa, kapan, dan bagaimana menggunakan teknik Rasch sehingga teknik Rasch menjadi lebih banyak digunakan dalam praktik penilaian pembelajaran maupun penelitian pendidikan. Saya mulai dengan secara singkat memperkenalkan pentingnya pengukuran yang cermat dengan tes atau survei dan menguraikan kesalahan matematika yang umum untuk pengujian dan analisis survei yang dilakukan dengan menggunakan teknik non-Rasch, yang dapat dihindari dengan menggunakan analisis Rasch. Saya kemudian menjelaskan langkah-langkah kontrol kualitas yang melekat pada Rasch yang dapat meningkatkan kualitas instrumen pengukuran. Saya menyimpulkan dengan menjelaskan bagaimana menggunakan teknik Rasch untuk mengkomunikasikan temuan penelitian dengan lebih baik dan menguraikan langkah-langkah yang harus diambil untuk mengembangkan berbagai bentuk tes.

 

B)   Masalah Dengan Analisis Data Instrumen dan Survei

 

Untuk menyadari pentingnya teknik Rasch, pertama kita perlu memikirkan arti mengukur suatu variabel, seperti pengetahuan seorang siswa atau sikap seorang guru. Seorang peneliti harus memulai dengan mendefinisikan variabel tunggal yang akan diukur. Contohnya ketika kita ingin mengukur tinggi bunga, yang dapat diukur sepanjang tongkat meteran (Gambar 1). Dengan berfokus kepada pengukuran hanya satu variabel, seorang peneliti dapat membuat perbandingan meyakinkan. Misalnya, “Bagaimana perbandingan tinggi bunga A, B, dan C pada Gambar 1?” Tanpa instrumen pengukuran yang dikembangkan dengan cermat yang menangkap parameter satu variabel saja, sangat sulit jika bukan tidak mungkin untuk membuat perbandingan yang bermakna. Kekuatan lain dari tongkat meteran adalah skala liniernya. Artinya, jika selisih tinggi bunga A dan tinggi bunga B adalah 3 cm, dan selisih tinggi bunga A dan tinggi bunga C adalah 6 cm, seorang pengamat dapat dengan yakin mengungkap bahwa perbandingan selisih tingginya adalah 1:2. Jika skalanya tidak linier, maka pengamat tidak dapat membuat pernyataan seperti itu. Konsep linearitas adalah salah satu ide paling mendasar untuk memahami mengapa teori Rasch menjadi alat penting bagi para peneliti.

 

Menulis Sekilas Analisis Rasch


Gambar 1 Berpikir tentang pengukuran linier. Tongkat meteran digunakan untuk membuat ukuran linier dan membandingkan tinggi tiga bunga.

 

Sangat menggoda untuk menggunakan data survei dan pengujian mentah segera, karena ada begitu banyak data linier yang dapat segera dimanipulasi oleh peneliti dengan matematika sederhana. Misalnya, perbedaan waktu lari antara empat pelari dapat dibandingkan dengan pasti, biaya enam rumah dapat dibandingkan dengan pasti, dan seterusnya, karena waktu dan uang keduanya linier. Namun psikometri setuju bahwa ada kesalahan dalam analisis yang menggunakan nilai tes mentah untuk membandingkan siswa. Untuk memahami masalah ini, mari kita pikirkan tentang ujian yang diberi skor pada skala 0–25 poin. Seorang peneliti mungkin tergoda untuk memperlakukan skala ujian sebagai linier dan hanya “menjumlahkan” nilai mentah dari siswa yang berbeda untuk membandingkan tingkat pencapaian mereka. Satu masalah hanya dengan menjumlahkan jumlah item yang dijawab dengan benar dan menggunakan angka itu untuk membandingkan siswa adalah sangat tidak mungkin bahwa semua item tes memiliki kesulitan yang sama. Karena itu, jumlah skor mentah tidak dapat digunakan untuk mencapai perbandingan kinerja siswa yang akurat. Pertimbangkan hasil tes di Gambar 2. Dua puluh lima item pilihan ganda disajikan kepada siswa kelas lima. Bayangkan bahwa tes tersebut mencakup satu variabel (pengetahuan tentang panas kelas kima). Dua puluh item ditargetkan dengan baik untuk apa yang harus diketahui oleh siswa kelas lima tentang topik tersebut. Namun, lima item yang tersisa sangat sulit, karena kelimanya merupakan soal penerapan.

 

Menulis Sekilas Analisis Rasch


Gambar 2 Contoh nilai ujian. Nilai tes mentah dari empat siswa kelas sembilan yang menyelesaikan tes 25 item yang sama. Dua puluh item sesuai untuk siswa kelas sembilan, tetapi lima item tes berada di tingkat perguruan tinggi.

 

Jika seorang peneliti hanya menjumlahkan dan membandingkan skor siswa, dia mungkin menyatakan bahwa perbedaan pengetahuan antara Elizabeth dan Henry (24 – 19 = 5) dan antara Pete dan Johnny (10 – 5 = 5) adalah sama. Namun, prosedur matematika ini mengandung kesalahan mendasar, karena peneliti mengabaikan perbedaan kesulitan di seluruh item. Misalnya dalam kasus ini Elizabeth mampu menjawab sejumlah item tes yang sangat sulit. Henry, Pete, dan Johnny tidak berhasil menjawab salah satu dari lima item tes yang sangat sulit. Artinya, perbedaan tingkat pengetahuan Elizabeth dan Henry jauh lebih besar daripada perbedaan tingkat pengetahuan Pete dan Johnny. Pengantar sangat mempengaruhi perkembangan selanjutnya. untuk analisis Rasch, Best Test Design karya Wright and Stone membahas masalah ini secara rinci.

 

Sekarang mari kita perhatikan contoh yang menggambarkan masalah terkait dengan data survei. Gambar 3 menyajikan skala penilaian yang umum digunakan yaitu sangat setuju (SA), setuju (A), tidak setuju (D), dan sangat tidak setuju (SD). Kode 4, 3, 2, dan 1 digunakan sebagai singkatan dalam spreadsheet untuk menunjukkan respons mana yang dipilih untuk setiap item survei (misalnya, SA adalah 4, A adalah 3). Gambar 3 menyoroti satu masalah dengan segera melakukan analisis statistik dengan jawaban skala penilaian responden yang dikodekan secara numerik. Jika seorang peneliti melakukan prosedur matematis langsung dengan data skala penilaian, peneliti mengasumsikan bahwa ukuran lompatan dari sangat setuju ke setuju sama dengan ukuran lompatan dari setuju ke tidak setuju. Peneliti memang dapat berargumen bahwa sangat setuju mewakili lebih banyak persetujuan daripada setuju, dan bahwa setuju mewakili lebih banyak persetujuan daripada tidak setuju, dan seterusnya. Namun, peneliti tidak dapat langsung berasumsi bahwa ukuran lompatan antara kategori penilaian adalah sama.

 

Menulis Sekilas Analisis Rasch


Gambar 3 Contoh skala penilaian survei. Untuk skala Q#5, "lompatan" antara masing-masing peringkat adalah sama. Untuk skala kedua (Q#8) dan ketiga (Q#10), "lompatan" dari setiap peringkat ke peringkat berikutnya tidak sama. Selanjutnya, cara fungsi skala penilaian di seluruh item tidak identik. Semua yang peneliti dapat tegaskan adalah bahwa skala penilaian adalah ordinal (SA > A > D > SD) untuk setiap item.

 

Gambar 3 juga menyajikan masalah tambahan dengan skala penilaian. Tidak hanya langkah-langkah antara kategori penilaian yang berdekatan tidak sama, tetapi pola langkahnya mungkin berbeda dari item ke item. Ketika jawaban numerik untuk item survei dikodekan (misalnya, SA = 4, A = 3, D = 2, SD = 1), akan sangat menggoda untuk segera melakukan analisis matematis dengan angka-angka tersebut. Satu-satunya kepastian adalah bahwa, mengingat item survei tertentu, peringkat sangat setuju berarti lebih banyak setuju daripada peringkat setuju, dan seterusnya melalui tidak setuju hingga sangat tidak setuju. Gambar 3 menunjukkan potensi jarak yang tidak seimbang dari kategori skala penilaian untuk tiga item survei. Di bidang psikometri, peneliti menyebut data survei tersebut sebagai data “ordinal”. Ini berarti bahwa seorang analis dapat menyatakan urutan tanggapan sebagai berikut: Jika jawaban Olive untuk survei item 2 adalah “sangat setuju” dan jawaban Jin-Yung untuk survei item 2 adalah “setuju”, maka kita hanya tahu bahwa jawaban Olive untuk item 2 menunjukkan tingkat persetujuan yang lebih tinggi daripada jawaban Jin-Yung untuk butir 2.

 

Sama seperti semua item tes tidak dapat dianggap menunjukkan kesulitan yang sama, semua item survei tidak boleh dianggap sama-sama cocok (memiliki tingkat persetujuan yang sama). Misalnya, 4 (sangat setuju) dalam menanggapi butir 8 survei tidak boleh dianggap menunjukkan tingkat persetujuan yang sama dengan menjawab 4 (sangat setuju) untuk butir 10 survei. Untuk memahami masalah ini, mari kita pertimbangkan Science Teaching Efficacy Beliefs Instrument (STEBI) karya Enochs and Riggs. Instrumen ini mencakup 13 item survei yang mendefinisikan skala efikasi diri untuk guru SD prajabatan. Satu item STEBI adalah “Saya akan terus menemukan cara yang lebih baik untuk mengajarkan IPA,” dan item STEBI lainnya (mengikuti pengkodean terbalik) adalah “Saya akan sangat efektif dalam memantau eksperimen IPA.” Guru SD prajabatan rata-rata memiliki dasar yang lebih lemah dalam IPA dibandingkan dengan disiplin konten lainnya. Dengan demikian, mungkin lebih mudah bagi seorang guru sekolah dasar prajabatan untuk menjawab “sangat setuju” pada item tentang menemukan cara yang lebih baik untuk mengajarkan IPA dibandingkan dengan menjawab “sangat setuju” untuk item yang melibatkan pemantauan eksperimen IPA. Sama seperti item tes tidak dapat diasumsikan memiliki tingkat kesulitan yang sama, item survei tidak dapat diasumsikan memiliki tingkat “persetujuan” yang sama.

 

Teknik rasch menawarkan cara untuk menghindari jebakan ini dan memanfaatkan nilai tes mentah dan data skala penilaian untuk menghitung linier “ukuran orang”. Yang dimaksud dengan “ukuran orang” adalah nama angka skala Rasch yang menyatakan kinerja peserta tes atau skala responden. Secara khusus, analisis Rasch memungkinkan peneliti untuk menggunakan tes mentah responden atau skor skala dan mengekspresikan kinerja responden pada skala linier yang menjelaskan kesulitan yang tidak sama di semua item tes. Teknik rasch melibatkan koreksi untuk sejumlah masalah psikometrik (misalnya, skala penilaian ordinal, tidak semua item survei menandai bagian variabel yang sama) sehingga pengukuran orang yang akurat dapat dihitung.

 

C)   Model Rasch

 

Gambar 4 adalah skema yang umum digunakan yang merangkum konsep dasar matematis dan teoretis dari model Rasch, yang pertama kali dikembangkan oleh matematikawan Denmark Georg Rasch (1960. Garis vertikal tunggal mewakili konstruk yang akan dievaluasi oleh tes. Sepanjang garis vertikal ini terdapat notasi mengenai tingkat kemampuan siswa bernama Oli sepanjang variabel. Juga, tiga item tes diplot sepanjang variabel. Setiap butir soal terletak pada posisi yang menunjukkan tingkat kesulitan atau kemudahan tiap butir soal berkenaan dengan variabelnya. Yang paling penting adalah bahwa setiap item di sepanjang variabel menunjukkan kemungkinan responden (dengan tingkat kemampuan tertentu) menjawab setiap item dengan benar. Suatu butir soal yang tingkat kesulitannya lebih tinggi dari tingkat kemampuan responden akan memiliki kemungkinan lebih rendah untuk dijawab dengan benar daripada soal soal yang tingkat kesulitannya di bawah tingkat kemampuan responden. Dalam kasus skema kami, Oli akan memiliki peluang 50% untuk menjawab item 2 dengan benar, peluang kurang dari 50% untuk menjawab item 1 dengan benar, dan peluang lebih besar dari 50% untuk menjawab item 3 dengan benar.

 

Menulis Sekilas Analisis Rasch


Gambar 4 Skema pengukuran rasch. Untuk mengukur, seorang analis harus 1) mempertimbangkan satu konstruksi (diwakili oleh garis vertikal); 2) mempertimbangkan bagian-bagian dari variabel yang ditandai dengan item tes yang berbeda; 3) memahami bahwa peserta tes akan ditempatkan di beberapa titik di sepanjang variabel; dan 4) memahami bahwa probabilitas seorang responden menjawab soal tes dengan benar dapat dinyatakan.

 

Gambar 5 menggambarkan model matematika Rasch untuk item tes dikotomis. Model ini didasarkan pada apresiasi bahwa, untuk melakukan pengukuran dalam hal item tes yang benar/salah, peneliti harus mempertimbangkan kesulitan setiap item tes sepanjang variabel dan tingkat kemampuan keseluruhan peserta tes sehubungan dengan variabel. Model Georg Rasch menetapkan bahwa, ketika seorang responden (Bn di sisi kiri persamaan) menjawab item (Di di sisi kiri persamaan), hubungan ini akan dinyatakan dengan log natural dari responden yang menjawab pertanyaan dengan benar butir (Pni) dibagi dengan peluang responden menjawab tidak benar butir soal (1 – Pni ). Dengan demikian, model matematika Rasch (untuk tes benar/salah) menggunakan satu variabel, lokasi responden di sepanjang variabel, dan lokasi item tes di sepanjang variabel.

 

Menulis Sekilas Analisis Rasch


Gambar 5 Model Rasch dikotomis. Bn adalah kemampuan peserta tes sepanjang variabel; Di adalah tingkat kesulitan soal tes; Pni adalah probabilitas peserta tes menjawab dengan benar item tes tertentu; dan 1 – Pni adalah peluang seorang peserta tes menjawab salah satu butir soal.

 

 

D)  Penerapan Teori Rasch Pada Pengembangan Instrumen dan Analisis Data

 

1)   Konseptualisasi dan Desain Instrumen

 

Analisis Rasch adalah matematika dan teori. Untuk memahami bagaimana teori Rasch dapat memandu pengembangan instrumen, mari kita pertimbangkan proyek penelitian pendidikan IPA ketika seorang peneliti berencana untuk memberikan 25 pertanyaan tes pengetahuan IPA dalam bentuk pilihan banyak kepada siswa. Peneliti pada intinya akan membuat “meteran tongkat” yang akan ditandai dengan 25 item tes untuk membandingkan pengetahuan siswa. Beberapa item akan menunjukkan tingkat kesulitan yang rendah, dan item ini akan menandai ujung tongkat meteran yang lebih mudah. Item lain akan menunjukkan tingkat kesulitan menengah, menandai bagian tengah tongkat meteran. Item lainnya akan menunjukkan tingkat kesulitan yang tinggi, menandai ujung tinggi dari tongkat meteran. Umumnya, peneliti harus bekerja untuk menyajikan berbagai "kesulitan item tes" kepada siswa. Ide ini mirip dengan tongkat meteran untuk mengukur tinggi bunga (Gambar 1). Secara praktis, kita hanya dapat membuat sejumlah tanda pada tongkat meteran dalam jumlah terbatas. Jadi, jika kita tidak mengetahui panjang apa yang kita maksud, distribusi tanda yang merata di sepanjang tongkat meteran memberikan peluang pengukuran yang optimal.

 

Langkah selanjutnya dalam menerapkan teori Rasch adalah peneliti memprediksi letak tanda (kesulitan butir) di sepanjang tongkat meteran untuk butir-butir tes tertentu. Ini berarti bahwa guru harus menggunakan pemahamannya tentang apa yang diukur dan, idealnya, penelitian tentang pengetahuan IPA siswa untuk membuat prediksi kesulitan item (di mana item jatuh pada meteran tongkat). Penggunaan teori untuk membuat prediksi ini merupakan pusat pengukuran dan analisis Rasch. Jika pengembang tes tidak dapat membuat prediksi, maka pengembang tes tidak memahami apa yang diukur dan tidak dapat membedakan arti dari satu siswa yang berkinerja lebih baik atau lebih buruk daripada siswa lain. Misalnya, kajian pemahaman siswa tentang topik pada semester ganjil 2021 memberi wawasan bahwa siswa akan 1) lebih kesulitan menjelaskan organ pencernaan dibandingkan dengan organ gerak; 2) lebih sulit memahami organ peredaran darah tubuh dibandingkan dengan pernafasan. Informasi ini dapat digunakan untuk merumuskan butir-butir soal yang menjangkau meteran pemahaman siswa tentang topik organ tubuh manusia.

 

Teknik Rasch yang sama dapat diterapkan saat mengembangkan instrumen survei. Misalnya, jika seorang peneliti ingin mengumpulkan data survei tentang kepercayaan diri guru dalam mengajar IPA, peneliti harus dapat memprediksi item survei mana yang menyentuh rentang kepercayaan yang berbeda. Butir-butir harus disertakan yang dapat diterima bahkan oleh guru dengan tingkat kepercayaan diri yang rendah (misalnya, "Saya akan dapat merencanakan pelajaran IPA"), dan butir-butir harus disertakan yang hanya dapat diterima oleh guru yang paling percaya diri (misalnya, " Saya akan merasa nyaman jika kepala sekolah ingin mengamati pembelajaran saya”). Dalam contoh ini, dua item menandai bagian yang berbeda dari variabel “keyakinan”.

 

Mengikuti konstruksi instrumen pengukuran yang cermat, peneliti harus mengumpulkan data percontohan, melakukan analisis Rasch terhadap data percontohan, dan kemudian menyempurnakan instrumen, misalnya, dengan menambahkan atau menghapus item atau mengubah skala penilaian agar memiliki lebih banyak atau lebih sedikit skala penilaian. Dua langkah contoh yang diambil dalam analisis Rasch untuk mengevaluasi fungsi instrumen diuraikan di bawah ini. Banyak program perangkat lunak Rasch dapat digunakan. Winsteps, misalnya, perangkat lunak Rasch yang paling banyak digunakan, mudah digunakan, dan pembuat program memberikan panduan dan bantuan kepada pengguna.

 

2)   Menggunakan Peta Rasch Wright untuk Mengevaluasi Kekuatan dan Kelemahan Instrumen

 

Untuk lebih memahami kekuatan analisis Rasch untuk pengembangan dan peningkatan instrumen, kami sekarang mempertimbangkan peta Wright, yang dinamai untuk menghormati Benjamin Wright dari Universitas Chicago, yang bekerja sama dengan Georg Rasch. Peta Wright memanfaatkan fakta bahwa kesulitan item tes dapat dihitung, dan kesulitan item tes tersebut diekspresikan dengan menggunakan skala linier yang sama yang digunakan untuk mengekspresikan kinerja siswa atau ukuran orang. Dalam kasus tes, peta Wright memungkinkan peneliti untuk mengevaluasi seberapa baik item tes mendefinisikan variabel. Peta Wright juga memungkinkan peneliti untuk membandingkan urutan kesulitan item yang diprediksi dengan urutan kesulitan item yang sebenarnya dalam kumpulan data. Perbandingan tersebut memfasilitasi penilaian validitas konstruk dengan memberikan bukti bahwa instrumen tersebut mengukur dengan cara yang sesuai dengan hal yang diprediksi oleh teori. Peta Wright bersifat terbuka, banyak jalan bagi peneliti untuk mengevaluasi simpulan yang dapat dibuat dengan percaya diri melalui penggunaan instrumen. Saya akan memberikan gambaran umum tentang teknik analisis Rasch yang dipilih, yang dijelaskan secara rinci di Analisis Rasch dalam IPA.

 

Gambar 6 menggambarkan peta Wright yang memplot item dalam instrumen sesuai dengan urutan kesulitannya. Di sisi kanan peta Wright, 25 item tes disajikan dari yang paling mudah (item 2, bawah) hingga yang paling sulit (item 30, atas). Item diplot dalam hal kesulitan item dihitung menggunakan Winsteps dan rumus model Rasch. Skala “logit” digunakan untuk menyatakan kesulitan item pada skala linier yang membentang dari tak terhingga negatif hingga tak terhingga positif. Untuk banyak analisis, kesulitan item akan berkisar dari 3 log hingga +3 log.

 

Menulis Sekilas Analisis Rasch


Gambar 6 Contoh peta Wright. Peta Wright dapat memungkinkan peneliti untuk dengan cepat mengidentifikasi kekuatan dan kelemahan suatu instrumen. Misalnya, apakah beberapa item tes mengukur bagian variabel yang sama? Apakah ada bagian dari variabel yang diuji yang hilang item tes? Menyelidiki lokasi dan distribusi item tes pada peta Wright mirip dengan meninjau tanda yang ditempatkan pada tongkat meteran.

 

Peneliti sekarang harus meninjau urutan item tes di sepanjang variabel dan membandingkan urutan item yang diprediksi dengan urutan item yang diamati. Jika urutannya cocok dengan apa yang diprediksi dari teori, bukti kuat diberikan bahwa peneliti memiliki konsep yang baik tentang apa yang diukur. Jika pola kesulitan item menunjukkan beberapa perbedaan besar dari prediksi, maka peneliti harus berhenti dan mempertimbangkan mengapa perbedaan itu terjadi. Apakah ada sesuatu tentang teori yang perlu direvisi?

 

Selanjutnya, peneliti dapat mengevaluasi seberapa baik 25 item menandai tongkat meteran. Apakah ada celah di lokasi tanda? Jika dua siswa harus jatuh di celah (yaitu, antara nilai), peneliti tidak akan dapat membedakan siswa. Apakah ada lokasi di mana banyak tanda berada di lokasi yang sama dari tongkat meteran? Memiliki item tes menandai lokasi yang sama dari tongkat meteran, pada dasarnya, membuang-buang nilai. Lebih baik untuk menghapus salah satu item tes dan mempersingkat tes. Item dapat dihapus dan diganti dengan item baru yang mengisi celah. Di dalam Gambar 6, pembaca dapat mengamati distribusi item yang baik dari yang paling mudah hingga yang paling sulit. Namun, beberapa tanda terletak di tempat yang sama atau berdekatan (misalnya, item 31 dan 36). Juga, beberapa bagian dari meteran tongkat kami kosong dan perlu tanda (misalnya, antara item 17 dan 18 dan item 7).

 

Peta Wright juga berharga karena menunjukkan plot tidak hanya item tetapi juga responden. Di sisi kiri atau "orang" dari peta Wright, "X" digunakan untuk memplot masing-masing dari 75 peserta tes. Semakin tinggi ukuran orang, semakin baik kinerja tes. Semakin rendah ukuran orang, semakin buruk kinerja tes. Enam orang (enam "X" di baris atas) yang memiliki ukuran seseorang sedikit di bawah 2,0 log adalah peserta tes dengan kinerja tertinggi untuk ukuran ini. Analisis ukuran orang Rasch memberi peneliti alat untuk mengevaluasi kualitas instrumen mereka. Misalnya, apakah urutan ukuran orang masuk akal? Dengan kata lain, apakah siswa-siswa yang peneliti harapkan berkinerja tinggi memang berkinerja tinggi? Apakah siswa yang diprediksi berkinerja rendah memang berkinerja rendah?

 

Akhirnya, karena peta Wright memberikan ukuran orang dan ukuran item pada skala linier yang sama, peneliti dapat menentukan seberapa baik item tes didistribusikan sehubungan dengan tingkat kemampuan peserta tes. Sebuah teknik untuk mencapai ini adalah untuk mengevaluasi seberapa dekat ukuran item rata-rata ("M" di sisi kanan peta Wright) dari ukuran orang rata-rata ("M" di sisi kiri peta Wright). Untuk kumpulan data ini, item rata-rata dan orang rata-rata sangat dekat satu sama lain. Pengaturan ini menyarankan penargetan item uji yang baik. Juga, ini berarti bahwa kisaran item tes yang disajikan kepada siswa sesuai untuk kelompok responden ini. Dengan kata lain, butir soal tidak terlalu sulit atau terlalu mudah bagi siswa.

 

3)   Strategi Rasch Tambahan untuk Mengevaluasi Kualitas Instrumen

 

Sejumlah langkah Rasch tambahan dapat diambil untuk mengevaluasi kualitas instrumen pengukuran. Salah satu tekniknya adalah mengevaluasi "kecocokan" item dengan model Rasch. Salah satu cara untuk mempertimbangkan topik kecocokan adalah bahwa item pada akhir bagian variabel yang lebih sulit harus lebih sulit untuk dijawab dengan benar daripada item pada akhir bagian variabel yang mudah. Ini harus benar untuk semua siswa yang menjawab satu set item terlepas dari tingkat kemampuan mereka. Jika item tidak sesuai dengan model, mereka dapat mengukur lebih dari satu variabel. Sangat penting untuk mengidentifikasi dan mungkin menghapus item tersebut, karena tujuan instrumen seharusnya hanya mengukur bagian yang berbeda dari satu variabel. Dalam analisis Rasch, identifikasi item yang tidak berkontribusi pada pengukuran yang berguna dapat dicapai dengan meninjau statistik “fit” (misalnya, Item Outfit MNSQ, Item Infit MNSQ) untuk setiap item tes. Jika suatu item tidak sesuai dengan jelas, seringkali yang terbaik adalah menghapus item dari pengujian dan menggantinya dengan item baru. Sebuah item mungkin tidak sesuai karena sulit untuk sampel siswa tetapi secara tidak terduga dijawab dengan benar oleh sejumlah siswa yang berkinerja buruk. Suatu item mungkin tidak sesuai karena merupakan item mudah yang secara tidak terduga dijawab salah oleh siswa yang berprestasi tinggi. Aturan praktis yang umum digunakan adalah mengevaluasi statistik Outfit MNSQ untuk setiap item untuk menentukan apakah melebihi 1,3. Jika demikian, item tersebut mungkin tidak sesuai dengan model Rasch dan mungkin beroperasi dengan cara yang tidak berguna untuk pengukuran.

 

Teknik lain untuk mengevaluasi kualitas instrumen adalah dengan meninjau statistik kesesuaian orang untuk menandai responden yang menunjukkan pola jawaban yang tidak biasa. Misalnya, pola mungkin menunjukkan bahwa seorang siswa berkonsentrasi untuk jangka waktu tertentu dan kemudian tidak berkonsentrasi. Pola dapat dideteksi yang menyarankan siswa menebak-nebak ketika mengambil tes. Poin penting adalah bahwa peneliti yang baru pertama kali belajar tentang Rasch harus menyadari sejumlah langkah pengendalian kualitas data yang diambil untuk mengevaluasi konsistensi jawaban siswa. Misalnya, jika siswa menunjukkan pola jawaban yang tidak biasa, siswa tersebut mungkin tidak dimasukkan dalam analisis.

 

E)   Mengembangkan Formulir Uji Yang Berbeda

 

Karena teknik Rasch dibangun di atas tujuan mengukur variabel tunggal, peneliti dapat membangun berbagai bentuk tes. Karena itu, tanggapan tes dapat dinyatakan dalam skala tunggal yang tidak bergantung pada formulir tes yang diisi. Misalnya, tes 25 item dapat dibuat untuk tengah semester ganjil, tes 25 item dengan banyak item baru dapat dibuat untuk penilaian akhir semester untuk kelompok siswa yang sama, dan kinerja siswa pada dua tes dapat dibandingkan dengan percaya diri. Untuk memahami masalah ini, pertimbangkan tiga bentuk tes IPA 25 item, Formulir A, B, dan C. Formulir A diberikan pada tengah semester ganjil, formulir B diberikan pada akhir semester, dan formulir C dikelola di tengah semester genap. Untuk mengukur perubahan pengetahuan siswa dari waktu ke waktu, ketiga bentuk tersebut harus sama sulitnya. Jika tidak, akan terlihat bahwa perubahan siswa lebih besar, atau lebih kecil, dari yang sebenarnya.

 

Pertama, hampir tidak mungkin untuk mengembangkan bentuk tes yang menunjukkan kesulitan yang sama. Kedua, jika siswa sedang belajar, disarankan untuk menyajikan item yang lebih sulit pada setiap bentuk tes berikutnya. Dengan menggunakan teknik Rasch, peneliti dapat mengembangkan bentuk tes dengan campuran item yang berbeda dan mengekspresikan semua bentuk pada skala yang sama. Mengembangkan tiga bentuk tes menggunakan Rasch membutuhkan penggunaan “jangkar item”. Jangkar item adalah item umum yang disajikan di seluruh formulir dan berfungsi sebagai titik referensi, sehingga kinerja siswa dapat diekspresikan pada skala tunggal terlepas dari formulir tes yang diselesaikan. Gambar 7 menyajikan skema yang menampilkan campuran item tes untuk tiga bentuk yang dihubungkan melalui jangkar item. Meskipun setiap formulir tes mencakup campuran item yang berbeda, menghubungkan skala pengukuran melalui item umum memungkinkan untuk mengekspresikan kinerja peserta tes pada skala pengukuran yang sama. Hal ini mencegah perbedaan dalam kesulitan bentuk tes mempengaruhi interpretasi perbedaan hasil siswa. Cara sederhana untuk menghubungkan atau mengaitkan tiga tes dengan empat item umum ke skala yang sama adalah dengan terlebih dahulu melakukan analisis Rasch dengan data dari formulir tes A. Ketika data formulir tes B dikumpulkan dan dianalisis, jangkar empat item yang umum untuk nilai kesukaran butir soal dihitung melalui analisis data tes bentuk A. Hal ini memungkinkan tanggapan dari bentuk B diukur pada skala yang sama dengan tanggapan untuk bentuk A.

 

Menulis Sekilas Analisis Rasch


Gambar 7 Beberapa bentuk tes. Contoh bagaimana jangkar item dapat digunakan untuk menghubungkan skala pengukuran dari berbagai bentuk tes. Empat item (4, 5, 6, dan 7) yang umum untuk bentuk A dan B, memungkinkan dua skala untuk dihubungkan. Empat item (18, 19, 20, dan 21) umum untuk formulir B dan C, memungkinkan semua peserta tes (terlepas dari formulir yang diisi) untuk diekspresikan pada skala yang sama.

 

F)   Komunikasi Temuan Penelitian

 

Poin terakhir yang harus dibuat bagi mereka yang mempertimbangkan untuk menggunakan pengukuran Rasch adalah bahwa analisis Rasch memungkinkan peneliti untuk menjelaskan arti pengukuran seseorang menggunakan lanskap yang ditentukan oleh item tes. Penggunaan analisis Rasch memungkinkan bagi setiap orang untuk mengukur (misalnya, seberapa baik Isabella melakukan tes) untuk menentukan item mana yang dapat diprediksi bahwa Isabella menjawab dengan benar dan item mana yang dapat diprediksi bahwa Isabella tidak menjawab dengan benar. Di bawah ini adalah pengantar singkat tentang cara peta Wright saat ini digunakan untuk menggambarkan arti kinerja peserta tes.

 

Gambar 8 menyediakan peta Wright dengan lokasi 10 item dan lokasi ukuran rata-rata orang pada titik waktu tes pra-pembelajaran (misalnya, awal semester) dan titik waktu tes pasca-pembelajaran (misalnya, akhir semester). Mengingat sifat matematika dari rumus Rasch, seorang peneliti dapat memperpanjang garis horizontal untuk ukuran rata-rata sebelum dan sesudah. Untuk hasil yang disajikan di sini, butir-butir di bawah garis rata-rata pra adalah butir-butir yang memiliki peluang lebih besar dari 62% dari rata-rata orang menyelesaikan soal pra-pembelajaran dengan benar. Butir-butir di atas garis pra adalah butir-butir yang peluangnya kurang dari 62% dari orang biasa menyelesaikan soal pra-pembelajaran dengan benar. Dengan demikian, butir-butir di bawah baris awal adalah butir-butir yang peneliti dapat yakini bahwa siswa biasa akan menjawab soal pra-pembelajaran dengan benar, dan butir-butir di atas adalah butir-butir yang siswa biasa akan salah menjawabnya. Ini berarti bahwa seorang peneliti dapat menghitung ukuran awal untuk sekelompok responden dan menjelaskan apa arti dari ukuran kelompok.

 

Menulis Sekilas Analisis Rasch


Gambar 8 Membuat inferensi menggunakan peta Wright. Peta Wright memungkinkan peneliti untuk menjelaskan makna pertumbuhan yang diamati dari pra hingga pasca. Item yang berada di antara baris sebelum dan sesudah membantu menggambarkan pertumbuhan.

 

Sekarang tinjau lokasi pengukuran grup pasca-pembelajaran. Butir-butir yang berada di bawah ukuran kelompok rata-rata (menandai rata-rata ukuran siswa pasca-pembelajaran) adalah butir-butir yang peneliti prediksikan untuk dijawab dengan benar oleh siswa biasa pada pasca-pembelajaran. Butir-butir di atas garis rata-rata adalah butir-butir yang peneliti akan prediksikan bahwa siswa biasa tidak menjawab dengan benar. Sekarang mari kita bayangkan bahwa seorang peneliti melakukan uji statistik membandingkan ukuran rata-rata kelompok pra dengan ukuran rata-rata kelompok pasca, dan peneliti menentukan perbedaan yang signifikan secara statistik dengan ukuran efek yang besar. Peneliti sekarang dapat menjelaskan arti dari perubahan respon siswa dari pra ke pasca. Makna dari perubahan tersebut dapat digambarkan dengan item-item yang rata-rata siswa tidak dapat menjawab dengan benar sebelum pembelajaran, tetapi rata-rata siswa dapat menjawab dengan benar item-item tersebut setelah pembelajaran. Ini adalah item yang terletak di antara ukuran rata-rata siswa pada pra dan ukuran rata-rata siswa pada pasca pembelajaran.

 

G)  Kesimpulan

 

Teknik rasch sangat mempengaruhi cara penelitian ilmu sosial menggunakan tes dan survei. Kerangka Rasch menawarkan prosedur untuk membangun dan merevisi instrumen pengukuran ilmu sosial dan mendokumentasikan sifat pengukuran instrumen (misalnya, reliabilitas dan validitas konstruk). Teknik rasch juga memungkinkan peneliti untuk membuat koreksi kritis saat menggunakan data skor tes mentah atau data survei. Secara khusus, teknik Rasch memungkinkan data mentah nonlinier dikonversi ke skala linier, yang kemudian dapat dievaluasi melalui penggunaan uji statistik parametrik. Selain contoh yang diberikan sebelumnya, ada langkah-langkah Rasch yang dapat digunakan untuk menyelidiki masalah instrumentasi penting lainnya (misalnya, urutan langkah/pengaturan langkah, keandalan item, keandalan orang, fungsi item diferensial, dan fungsi tes diferensial).

 

Salah satu aspek yang paling kuat dari pengukuran Rasch adalah bahwa teknik ini memungkinkan makna pengukuran siswa dan makna pengukuran kelompok dijelaskan dengan menggunakan konteks item instrumen. Untuk tes, jika sekelompok siswa meningkat dari pra ke pasca, peneliti dapat menjelaskan arti dari perubahan tersebut. Bagi mereka yang tertarik untuk mempelajari lebih lanjut tentang teknik Rasch, Rasch Analysis in the Human Sciences adalah buku awal yang bagus. Buku lain yang lebih awal diterbitkan termasuk Best Test Design, Rating Scale Analysis, dan Applying the Rasch Model: Fundamental Measurement in the Human Sciences. Banyak peneliti pendidikan biologi, antara lain Fenny Roshayanti, telah menggunakan teknik Rasch dan dapat menjadi panutan melakukan ini.