Abstrak
Esai
ini menjelaskan teknik psikometri analisis Rasch dan bagaimana teknik tersebut
dapat digunakan oleh peneliti pendidikan ilmu kehidupan untuk memandu
pengembangan dan penggunaan survei dan tes. Secara khusus, teknik Rasch dapat
digunakan untuk mendokumentasikan dan mengevaluasi fungsi pengukuran instrumen
tersebut. Teknik Rasch juga memungkinkan peneliti untuk membangun "peta
Wright" untuk menjelaskan arti dari skor tes atau skor survei dan
mengembangkan bentuk alternatif tes dan survei. Teknik Rasch menyediakan
mekanisme di mana kualitas tes dan survei terkait ilmu kehidupan dapat
dioptimalkan dan teknik dapat digunakan untuk memberikan konteks (misalnya,
topik apa yang telah dikuasai siswa) saat menjelaskan hasil tes dan survei.
Kata-kata Kunci: analisis Rasch; instrumen; teknik psikometri;
A) Pengantar
Berbagai
teknik statistik seperti analisis faktor, perhitungan alfa Cronbach, korelasi
titik biserial, dan menghitung total skor mentah biasanya digunakan untuk
mengembangkan instrumen (tes, survei) untuk penilaian pembelajaran dan/atau penelitian
pendidikan. Pendekatan ini telah digunakan untuk mengevaluasi kekuatan simpulan
yang diambil dari instrumen dan untuk menghitung kinerja responden (misalnya,
siswa, guru). Analisis rasch adalah teknik psikometrik yang dikembangkan untuk
meningkatkan ketepatan yang digunakan peneliti untuk membangun instrumen,
memantau kualitas instrumen, dan menghitung kinerja responden. Analisis Rasch
memungkinkan peneliti untuk membangun bentuk alternatif instrumen pengukuran,
yang membuka pintu untuk mengubah instrumen dalam terang pertumbuhan dan
perubahan siswa. Analisis rasch juga membantu peneliti berpikir dengan cara
yang lebih canggih sehubungan dengan konstruksi (variabel) yang ingin mereka
ukur. Beberapa peneliti pendidikan sudah menggunakan teknik Rasch (misalnya
Fenny Rshayanti), tetapi banyak yang terus menggunakan pendekatan pengembangan
dan validasi instrumen yang mengandalkan teori tes klasik.
Tujuan
artikel ini adalah untuk memberikan pengenalan singkat tentang mengapa, kapan,
dan bagaimana menggunakan teknik Rasch sehingga teknik Rasch menjadi lebih
banyak digunakan dalam praktik penilaian pembelajaran maupun penelitian
pendidikan. Saya mulai dengan secara singkat memperkenalkan pentingnya
pengukuran yang cermat dengan tes atau survei dan menguraikan kesalahan
matematika yang umum untuk pengujian dan analisis survei yang dilakukan dengan
menggunakan teknik non-Rasch, yang dapat dihindari dengan menggunakan analisis
Rasch. Saya kemudian menjelaskan langkah-langkah kontrol kualitas yang melekat
pada Rasch yang dapat meningkatkan kualitas instrumen pengukuran. Saya
menyimpulkan dengan menjelaskan bagaimana menggunakan teknik Rasch untuk
mengkomunikasikan temuan penelitian dengan lebih baik dan menguraikan
langkah-langkah yang harus diambil untuk mengembangkan berbagai bentuk tes.
B) Masalah Dengan Analisis Data Instrumen dan
Survei
Untuk
menyadari pentingnya teknik Rasch, pertama kita perlu memikirkan arti mengukur
suatu variabel, seperti pengetahuan seorang siswa atau sikap seorang guru.
Seorang peneliti harus memulai dengan mendefinisikan variabel tunggal yang akan
diukur. Contohnya ketika kita ingin mengukur tinggi bunga, yang dapat diukur
sepanjang tongkat meteran (Gambar 1). Dengan berfokus kepada pengukuran hanya
satu variabel, seorang peneliti dapat membuat perbandingan meyakinkan. Misalnya,
“Bagaimana perbandingan tinggi bunga A, B, dan C pada Gambar 1?” Tanpa
instrumen pengukuran yang dikembangkan dengan cermat yang menangkap parameter satu
variabel saja, sangat sulit jika bukan tidak mungkin untuk membuat perbandingan
yang bermakna. Kekuatan lain dari tongkat meteran adalah skala liniernya.
Artinya, jika selisih tinggi bunga A dan tinggi bunga B adalah 3 cm, dan
selisih tinggi bunga A dan tinggi bunga C adalah 6 cm, seorang pengamat dapat
dengan yakin mengungkap bahwa perbandingan selisih tingginya adalah 1:2. Jika
skalanya tidak linier, maka pengamat tidak dapat membuat pernyataan seperti
itu. Konsep linearitas adalah salah satu ide paling mendasar untuk memahami
mengapa teori Rasch menjadi alat penting bagi para peneliti.
Gambar 1 Berpikir tentang pengukuran
linier. Tongkat meteran digunakan untuk membuat ukuran linier dan membandingkan
tinggi tiga bunga.
Sangat
menggoda untuk menggunakan data survei dan pengujian mentah segera, karena ada
begitu banyak data linier yang dapat segera dimanipulasi oleh peneliti dengan
matematika sederhana. Misalnya, perbedaan waktu lari antara empat pelari dapat
dibandingkan dengan pasti, biaya enam rumah dapat dibandingkan dengan pasti,
dan seterusnya, karena waktu dan uang keduanya linier. Namun psikometri setuju
bahwa ada kesalahan dalam analisis yang menggunakan nilai tes mentah untuk
membandingkan siswa. Untuk memahami masalah ini, mari kita pikirkan tentang
ujian yang diberi skor pada skala 0–25 poin. Seorang peneliti mungkin tergoda
untuk memperlakukan skala ujian sebagai linier dan hanya “menjumlahkan” nilai
mentah dari siswa yang berbeda untuk membandingkan tingkat pencapaian mereka.
Satu masalah hanya dengan menjumlahkan jumlah item yang dijawab dengan benar
dan menggunakan angka itu untuk membandingkan siswa adalah sangat tidak mungkin
bahwa semua item tes memiliki kesulitan yang sama. Karena itu, jumlah skor
mentah tidak dapat digunakan untuk mencapai perbandingan kinerja siswa yang
akurat. Pertimbangkan hasil tes di Gambar 2. Dua puluh lima item pilihan ganda
disajikan kepada siswa kelas lima. Bayangkan bahwa tes tersebut mencakup satu
variabel (pengetahuan tentang panas kelas kima). Dua puluh item ditargetkan
dengan baik untuk apa yang harus diketahui oleh siswa kelas lima tentang topik
tersebut. Namun, lima item yang tersisa sangat sulit, karena kelimanya merupakan
soal penerapan.
Gambar 2 Contoh nilai ujian. Nilai tes
mentah dari empat siswa kelas sembilan yang menyelesaikan tes 25 item yang
sama. Dua puluh item sesuai untuk siswa kelas sembilan, tetapi lima item tes
berada di tingkat perguruan tinggi.
Jika
seorang peneliti hanya menjumlahkan dan membandingkan skor siswa, dia mungkin
menyatakan bahwa perbedaan pengetahuan antara Elizabeth dan Henry (24 – 19 = 5)
dan antara Pete dan Johnny (10 – 5 = 5) adalah sama. Namun, prosedur matematika
ini mengandung kesalahan mendasar, karena peneliti mengabaikan perbedaan
kesulitan di seluruh item. Misalnya dalam kasus ini Elizabeth mampu menjawab
sejumlah item tes yang sangat sulit. Henry, Pete, dan Johnny tidak berhasil menjawab
salah satu dari lima item tes yang sangat sulit. Artinya, perbedaan tingkat
pengetahuan Elizabeth dan Henry jauh lebih besar daripada perbedaan tingkat
pengetahuan Pete dan Johnny. Pengantar sangat mempengaruhi perkembangan
selanjutnya. untuk analisis Rasch, Best Test Design karya Wright and
Stone membahas masalah ini secara rinci.
Sekarang
mari kita perhatikan contoh yang menggambarkan masalah terkait dengan data
survei. Gambar 3 menyajikan skala penilaian yang umum digunakan yaitu sangat
setuju (SA), setuju (A), tidak setuju (D), dan sangat tidak setuju (SD). Kode
4, 3, 2, dan 1 digunakan sebagai singkatan dalam spreadsheet untuk
menunjukkan respons mana yang dipilih untuk setiap item survei (misalnya, SA
adalah 4, A adalah 3). Gambar 3 menyoroti satu masalah dengan segera melakukan
analisis statistik dengan jawaban skala penilaian responden yang dikodekan
secara numerik. Jika seorang peneliti melakukan prosedur matematis langsung
dengan data skala penilaian, peneliti mengasumsikan bahwa ukuran lompatan dari
sangat setuju ke setuju sama dengan ukuran lompatan dari setuju ke tidak
setuju. Peneliti memang dapat berargumen bahwa sangat setuju mewakili lebih
banyak persetujuan daripada setuju, dan bahwa setuju mewakili lebih banyak
persetujuan daripada tidak setuju, dan seterusnya. Namun, peneliti tidak dapat
langsung berasumsi bahwa ukuran lompatan antara kategori penilaian adalah sama.
Gambar 3 Contoh skala penilaian survei.
Untuk skala Q#5, "lompatan" antara masing-masing peringkat adalah
sama. Untuk skala kedua (Q#8) dan ketiga (Q#10), "lompatan" dari
setiap peringkat ke peringkat berikutnya tidak sama. Selanjutnya, cara fungsi
skala penilaian di seluruh item tidak identik. Semua yang peneliti dapat
tegaskan adalah bahwa skala penilaian adalah ordinal (SA > A > D > SD)
untuk setiap item.
Gambar
3 juga menyajikan masalah tambahan dengan skala penilaian. Tidak hanya
langkah-langkah antara kategori penilaian yang berdekatan tidak sama, tetapi
pola langkahnya mungkin berbeda dari item ke item. Ketika jawaban numerik untuk
item survei dikodekan (misalnya, SA = 4, A = 3, D = 2, SD = 1), akan sangat
menggoda untuk segera melakukan analisis matematis dengan angka-angka tersebut.
Satu-satunya kepastian adalah bahwa, mengingat item survei tertentu, peringkat
sangat setuju berarti lebih banyak setuju daripada peringkat setuju, dan
seterusnya melalui tidak setuju hingga sangat tidak setuju. Gambar 3 menunjukkan
potensi jarak yang tidak seimbang dari kategori skala penilaian untuk tiga item
survei. Di bidang psikometri, peneliti menyebut data survei tersebut sebagai
data “ordinal”. Ini berarti bahwa seorang analis dapat menyatakan urutan
tanggapan sebagai berikut: Jika jawaban Olive untuk survei item 2 adalah
“sangat setuju” dan jawaban Jin-Yung untuk survei item 2 adalah “setuju”, maka
kita hanya tahu bahwa jawaban Olive untuk item 2 menunjukkan tingkat
persetujuan yang lebih tinggi daripada jawaban Jin-Yung untuk butir 2.
Sama
seperti semua item tes tidak dapat dianggap menunjukkan kesulitan yang sama,
semua item survei tidak boleh dianggap sama-sama cocok (memiliki tingkat persetujuan
yang sama). Misalnya, 4 (sangat setuju) dalam menanggapi butir 8 survei tidak
boleh dianggap menunjukkan tingkat persetujuan yang sama dengan menjawab 4
(sangat setuju) untuk butir 10 survei. Untuk memahami masalah ini, mari kita
pertimbangkan Science Teaching Efficacy Beliefs Instrument (STEBI) karya
Enochs and Riggs. Instrumen ini mencakup 13 item survei yang mendefinisikan
skala efikasi diri untuk guru SD prajabatan. Satu item STEBI adalah “Saya akan
terus menemukan cara yang lebih baik untuk mengajarkan IPA,” dan item STEBI
lainnya (mengikuti pengkodean terbalik) adalah “Saya akan sangat efektif dalam
memantau eksperimen IPA.” Guru SD prajabatan rata-rata memiliki dasar yang
lebih lemah dalam IPA dibandingkan dengan disiplin konten lainnya. Dengan
demikian, mungkin lebih mudah bagi seorang guru sekolah dasar prajabatan untuk
menjawab “sangat setuju” pada item tentang menemukan cara yang lebih baik untuk
mengajarkan IPA dibandingkan dengan menjawab “sangat setuju” untuk item yang
melibatkan pemantauan eksperimen IPA. Sama seperti item tes tidak dapat diasumsikan
memiliki tingkat kesulitan yang sama, item survei tidak dapat diasumsikan
memiliki tingkat “persetujuan” yang sama.
Teknik
rasch menawarkan cara untuk menghindari jebakan ini dan memanfaatkan nilai tes
mentah dan data skala penilaian untuk menghitung linier “ukuran orang”. Yang
dimaksud dengan “ukuran orang” adalah nama angka skala Rasch yang menyatakan
kinerja peserta tes atau skala responden. Secara khusus, analisis Rasch
memungkinkan peneliti untuk menggunakan tes mentah responden atau skor skala
dan mengekspresikan kinerja responden pada skala linier yang menjelaskan
kesulitan yang tidak sama di semua item tes. Teknik rasch melibatkan koreksi
untuk sejumlah masalah psikometrik (misalnya, skala penilaian ordinal, tidak
semua item survei menandai bagian variabel yang sama) sehingga pengukuran orang
yang akurat dapat dihitung.
C) Model Rasch
Gambar
4 adalah skema yang umum digunakan yang merangkum konsep dasar matematis dan
teoretis dari model Rasch, yang pertama kali dikembangkan oleh matematikawan
Denmark Georg Rasch (1960. Garis vertikal tunggal mewakili konstruk yang akan
dievaluasi oleh tes. Sepanjang garis vertikal ini terdapat notasi mengenai
tingkat kemampuan siswa bernama Oli sepanjang variabel. Juga, tiga item tes
diplot sepanjang variabel. Setiap butir soal terletak pada posisi yang
menunjukkan tingkat kesulitan atau kemudahan tiap butir soal berkenaan dengan
variabelnya. Yang paling penting adalah bahwa setiap item di sepanjang variabel
menunjukkan kemungkinan responden (dengan tingkat kemampuan tertentu) menjawab
setiap item dengan benar. Suatu butir soal yang tingkat kesulitannya lebih
tinggi dari tingkat kemampuan responden akan memiliki kemungkinan lebih rendah
untuk dijawab dengan benar daripada soal soal yang tingkat kesulitannya di
bawah tingkat kemampuan responden. Dalam kasus skema kami, Oli akan memiliki
peluang 50% untuk menjawab item 2 dengan benar, peluang kurang dari 50% untuk
menjawab item 1 dengan benar, dan peluang lebih besar dari 50% untuk menjawab
item 3 dengan benar.
Gambar 4 Skema pengukuran rasch. Untuk
mengukur, seorang analis harus 1) mempertimbangkan satu konstruksi (diwakili
oleh garis vertikal); 2) mempertimbangkan bagian-bagian dari variabel yang
ditandai dengan item tes yang berbeda; 3) memahami bahwa peserta tes akan
ditempatkan di beberapa titik di sepanjang variabel; dan 4) memahami bahwa
probabilitas seorang responden menjawab soal tes dengan benar dapat dinyatakan.
Gambar
5 menggambarkan model matematika Rasch untuk item tes dikotomis. Model ini
didasarkan pada apresiasi bahwa, untuk melakukan pengukuran dalam hal item tes
yang benar/salah, peneliti harus mempertimbangkan kesulitan setiap item tes
sepanjang variabel dan tingkat kemampuan keseluruhan peserta tes sehubungan
dengan variabel. Model Georg Rasch menetapkan bahwa, ketika seorang responden (Bn
di sisi kiri persamaan) menjawab item (Di di sisi kiri persamaan),
hubungan ini akan dinyatakan dengan log natural dari responden yang menjawab
pertanyaan dengan benar butir (Pni) dibagi dengan peluang responden
menjawab tidak benar butir soal (1 – Pni ). Dengan demikian, model
matematika Rasch (untuk tes benar/salah) menggunakan satu variabel, lokasi responden
di sepanjang variabel, dan lokasi item tes di sepanjang variabel.
Gambar
5 Model Rasch dikotomis. Bn adalah
kemampuan peserta tes sepanjang variabel; Di adalah tingkat kesulitan soal tes;
Pni adalah probabilitas peserta tes menjawab dengan benar item tes tertentu;
dan 1 – Pni adalah peluang seorang peserta tes menjawab salah satu butir soal.
D) Penerapan Teori Rasch Pada Pengembangan
Instrumen dan Analisis Data
1) Konseptualisasi dan Desain Instrumen
Analisis
Rasch adalah matematika dan teori. Untuk memahami bagaimana teori Rasch dapat
memandu pengembangan instrumen, mari kita pertimbangkan proyek penelitian
pendidikan IPA ketika seorang peneliti berencana untuk memberikan 25 pertanyaan
tes pengetahuan IPA dalam bentuk pilihan banyak kepada siswa. Peneliti pada
intinya akan membuat “meteran tongkat” yang akan ditandai dengan 25 item tes
untuk membandingkan pengetahuan siswa. Beberapa item akan menunjukkan tingkat
kesulitan yang rendah, dan item ini akan menandai ujung tongkat meteran yang
lebih mudah. Item lain akan menunjukkan tingkat kesulitan menengah, menandai
bagian tengah tongkat meteran. Item lainnya akan menunjukkan tingkat kesulitan
yang tinggi, menandai ujung tinggi dari tongkat meteran. Umumnya, peneliti
harus bekerja untuk menyajikan berbagai "kesulitan item tes" kepada
siswa. Ide ini mirip dengan tongkat meteran untuk mengukur tinggi bunga (Gambar
1). Secara praktis, kita hanya dapat membuat sejumlah tanda pada tongkat
meteran dalam jumlah terbatas. Jadi, jika kita tidak mengetahui panjang apa
yang kita maksud, distribusi tanda yang merata di sepanjang tongkat meteran
memberikan peluang pengukuran yang optimal.
Langkah
selanjutnya dalam menerapkan teori Rasch adalah peneliti memprediksi letak tanda
(kesulitan butir) di sepanjang tongkat meteran untuk butir-butir tes tertentu.
Ini berarti bahwa guru harus menggunakan pemahamannya tentang apa yang diukur
dan, idealnya, penelitian tentang pengetahuan IPA siswa untuk membuat prediksi
kesulitan item (di mana item jatuh pada meteran tongkat). Penggunaan teori
untuk membuat prediksi ini merupakan pusat pengukuran dan analisis Rasch. Jika
pengembang tes tidak dapat membuat prediksi, maka pengembang tes tidak memahami
apa yang diukur dan tidak dapat membedakan arti dari satu siswa yang berkinerja
lebih baik atau lebih buruk daripada siswa lain. Misalnya, kajian pemahaman
siswa tentang topik pada semester ganjil 2021 memberi wawasan bahwa siswa akan
1) lebih kesulitan menjelaskan organ pencernaan dibandingkan dengan organ gerak;
2) lebih sulit memahami organ peredaran darah tubuh dibandingkan dengan pernafasan.
Informasi ini dapat digunakan untuk merumuskan butir-butir soal yang menjangkau
meteran pemahaman siswa tentang topik organ tubuh manusia.
Teknik
Rasch yang sama dapat diterapkan saat mengembangkan instrumen survei. Misalnya,
jika seorang peneliti ingin mengumpulkan data survei tentang kepercayaan diri
guru dalam mengajar IPA, peneliti harus dapat memprediksi item survei mana yang
menyentuh rentang kepercayaan yang berbeda. Butir-butir harus disertakan yang
dapat diterima bahkan oleh guru dengan tingkat kepercayaan diri yang rendah
(misalnya, "Saya akan dapat merencanakan pelajaran IPA"), dan
butir-butir harus disertakan yang hanya dapat diterima oleh guru yang paling
percaya diri (misalnya, " Saya akan merasa nyaman jika kepala sekolah ingin
mengamati pembelajaran saya”). Dalam contoh ini, dua item menandai bagian yang
berbeda dari variabel “keyakinan”.
Mengikuti
konstruksi instrumen pengukuran yang cermat, peneliti harus mengumpulkan data
percontohan, melakukan analisis Rasch terhadap data percontohan, dan kemudian
menyempurnakan instrumen, misalnya, dengan menambahkan atau menghapus item atau
mengubah skala penilaian agar memiliki lebih banyak atau lebih sedikit skala penilaian.
Dua langkah contoh yang diambil dalam analisis Rasch untuk mengevaluasi fungsi
instrumen diuraikan di bawah ini. Banyak program perangkat lunak Rasch dapat
digunakan. Winsteps, misalnya, perangkat lunak Rasch yang paling banyak
digunakan, mudah digunakan, dan pembuat program memberikan panduan dan bantuan
kepada pengguna.
2) Menggunakan Peta Rasch Wright untuk
Mengevaluasi Kekuatan dan Kelemahan Instrumen
Untuk
lebih memahami kekuatan analisis Rasch untuk pengembangan dan peningkatan
instrumen, kami sekarang mempertimbangkan peta Wright, yang dinamai untuk
menghormati Benjamin Wright dari Universitas Chicago, yang bekerja sama dengan
Georg Rasch. Peta Wright memanfaatkan fakta bahwa kesulitan item tes dapat
dihitung, dan kesulitan item tes tersebut diekspresikan dengan menggunakan
skala linier yang sama yang digunakan untuk mengekspresikan kinerja siswa atau ukuran
orang. Dalam kasus tes, peta Wright memungkinkan peneliti untuk mengevaluasi
seberapa baik item tes mendefinisikan variabel. Peta Wright juga memungkinkan
peneliti untuk membandingkan urutan kesulitan item yang diprediksi dengan
urutan kesulitan item yang sebenarnya dalam kumpulan data. Perbandingan tersebut
memfasilitasi penilaian validitas konstruk dengan memberikan bukti bahwa
instrumen tersebut mengukur dengan cara yang sesuai dengan hal yang diprediksi
oleh teori. Peta Wright bersifat terbuka, banyak jalan bagi peneliti untuk
mengevaluasi simpulan yang dapat dibuat dengan percaya diri melalui penggunaan
instrumen. Saya akan memberikan gambaran umum tentang teknik analisis Rasch
yang dipilih, yang dijelaskan secara rinci di Analisis Rasch dalam IPA.
Gambar
6 menggambarkan peta Wright yang memplot item dalam instrumen sesuai dengan
urutan kesulitannya. Di sisi kanan peta Wright, 25 item tes disajikan dari yang
paling mudah (item 2, bawah) hingga yang paling sulit (item 30, atas). Item
diplot dalam hal kesulitan item dihitung menggunakan Winsteps dan rumus model
Rasch. Skala “logit” digunakan untuk menyatakan kesulitan item pada skala
linier yang membentang dari tak terhingga negatif hingga tak terhingga positif.
Untuk banyak analisis, kesulitan item akan berkisar dari 3 log hingga +3 log.
Gambar 6 Contoh peta Wright. Peta Wright
dapat memungkinkan peneliti untuk dengan cepat mengidentifikasi kekuatan dan
kelemahan suatu instrumen. Misalnya, apakah beberapa item tes mengukur bagian
variabel yang sama? Apakah ada bagian dari variabel yang diuji yang hilang item
tes? Menyelidiki lokasi dan distribusi item tes pada peta Wright mirip dengan
meninjau tanda yang ditempatkan pada tongkat meteran.
Peneliti
sekarang harus meninjau urutan item tes di sepanjang variabel dan membandingkan
urutan item yang diprediksi dengan urutan item yang diamati. Jika urutannya
cocok dengan apa yang diprediksi dari teori, bukti kuat diberikan bahwa
peneliti memiliki konsep yang baik tentang apa yang diukur. Jika pola kesulitan
item menunjukkan beberapa perbedaan besar dari prediksi, maka peneliti harus
berhenti dan mempertimbangkan mengapa perbedaan itu terjadi. Apakah ada sesuatu
tentang teori yang perlu direvisi?
Selanjutnya,
peneliti dapat mengevaluasi seberapa baik 25 item menandai tongkat meteran.
Apakah ada celah di lokasi tanda? Jika dua siswa harus jatuh di celah (yaitu,
antara nilai), peneliti tidak akan dapat membedakan siswa. Apakah ada lokasi di
mana banyak tanda berada di lokasi yang sama dari tongkat meteran? Memiliki
item tes menandai lokasi yang sama dari tongkat meteran, pada dasarnya,
membuang-buang nilai. Lebih baik untuk menghapus salah satu item tes dan
mempersingkat tes. Item dapat dihapus dan diganti dengan item baru yang mengisi
celah. Di dalam Gambar 6, pembaca dapat mengamati distribusi item yang baik
dari yang paling mudah hingga yang paling sulit. Namun, beberapa tanda terletak
di tempat yang sama atau berdekatan (misalnya, item 31 dan 36). Juga, beberapa
bagian dari meteran tongkat kami kosong dan perlu tanda (misalnya, antara item
17 dan 18 dan item 7).
Peta
Wright juga berharga karena menunjukkan plot tidak hanya item tetapi juga
responden. Di sisi kiri atau "orang" dari peta Wright, "X"
digunakan untuk memplot masing-masing dari 75 peserta tes. Semakin tinggi
ukuran orang, semakin baik kinerja tes. Semakin rendah ukuran orang, semakin
buruk kinerja tes. Enam orang (enam "X" di baris atas) yang memiliki
ukuran seseorang sedikit di bawah 2,0 log adalah peserta tes dengan kinerja
tertinggi untuk ukuran ini. Analisis ukuran orang Rasch memberi peneliti alat
untuk mengevaluasi kualitas instrumen mereka. Misalnya, apakah urutan ukuran
orang masuk akal? Dengan kata lain, apakah siswa-siswa yang peneliti harapkan berkinerja
tinggi memang berkinerja tinggi? Apakah siswa yang diprediksi berkinerja rendah
memang berkinerja rendah?
Akhirnya,
karena peta Wright memberikan ukuran orang dan ukuran item pada skala linier
yang sama, peneliti dapat menentukan seberapa baik item tes didistribusikan
sehubungan dengan tingkat kemampuan peserta tes. Sebuah teknik untuk mencapai
ini adalah untuk mengevaluasi seberapa dekat ukuran item rata-rata
("M" di sisi kanan peta Wright) dari ukuran orang rata-rata
("M" di sisi kiri peta Wright). Untuk kumpulan data ini, item
rata-rata dan orang rata-rata sangat dekat satu sama lain. Pengaturan ini
menyarankan penargetan item uji yang baik. Juga, ini berarti bahwa kisaran item
tes yang disajikan kepada siswa sesuai untuk kelompok responden ini. Dengan
kata lain, butir soal tidak terlalu sulit atau terlalu mudah bagi siswa.
3) Strategi Rasch Tambahan untuk
Mengevaluasi Kualitas Instrumen
Sejumlah
langkah Rasch tambahan dapat diambil untuk mengevaluasi kualitas instrumen
pengukuran. Salah satu tekniknya adalah mengevaluasi "kecocokan" item
dengan model Rasch. Salah satu cara untuk mempertimbangkan topik kecocokan
adalah bahwa item pada akhir bagian variabel yang lebih sulit harus lebih sulit
untuk dijawab dengan benar daripada item pada akhir bagian variabel yang mudah.
Ini harus benar untuk semua siswa yang menjawab satu set item terlepas dari
tingkat kemampuan mereka. Jika item tidak sesuai dengan model, mereka dapat
mengukur lebih dari satu variabel. Sangat penting untuk mengidentifikasi dan
mungkin menghapus item tersebut, karena tujuan instrumen seharusnya hanya
mengukur bagian yang berbeda dari satu variabel. Dalam analisis Rasch,
identifikasi item yang tidak berkontribusi pada pengukuran yang berguna dapat
dicapai dengan meninjau statistik “fit” (misalnya, Item Outfit MNSQ, Item Infit
MNSQ) untuk setiap item tes. Jika suatu item tidak sesuai dengan jelas,
seringkali yang terbaik adalah menghapus item dari pengujian dan menggantinya
dengan item baru. Sebuah item mungkin tidak sesuai karena sulit untuk sampel
siswa tetapi secara tidak terduga dijawab dengan benar oleh sejumlah siswa yang
berkinerja buruk. Suatu item mungkin tidak sesuai karena merupakan item mudah
yang secara tidak terduga dijawab salah oleh siswa yang berprestasi tinggi.
Aturan praktis yang umum digunakan adalah mengevaluasi statistik Outfit MNSQ
untuk setiap item untuk menentukan apakah melebihi 1,3. Jika demikian, item
tersebut mungkin tidak sesuai dengan model Rasch dan mungkin beroperasi dengan
cara yang tidak berguna untuk pengukuran.
Teknik
lain untuk mengevaluasi kualitas instrumen adalah dengan meninjau statistik
kesesuaian orang untuk menandai responden yang menunjukkan pola jawaban yang
tidak biasa. Misalnya, pola mungkin menunjukkan bahwa seorang siswa
berkonsentrasi untuk jangka waktu tertentu dan kemudian tidak berkonsentrasi.
Pola dapat dideteksi yang menyarankan siswa menebak-nebak ketika mengambil tes.
Poin penting adalah bahwa peneliti yang baru pertama kali belajar tentang Rasch
harus menyadari sejumlah langkah pengendalian kualitas data yang diambil untuk
mengevaluasi konsistensi jawaban siswa. Misalnya, jika siswa menunjukkan pola
jawaban yang tidak biasa, siswa tersebut mungkin tidak dimasukkan dalam analisis.
E) Mengembangkan Formulir Uji Yang Berbeda
Karena
teknik Rasch dibangun di atas tujuan mengukur variabel tunggal, peneliti dapat
membangun berbagai bentuk tes. Karena itu, tanggapan tes dapat dinyatakan dalam
skala tunggal yang tidak bergantung pada formulir tes yang diisi. Misalnya, tes
25 item dapat dibuat untuk tengah semester ganjil, tes 25 item dengan banyak
item baru dapat dibuat untuk penilaian akhir semester untuk kelompok siswa yang
sama, dan kinerja siswa pada dua tes dapat dibandingkan dengan percaya diri. Untuk
memahami masalah ini, pertimbangkan tiga bentuk tes IPA 25 item, Formulir A, B,
dan C. Formulir A diberikan pada tengah semester ganjil, formulir B diberikan
pada akhir semester, dan formulir C dikelola di tengah semester genap. Untuk mengukur
perubahan pengetahuan siswa dari waktu ke waktu, ketiga bentuk tersebut harus
sama sulitnya. Jika tidak, akan terlihat bahwa perubahan siswa lebih besar,
atau lebih kecil, dari yang sebenarnya.
Pertama,
hampir tidak mungkin untuk mengembangkan bentuk tes yang menunjukkan kesulitan
yang sama. Kedua, jika siswa sedang belajar, disarankan untuk menyajikan item
yang lebih sulit pada setiap bentuk tes berikutnya. Dengan menggunakan teknik
Rasch, peneliti dapat mengembangkan bentuk tes dengan campuran item yang
berbeda dan mengekspresikan semua bentuk pada skala yang sama. Mengembangkan
tiga bentuk tes menggunakan Rasch membutuhkan penggunaan “jangkar item”.
Jangkar item adalah item umum yang disajikan di seluruh formulir dan berfungsi
sebagai titik referensi, sehingga kinerja siswa dapat diekspresikan pada skala
tunggal terlepas dari formulir tes yang diselesaikan. Gambar 7 menyajikan skema
yang menampilkan campuran item tes untuk tiga bentuk yang dihubungkan melalui
jangkar item. Meskipun setiap formulir tes mencakup campuran item yang berbeda,
menghubungkan skala pengukuran melalui item umum memungkinkan untuk
mengekspresikan kinerja peserta tes pada skala pengukuran yang sama. Hal ini
mencegah perbedaan dalam kesulitan bentuk tes mempengaruhi interpretasi
perbedaan hasil siswa. Cara sederhana untuk menghubungkan atau mengaitkan tiga
tes dengan empat item umum ke skala yang sama adalah dengan terlebih dahulu
melakukan analisis Rasch dengan data dari formulir tes A. Ketika data formulir
tes B dikumpulkan dan dianalisis, jangkar empat item yang umum untuk nilai
kesukaran butir soal dihitung melalui analisis data tes bentuk A. Hal ini
memungkinkan tanggapan dari bentuk B diukur pada skala yang sama dengan
tanggapan untuk bentuk A.
Gambar 7 Beberapa bentuk tes. Contoh
bagaimana jangkar item dapat digunakan untuk menghubungkan skala pengukuran
dari berbagai bentuk tes. Empat item (4, 5, 6, dan 7) yang umum untuk bentuk A
dan B, memungkinkan dua skala untuk dihubungkan. Empat item (18, 19, 20, dan
21) umum untuk formulir B dan C, memungkinkan semua peserta tes (terlepas dari
formulir yang diisi) untuk diekspresikan pada skala yang sama.
F) Komunikasi Temuan Penelitian
Poin
terakhir yang harus dibuat bagi mereka yang mempertimbangkan untuk menggunakan
pengukuran Rasch adalah bahwa analisis Rasch memungkinkan peneliti untuk
menjelaskan arti pengukuran seseorang menggunakan lanskap yang ditentukan oleh
item tes. Penggunaan analisis Rasch memungkinkan bagi setiap orang untuk
mengukur (misalnya, seberapa baik Isabella melakukan tes) untuk menentukan item
mana yang dapat diprediksi bahwa Isabella menjawab dengan benar dan item mana
yang dapat diprediksi bahwa Isabella tidak menjawab dengan benar. Di bawah ini
adalah pengantar singkat tentang cara peta Wright saat ini digunakan untuk
menggambarkan arti kinerja peserta tes.
Gambar
8 menyediakan peta Wright dengan lokasi 10 item dan lokasi ukuran rata-rata
orang pada titik waktu tes pra-pembelajaran (misalnya, awal semester) dan titik
waktu tes pasca-pembelajaran (misalnya, akhir semester). Mengingat sifat
matematika dari rumus Rasch, seorang peneliti dapat memperpanjang garis
horizontal untuk ukuran rata-rata sebelum dan sesudah. Untuk hasil yang
disajikan di sini, butir-butir di bawah garis rata-rata pra adalah butir-butir
yang memiliki peluang lebih besar dari 62% dari rata-rata orang menyelesaikan
soal pra-pembelajaran dengan benar. Butir-butir di atas garis pra adalah
butir-butir yang peluangnya kurang dari 62% dari orang biasa menyelesaikan soal
pra-pembelajaran dengan benar. Dengan demikian, butir-butir di bawah baris awal
adalah butir-butir yang peneliti dapat yakini bahwa siswa biasa akan menjawab soal
pra-pembelajaran dengan benar, dan butir-butir di atas adalah butir-butir yang siswa
biasa akan salah menjawabnya. Ini berarti bahwa seorang peneliti dapat
menghitung ukuran awal untuk sekelompok responden dan menjelaskan apa arti dari
ukuran kelompok.
Gambar 8 Membuat inferensi menggunakan peta
Wright. Peta Wright memungkinkan peneliti untuk menjelaskan makna pertumbuhan
yang diamati dari pra hingga pasca. Item yang berada di antara baris sebelum
dan sesudah membantu menggambarkan pertumbuhan.
Sekarang
tinjau lokasi pengukuran grup pasca-pembelajaran. Butir-butir yang berada di
bawah ukuran kelompok rata-rata (menandai rata-rata ukuran siswa pasca-pembelajaran)
adalah butir-butir yang peneliti prediksikan untuk dijawab dengan benar oleh
siswa biasa pada pasca-pembelajaran. Butir-butir di atas garis rata-rata adalah
butir-butir yang peneliti akan prediksikan bahwa siswa biasa tidak menjawab
dengan benar. Sekarang mari kita bayangkan bahwa seorang peneliti melakukan uji
statistik membandingkan ukuran rata-rata kelompok pra dengan ukuran rata-rata
kelompok pasca, dan peneliti menentukan perbedaan yang signifikan secara
statistik dengan ukuran efek yang besar. Peneliti sekarang dapat menjelaskan
arti dari perubahan respon siswa dari pra ke pasca. Makna dari perubahan
tersebut dapat digambarkan dengan item-item yang rata-rata siswa tidak dapat
menjawab dengan benar sebelum pembelajaran, tetapi rata-rata siswa dapat
menjawab dengan benar item-item tersebut setelah pembelajaran. Ini adalah item
yang terletak di antara ukuran rata-rata siswa pada pra dan ukuran rata-rata siswa
pada pasca pembelajaran.
G) Kesimpulan
Teknik
rasch sangat mempengaruhi cara penelitian ilmu sosial menggunakan tes dan
survei. Kerangka Rasch menawarkan prosedur untuk membangun dan merevisi
instrumen pengukuran ilmu sosial dan mendokumentasikan sifat pengukuran
instrumen (misalnya, reliabilitas dan validitas konstruk). Teknik rasch juga
memungkinkan peneliti untuk membuat koreksi kritis saat menggunakan data skor
tes mentah atau data survei. Secara khusus, teknik Rasch memungkinkan data
mentah nonlinier dikonversi ke skala linier, yang kemudian dapat dievaluasi
melalui penggunaan uji statistik parametrik. Selain contoh yang diberikan
sebelumnya, ada langkah-langkah Rasch yang dapat digunakan untuk menyelidiki
masalah instrumentasi penting lainnya (misalnya, urutan langkah/pengaturan
langkah, keandalan item, keandalan orang, fungsi item diferensial, dan fungsi
tes diferensial).
Salah
satu aspek yang paling kuat dari pengukuran Rasch adalah bahwa teknik ini
memungkinkan makna pengukuran siswa dan makna pengukuran kelompok dijelaskan
dengan menggunakan konteks item instrumen. Untuk tes, jika sekelompok siswa
meningkat dari pra ke pasca, peneliti dapat menjelaskan arti dari perubahan
tersebut. Bagi mereka yang tertarik untuk mempelajari lebih lanjut tentang
teknik Rasch, Rasch Analysis in the Human Sciences adalah buku awal yang
bagus. Buku lain yang lebih awal diterbitkan termasuk Best Test Design, Rating
Scale Analysis, dan Applying the Rasch Model: Fundamental Measurement in
the Human Sciences. Banyak peneliti pendidikan biologi, antara lain Fenny
Roshayanti, telah menggunakan teknik Rasch dan dapat menjadi panutan melakukan ini.