Korelasi Biserial

Sehubungan dengan banyaknya permintaan bahasan mengenai korelasi biserial, maka akan diulas sedikit di Statistik 4 Life berikut ini.

Korelasi biserial merupakan alat yang paling sering digunakan dalam dunia pendidikan, dimana korelasi ini melihat hubungan antara skor atau hasil jawaban pada masing-masing item pertanyaan yang diberikan dalam tes. Korelasi biserial efektif diberikan pada tipe tes multiple choice atau pilihan berganda tetapi bisa juga untuk tipe tes lainnya. Hasilnya para pendidik dapat mengetahui karaktristik siswa dalam memberikan jawaban terhadap soal tes yang kita berikan.

Korelasi biserial dapat digunakan untuk melihat fenomena dalam pola jawaban siswa, seringkali pengajar dihadapkan pada kenyataan bahwa siswa tertentu akan memberikan jawaban yang benar terhadap pertanyaan yang sulit dan sebaliknya pada pertanyaan mudah ia akan memberikan jawaban yang salah. Sah-sah aja seh, nebak kali ya jawabnya, penulis aja neh klo ujian suka nebak juga..heheheh.

Seperti halnya pada pengujian korelasi tentunya kita mengenal istilah koefisien korelasi dan nilai signifikansi atau p-value. Prinsipnya sama saja, pada korelasi biserial nilai koefisien yang besar dan positif akan mengindikasikan bahwa siswa dapat menjawab dengan baik item pertanyaan tersebut, sebaliknya poin biserial yang kecil mengindikasikan bahwa item pertanyaan tidak dapat dijawab dengan baik oleh siswa.

Untuk mempersingkat waktu (heheh..kaya hajatan aja, sambutannya dibawain pa lurah…) mari kita lihat ilustrasi berikut ini:

Berikut ini adalah hasil tes siswa di Sekolah Dasar “MARI BERDENDANG” yang akreditasinya ga keluar-keluar (hehe, ngapain aja ya tu sekolahan) yang diberikan dengan data matriks untuk 11 item pertanyaan dan 30 siswa yang mengikuti ulangan. Nilai “1” diberikan untuk siswa yang menjawab benar, dan nilai “0” diberikan untuk siswa yang menjawab salah.

Dari matriks di atas kita ketahui bahwa siswa B dan F menjawab dengan benar semua item pertanyaan kecuali untuk item nomor 8, sedangkan siswa J hanya menjawab 2 pertanyaan dengan benar yaitu item nomor 1 dan 4, dan seterusnya. Kemudian kita akan menghitung poin biserial untuk masing-masing item. Dalam bahasan ini kita akan menggunakan bantuan perangkat lunak excell.

Setelah data tersedia dalam jendela excell, kita akan totalkan menurut item (ke bawah) maupun menurut siswa (ke samping) dengan fungsi SUM,

Dari tabel dapat kita lihat bahwa total pada item pertanyaan 1 yang mengindikasikan jumlah jawaban benar adalah 9, sedangkan total jawaban benar yang dijawab oleh siswa A adalah 6, dan seterusnya.

Kemudian berikutnya total skor siswa dikurangi dengan skor masing-masing siswa pada setiap kolom item pertanyaan, maka didapat hasil sebagai berikut:

langkah kemudian adalah mengkorelasikan setiap skor tersebut per item pertanyaan terhadap data skor awal masing-masing jawaban tadi dengan fungsi correl pada excell, skor pada item pertanyaan 1 kita korelasikan untuk semua siswa seperti berikut:

untuk yang belum jelas menggunakan fungsi correl dalam excel, ketik sama dengan di salah satu sell kemudian pada sisi kiri atas jendela excel (pada kotak formula pilih correl function).

setelah kita korelasikan maka akan ditampilkan hasil koefisien korelasi berikut ini:

Sedangkan untuk menghitung p-value adalah dengan membagi total skor per item terhadap total skor per siswa, misalnya untuk p-value item A dapat dilakukan dengan membagi total skor item A terhadap jumlah anak yang mengikuti tes (9/10), seperti berikut ini:

dengan demikian nilai signifikansi yang kita peroleh adalah sebagai berikut:

maka kita dapatkan hasil selengkapnya seperti berikut:

Dari hasil korelasi di atas, nilai p-value biasanya mengindikasikan tingkat kesulitan item pertanyaan sedangkan nilai biserial mengindikasikan kualitan item/tes yang diberikan atau biasa diketahui sebagai indicator item pertanyaan yang bermasalah.

Nilai negatif pada item 4, 8, dan 10 menunjukkan bahwa item-item tersebut kemungkinan bermasalah atau kurang sesuai terhadap tujuan dari tes yang dilakukan. Selain itu item nomor 6 dan 8 juga menunjukkan nilai biserial rendah juga mengindikasikan terdapat permasalahan pada item pertanyaan tersebut, tentunya pendidik akan mengkaji kesesuaian item-item ini terhadap tujuan tes yang dilakukan.

Sedangkan pada item nomor 5 menunjukkan nilai biserial tertinggi dan nilai p-value yang relatif tinggi mengindikasikan bahwa item pertanyaan dapat dijawab secara baik dan cukup merata oleh siswa karena nilai keduanya tidak terpaut jauh, 0,72 dan 0,7. Ini ditunjukkan dengan jumlah siswa yang menjawab benar sama dengan jumlah siswa yang menjawab salah, ini menunjukkan item yang tidak mengandung masalah.

Item nomor 2 merupakan pertanyaan yang paling banyak dijawab salah oleh siswa, hanya dijawab benar oleh 5 siswa, sedangkan 6 siswa menjawab salah. Hal ini sesuai dengan kriteria statistik karena item nomor 2 memiliki nilai p-value terendah 0,5, jika item ini memiliki nilai p-value yang tinggi, maka kita dapat saja menyimpulkan bahwa siswa hanya menebak-nebak jawaban.

Nilai biserial dan signifikansi yang relatif tinggi secara berturut-turut adalah item nomor 5, 3, 2, 9, dan 2 menunjukkan kualitas item pertanyaan yang baik dan tingkat kesulitan yang baik.(yoz)

Model Autoregresif (AR)

Kita hidup dalam dunia yang selalu berputar, dan waktu yang kita lewati setiap hari tanpa kita sadari ga akan bisa terulang kembali. Tukang sayur, tukang somay, pemain saham, pemerintah, wiraswasta, maupun para peneliti selalu berlomba dengan waktu untuk mengejar makna dalam hidup (ini mau bahas apa ya??soal hidup dan waktu melulu…heheheh), kita mau bahas time series lagi neh…

Pernah suatu waktu saya berkunjung ke seorang teman petani tanaman hias di daerah sawangan depok yang tertarik untuk melihat variabel apa saja yang paling tepat untuk memprediksi penjualan tanaman hias produksinya. Dalam hal ini saya tertarik untuk membantunya mencari prediktor penjualan yang paling tepat untuk meramalkan penjualannya.

Kemudian saya memintanya untuk mengumpulkan data penjualan per minggu, kunjungan ke websitenya setiap minggu, event yang diikuti dalam sebulan seperti pameran, atau kegiatan terkait (dikonversi ke dalam minggu), dan jumlah kunjungan (arrival) ke gerai/nursery tanaman hiasnya setiap minggu. Kemudian didapatlah data seperti berikut:

Kemudian selama 30 minggu data yang diberikan adalah sebagai berikut:

Dimana:

Y         = sales (pot per minggu)

X1       = kunjungan website (per minggu)

X2       = event yang diikuti (per minggu)

X3       = kunjungan ke gerai (per minggu)

Dengan data yang tersedia kita akan mencoba menggunakan regresi linier berganda dengan SPSS.

Regresi linier berganda dapat dilakukan pada menu analyze-regression-linear pada jendela SPSS (jika anda belum jelas mengenai analisis regresi linier berganda anda dapat melihatnya di bab sebelumnya disini>>> )

Setelah dijalankan, hasilnya akan seperti ini:


Dari nilai statistik Durbin Watson sebesar 1,350 kita ketahui bahwa model tidak mengandung masalah autokorelasi. Jika belum jelas anda dapat melihat penjelasannya dalam bahasan mengenai masalah autokorelasi pada bab sebelumnya disini>>>.

Hasil regresi di atas menunjukkan bahwa tidak ada satupun prediktor yang digunakan signifikan mempengaruhi sales tanaman hias karena nilai signifikansinya masih lebih besar dari nilai kritik 0,05.

grafik residual di atas menunjukkan bahwa distribusi residual data bersifat normal, karena nilai residual terletak dekat dengan garis diagonal antara axis dan ordinat. Jika belum jelas mengenai konsep normalitas, anda dapat melihatnya di bahasan mengenai uji normalitas disini>>>.

Setelah kita jalankan regresi linier berganda seperti di atas, maka akan kita dapatkan nilai residual pada jendela SPSS, dengan nilai residual tersebut kita akan mengecek kembali stasioneritas data karena pengujian dengan data time series diasumsikan tidak mengandung regresi lancung atau bersifat spurious.

Berikut ini adalah indikasi bahwa data tidak stasioner yang dapat merusak asumsi analisis data time series:

  1. Grafik autokorelasi pada lag pertama berada di luar garis bartlett dan terus menurun sehingga pada lag terakhir akan keluar lagi dari garis bartlett,
  2. Nilai probabilitas dari lag pertama hingga terakhir akan mendekati nol dan lebih kecil dari nilai kritik α=0,05.

Uji stasioneritas data juga dapat dilakukan dengan uji akar unit, selanjutnya dapat anda lihat disini>>>.

Adapun prosedur menjalankan uji autokorelasi dapat dijalankan dengan SPSS sebagai berikut:

1. Setelah melakukan analisis regresi linier berganda (dengan tidak lupa untuk save residual) maka kita akan mendapatkan nilai residual pada kolom paling akhir di jendela SPSS kita seperti berikut:

nah, data residual tersebut akan kita gunakan untuk melakukan uji autokorelasi dan autokorelasi parsial.

2. Pada menu kita pilih analyze-forecasting-autocorrelation seperti berikut ini:

3. Kemudian pada kotak dialog autocorrelation kita masukkan variabel residual tadi yang disini dinamakan res_1 seperti gambar di bawah, lalu checklist autocorrelation dan partial autocorrelation, kemudian klik OK,

Output yang didapatkan setelah kita melakukan uji stasioneritas adalah sebagai berikut:

Dari output autokorelasi baik pada lag pertama maupun lag ke-16 tidak keluar dari garis bartlett.

Pada grafik autokorelasi parsial juga baik pada lag pertama hingga ke-16 tidak keluar dari garis bartlett, dengan demikian dapat kita simpulkan bahwa data sudah stasioner sehingga layak untuk dilakukan pengujian time series. Hal ini juga ditegaskan dengan hasil pengujian autokorelasi Durbin-Watson yang menjelaskan bahwa model tidak mengandung masalah autokorelasi.

Model autoregresif dapat ditulis sebagai berikut:

Yt = β0 + β1X1t-1 + β2X2t-1 + β3X3t-1 + et

Dimana:

Yt        = variabel dependen pada waktu t

β          = konstanta

X1t-1     = kunjungan website pada minggu sebelumnya

X2t-1       = event yang diikuti pada minggu sebelumnya

X3t-1     = kunjungan gerai pada minggu sebelumnya

Model autoregresif atau yang biasa disebut dengan AR mengidentifikasi bahwa suatu kejadian tidak selalu dipengaruhi faktor-faktor yang terjadi pada waktu yang sama, tetapi juga pada waktu sebelumnya yang kita kenal dengan lag. Model sales tanaman hias yang kita jalankan tidak memberikan prediktor yang baik dengan nilai koefisien masing-masing variabel yang tidak signifikan, karena itu model autoregresif diharapkan dapat memperbaikinya. Untuk mencari prediktor yang paling signifikan, kita akan menggunakan data variabel-variabel pada minggu sebelumnya, atau dengan kata lain lag dari variabel prediktor yang kita gunakan. Oleh karena itu data yang kita gunakan akan kita rubah ke dalam bentuk AR(1) atau lag data 1 minggu sebelumnya, untuk ilustrasi kita akan lihat tabel di bawah ini:

Dengan SPSS 17 kita dapat membuat data lag melalui menu transform-create time series seperti berikut,

Setelah muncul kotak dialog create time series, pndahkan variabel ke kolom sebelah kanan, dan pilih lag pada function, order kita isikan 1 menandakan autoregresi (1) atau AR(1),

Kemudian outputnya dapat kita lihat pada kolom paling ujung jendela SPSS kita, nah variabel autoregresif tingkat pertama telah kita dapatkan.


Setelah itu kita dapat running regresi linier dengan data sales dan lag ketiga variabel tadi dengan menu analyze-regression-linear, sehingga didapatkan output sebagai berikut:

Dari hasil analisis dapat kita simpulkan bahwa prediktor yang palig tepat untuk meramalkan penjualan adalah kunjungan website pada minggu kemarin (lag_X1) dengan kunjungan ke gerai/nursery pada minggu sebelumnya (lag_X3) dengan nilai signifikansi kurang dari 0,05.

pada kesempatan lain kita akan membahas penggabungan antara model Autoregresif dengan Moving Average atau yang kita kenal dengan ARIMA, dan satu lagi yang tidak kalah menarik yaitu materi tentang interupted time series dengan ARIMA.(yoz)

 

Cross Tabulation (Crosstab)

Dalam penelitian sosial ekonomi, kita akan seringkali menemukan data kategorik daripada data interval. Data ini biasanya dapat disajikan dalam 2 bentuk, dalam bentuk list atau table. Jika kita ingin melihat hubungan antara pekerjaan yang terdiri dari karyawan swasta (0), pegawai negeri (1), usaha sendiri (2) terhadap jenis kelamin (0=pria; 1=wanita) di sebuah kota “Y”, maka data yang disajikan dapat berbentuk sebagai berikut:

Atau dalam bentuk tabel sebagai berikut:

Ketika data telah dikonversi dalam bentuk table 2×3 seperti di atas, kita akan lebih mudah menginterpretasikannya, karena dapat langsung kita tarik kesimpulan jumlah pria atau wanita yang berprofesi sebagai karyawan swasta, pegawai negeri ataupun usaha sendiri. Misalnya di kota “Y” kita ketahui bahwa pria yang bekerja sebagai karyawan swasta berjumlah 6 orang, begitu pula wanita yang berprofesi sebagai pegawai negeri berjumlah 4 orang. Tabel yang sama juga dapat kita buat untuk 2×2, 2×4, 3×4 dan seterusnya.

Masalahnya adalah ketika data yang kita miliki berjumlah banyak, tentunya akan sulit untuk berhitung manual karena dengan jumlah data yang banyak maka tingkat kesalahan akan tinggi. SPSS juga menyediakan fasilitas konversi data dalam bentuk list ke bentuk table melalui menu descriptive – crosstab (tabulasi silang). Menu crosstab pada SPSS dapat digunakan untuk menghitung kasus-kasus yang melibatkan banyak variabel dan kombinasi nilai antar variabel yang berbeda.

Tahapan menjalankan crosstab dengan SPSS adalah dengan memilih analyze-descriptive-crosstab seperti berikut ini:

Kemudian pada kotak dialog crosstab, pindahkan masing-masing variabel ke kolom factor list atau dependent list;

Output:

Dengan sajian output tersebut data yang terdiri atas banyak kasus dan variabel akan lebih mudah diterjemahkan serta dilihat hubungannya dalam satu kesatuan (yoz).

Model Holt-Winters

Seringkali data time series menunjukkan gejala musiman. Musiman mengacu pada kecenderungan data time series menunjukkan gejala berulang pada setiap periode waktu tertentu atau pada setiap periode T. Sebagai contoh, harga daging sapi akan melonjak tinggi pada musim lebaran, atau harga cabe akan membumbung tinggi setiap bulan Desember. Pola ini akan terus berulang setiap tahunnya. Akan tetapi nilai kenaikan tersebut akan berubah secara relatif dari tahun ke tahun, walaupun tetap dengan pola yang sama.

Model Holt-Winters digunakan untuk memodelkan data dengan pola musiman, baik mengandung trend maupun tidak. Titik berat metode ini adalah pada nilai ramalan (α), kemiringan slope (β), maupun efek musiman (γ).

Ilustrasi berikut ini akan membandingkan nilai aktual dengan nilai peramalan pada metode Holt-Winters pada data pendapatan dari perusahaan supplier sayuran HIS FARM periode tahun 1990 hingga 2006: Untuk menghitung nilai estimasi peramalan, maka kita perlu mengestimasi terlebih dahulu nilai tingkat pemulusan dan nilai trend dalam model Holt-Winters, dengan model sebagai berikut:

Dimana:
Ei     = tingkat pemulusan pada periode i
Ei-1 = tingkat pemulusan pada periode i-1
Ti     = nilai komponen trend pada periode i
Ti-1 = nilai komponen trend pada periode i-1
Yi    = nilai yang diketahui pada periode i
U     = konstanta pemulusan (0<b1<1)
V     = konstanta pemulusan (0<b1<1)

Data yang diberikan adalah:

Selanjutnya kita akan membandingkan nilai aktual pendapatan dengan peramalan dengan menggunakan model Holt-Winters. Dengan menggunakan konstanta pemulusan sebesar 0,5 maka perhitungan pendapatan dapat dilakukan sebagai berikut:

Y2 = 15
Maka, Yt = Y2 – Y1 = 15 – 13 = 2

Sehingga:

Ei = (0,5)(Ei-1 + Ti-1) + (1 – 0,5)Yi

dan

Ti = (0,5)(Ti-1) + (1 – 0,5)(Ei – Ei-1)

Kemudian anda dapat mencoba untuk membandingkan nilai estimasi pada tahun-tahun selanjutnya. Setelah itu anda dapat melihat perbandingannya melalui grafik.

Maka:

 

Terdapat dua jenis model Holt-Winters antara lain :

1. Aditive Holt-Winters
Model ini dapat diterapkan ketika time series mengandung komponen musiman (seasonal). Metode ini mengasumsikan bahwa time series tersusun dari siklus trend dan musiman linier, yang tersusun dari tiga rangkaian proses statistik yang terkorelasi (pemulusan, trend, dan musiman) dan memproyeksikan trend serta komponen musiman ke depan.
Pada model ini kita asumsikan bahwa data time series direpresentasikan dengan model:

yt = b1 + b2t + St + εt

Dimana:
b1 merupakan komponen dasar/konstanta (0<b1<1)
b2 adalah komponen trend linier
St adalah faktor multiplikatif musiman
εt adalah komponen error acak
Jika lama dari faktor musiman adalah T periode
Faktor musiman akan digambarkan sebagai jumlah dari rentang musim, seperti:

2. Multiplicative Holt-Winters
Metode ini dapat diterapkan pada data time series musiman sama halnya dengan additive, tetapi pada model ini diasumsikan bahwa komponen-komponen time series (pemulusan data, trend, dan musiman), dikalikan satu sama lain sehingga menghasilkan data time series yang lebih aktif. Model yang digunakan adalah:

yt = (b1 +b2t) St + εt

dimana :
b1 merupakan komponen dasar/konstanta (0<b1<1)
b2 adalah komponen trend linier
St adalah faktor multiplikatif musiman
εt adalah komponen error acak
Jika lama dari faktor musiman adalah T periode
Faktor musiman akan digambarkan sebagai jumlah dari rentang musim, seperti:

Prosedur dalam mengestimasikan model parameter additive dan multiplicative Holt-Winters adalah:
1. Pemulusan secara keseluruhan
2. Pemulusan faktor trend
3. Pemulusan faktor indeks musiman

Pembahasan mengenai model Holt-Winters dengan software baik additive maupun multiplicative akan dilanjutkan pada bahasan selanjutnya.

 

Multidimensional Scaling

Tujuan dari multidimensional scaling (MDS) adalah untuk memberikan gambaran visual dari pola kedekatan yang berupa kesamaan atau jarak diantara sekumpulan objek-objek. Penerapan MDS dapat dijumpai pada visualisasi ilmiah dan data mining dalam ilmu kognitif, informasi, pemasaran maupun ekologi.

Misalnya ketika konsumen  potensial diminta untuk membandingkan produk dan melakukan penilaian mengenai kesamaan produk tersebut. MDS dapat menunjukkan dimensi penilaian dari responden secara langsung ke dalam pola visualisasi kedekatan mengenai kesamaan produk, berbeda dengan analisis faktor atau diskriminan yang melibatkan penilaian dari si peneliti. Karena keunggulan inilah MDS merupakan suatu alat yang paling umum digunakan dalam pemetaan perceptual (perceptual mapping).

MDS sangat popular dalam penelitian bidang pemasaran untuk perbandingan brand, dan pada psikologi ia digunakan untuk mempelajari dimensi ciri-ciri pribadi. Penggunaan lain MDS adalah pada aplikasi yang menggunakan ranking, rating, pembedaan persepsi, atau dalam pengambilan suara (voting).

Ilustrasi Analisis MDS Berbasis Atribut

Dari survey yang dilakukan terhadap konsumen susu dari beberapa merk, maka dapat diketahui beberapa atribut susu, antara lain: (a) rasa, (b) kekentalan, (c) kandungan gizi, (d) warna, (e) kemasan, (f) kelengkapan informasi pada kemasan, (g) manfaat yang dirasakan, dan (h) kemudahan memperoleh produk.

Pertanyaan yang diajukan adalah:

Bagaimana pendapat anda mengenai produk susu …….. yang anda konsumsi?

Setelah itu kita dapat menyajikan hasil survey tersebut dalam bentuk sebuah tabel seperti berikut ini:

Untuk memetakan data tersebut ke dalam bentuk peta perceptual (perceptual mapping) dengan bantuan software SPSS 17.0 maka dapat dilakukan langkah-langkah sebagai berikut:

1. Input data anda ke dalam worksheet SPSS sebagai berikut:

2. Kemudian pilih pada menu ANALYZE – SCALE – MULTIDIMENSIONAL SCALLING (ALSCAL), seperti berikut ini:

3. Setelah muncul kotak dialog Multidimensional Scaling, masukkan semua variabel ke dalam kotak variables, pada SHAPE, pilih RECTANGULAR, kemudian klik MODEL disamping kanan atas.

4. Setelah muncul kotak dialog Multidimensional Scaling – Model, maka kita dapat memilih pada Level of Measurement INTERVAL (sesuai jenis data), dan pada Conditionality adalah ROW agar perbandingan dilakukan antar row/kolom saja, kemudian klik CONTINUE.

5. Setelah keluar ke kotak dialog pertama, klik OPTION, lalu centang GROUP PLOTS, kemudian klik OK.

6. Outputnya akan ditampilkan sebagai berikut:

Dari output kita dapatkan kedekatan masing-masing atribut (row 1 – row 7) terhadap masing-masing merk susu berdasarkan persepsi konsumen dalam sebuah pemetaan perseptual dua dimensi. (yoz)

Ikuti

Get every new post delivered to your Inbox.