Praktikum Penanganan Data Hilang
Tujuan Praktikum
Setelah menyelesaikan praktikum ini, mahasiswa mampu:
- Mengidentifikasi keberadaan dan pola data hilang (missing data).
- Menjelaskan dampak data hilang terhadap analisis regresi.
- Menerapkan berbagai teknik penanganan data hilang di R.
- Membandingkan hasil analisis regresi sebelum dan sesudah penanganan data hilang.
- Merefleksikan pilihan teknik imputasi berdasarkan konteks analisis.
Catatan: Pada setiap tahap, lakukan prediksi → eksekusi kode → refleksi.
1. Mengapa Data Hilang Perlu Ditangani?
Data hilang dapat menyebabkan:
- Bias estimasi koefisien regresi,
- Berkurangnya kekuatan statistik,
- Pelanggaran asumsi model.
Pertanyaan Reflektif
- Jika data hilang hanya sedikit, apakah selalu aman untuk menghapusnya? (Hint: Tergantung polanya. Jika hilangnya tidak acak, menghapusnya tetap bisa menyebabkan bias walaupun jumlahnya sedikit.)
- Menurut Anda, bagian analisis regresi mana yang paling terdampak oleh missing data? (Hint: Ukuran sampel yang mengecil akan menurunkan power statistik, sehingga variabel yang sebenarnya signifikan bisa menjadi tidak signifikan, dan estimasi koefisien bisa menjadi bias.)
2. Mengecek dan Mengeksplorasi Data Hilang
Gunakan dataset bawaan airquality.
2.1 Menghitung Data Hilang
2.2 Visualisasi Data Hilang
Pertanyaan Reflektif
- Variabel mana yang paling banyak memiliki data hilang? (Hint: Biasanya terlihat jelas pada visualisasi naniar, misal Ozone dan Solar.R.)
- Apakah pola data hilang terlihat acak atau terstruktur? (Hint: Coba perhatikan apakah kombinasi missing value antarkolom sering terjadi bersamaan atau tidak.)
3. Menghapus Data Hilang
3.1 Menghapus Baris dengan Data Hilang
Refleksi
- Berapa banyak observasi yang hilang setelah
na.omit()? (Hint: Jumlah baris akan berkurang drastis, misal dari 153 menjadi 111 observasi.) - Dalam konteks regresi, apa risiko utama pendekatan ini? (Hint: Kehilangan banyak data akan sangat mengurangi informasi, power statistik, dan bisa mengubah distribusi model secara artifisial.)
4. Imputasi Sederhana
4.1 Imputasi Mean dan Median
Refleksi
- Apa asumsi implisit saat menggunakan mean/median? (Hint: Asumsinya adalah seluruh observasi yang hilang sangat mirip dengan observasi tipikal (rata-rata), yang mana sering tidak realistis.)
- Variabilitas data bertambah atau berkurang? (Hint: Berkurang. Karena kita memasukkan angka konstan berulang kali, varians data akan mengecil secara semu.)
5. Imputasi Lanjutan
5.1 k-Nearest Neighbors (kNN)
5.2 Multiple Imputation dengan mice
Refleksi
- Apa keunggulan imputasi multivariat dibanding imputasi sederhana? (Hint: Imputasi multivariat memanfaatkan korelasi antar variabel untuk menebak nilai kosong, sehingga struktur interaksi data tetap terjaga.)
- Mengapa
micesering direkomendasikan untuk analisis inferensial? (Hint:micemembuat beberapa versi dataset (multiple) yang kemudian digabungkan, sehingga ketidakpastian (uncertainty) akibat proses tebak-tebakan data ini ikut masuk perhitungan standar error.)
6. Dampak Data Hilang terhadap Analisis Regresi
6.1 Regresi Tanpa Penanganan Data Hilang
6.2 Regresi Setelah na.omit()
6.3 Regresi Setelah Imputasi (mice)
Pertanyaan Reflektif
- Bandingkan koefisien dan R-squared ketiga model. (Hint: R-squared pada model yang diimputasi mean sering kali menurun, tapi R-squared tinggi dari na.omit bisa jadi ilusi karena sampel menjadi homogen.)
- Model mana yang paling masuk akal secara substantif? (Hint: Secara statistik, model dari
miceumumnya paling bisa diandalkan untuk inferensi populasi karena menghindari bias seleksi dan meremehkan standar error.)
7. Mini-Tugas
- Coba bandingkan hasil regresi antara imputasi mean dan kNN.
- Buat tabel ringkas berisi koefisien utama dari setiap model.
- Tuliskan 3–5 kalimat refleksi:
Teknik penanganan data hilang apa yang akan Anda pilih untuk analisis regresi dan mengapa?
8. Penutup: Jurnal Refleksi
Jawab singkat:
- Kesalahan paling fatal apa yang mungkin terjadi jika data hilang diabaikan?
- Apakah selalu ada satu teknik imputasi yang “paling benar”?
- Bagaimana penanganan data hilang berkaitan dengan validitas kesimpulan regresi?
Inti: Bukan sekadar menjalankan fungsi, tetapi menyadari konsekuensi metodologis dari setiap pilihan analisis.