Praktikum Analisis Regresi
Tujuan Praktikum
Setelah praktikum ini, Anda mampu:
- Melakukan eksplorasi awal data untuk kebutuhan regresi (deskriptif & visual).
- Menghitung dan menafsirkan korelasi sebagai indikasi awal hubungan linear.
- Membangun regresi linear sederhana dan berganda dengan
lm(). - Memeriksa asumsi dasar regresi melalui diagnostik residual.
- Mengevaluasi performa model dengan train-test split dan MSE.
- Menulis interpretasi hasil regresi secara ringkas dan tepat.
Rujukan alur praktikum: mengikuti langkah “cara eksplorasi” untuk analisis regresi: persiapan data → eksplorasi → korelasi → model → uji asumsi → validasi → pelaporan.
1. Persiapan Data
Kita gunakan dataset bawaan R: mtcars.
Pertanyaan
- Variabel mana yang paling masuk akal menjadi variabel dependen (Y) jika konteksnya efisiensi kendaraan? (Hint: “mpg” atau Miles Per Gallon, karena ini adalah metrik utama efisiensi bahan bakar.)
- Sebelum menghitung apa pun, menurut Anda hubungan mpg dengan wt (berat) cenderung positif atau negatif? Mengapa? (Hint: Negatif. Semakin berat kendaraan (wt naik), semakin banyak bahan bakar yang dibutuhkan sehingga efisiensi (mpg) menurun.)
2. Eksplorasi Data Awal (Deskriptif & Visual)
2.1 Statistik deskriptif
2.2 Visualisasi dasar
Pertanyaan
- Dari scatter plot, apakah hubungan mpg–wt tampak cukup linear? (Hint: Ya, titik-titik membentuk pola menurun yang relatif lurus membentang dari kiri atas ke kanan bawah.)
- Adakah titik yang terlihat “menyimpang” (calon outlier)? Apa dampaknya pada regresi? (Hint: Outlier adalah titik yang menjauh dari pola bergerombol. Outlier dapat “menarik” garis regresi sehingga kemiringannya menjadi meleset dan kurang akurat.)
3. Analisis Korelasi
3.1 Korelasi antar-variabel (numerik)
3.2 Visualisasi sederhana (heatmap base R)
Pertanyaan
- Variabel apa yang korelasinya paling kuat (positif/negatif) dengan mpg? (Hint: Biasanya variabel wt (berat) dan cyl (jumlah silinder) memiliki korelasi negatif yang sangat kuat dengan mpg.)
- Apakah korelasi kuat selalu berarti hubungan kausal? Jelaskan singkat. (Hint: Tidak. Korelasi hanya menunjukkan adanya hubungan pola angka secara statistik, bukan hubungan sebab-akibat (causation).)
4. Regresi Linear Sederhana
Kita mulai dari model sederhana: mpg ~ wt.
4.1 Interpretasi cepat koefisien
Pertanyaan
- Jika koefisien
wtbernilai negatif, artinya apa (dalam konteks kendaraan)? (Hint: Setiap peningkatan berat kendaraan sebesar 1 satuan (1000 lbs), jarak tempuh per galon bahan bakar (mpg) rata-rata akan berkurang sebesar angka koefisien tersebut.) - Apa perbedaan makna p-value vs R-squared pada output
summary()? (Hint: P-value mengukur apakah kita punya cukup bukti statistik untuk menganggap hubungannya nyata. R-squared mengukur proporsi keragaman (variasi) Y yang bisa dijelaskan oleh model ini.)
5. Regresi Linear Berganda
Tambahkan prediktor lain, misalnya: hp dan cyl.
Pertanyaan
- Apakah
wttetap signifikan setelah menambahkanhpdancyl? Jika berubah, kira-kira kenapa? (Hint: Signifikansi sebuah prediktor bisa merosot saat ditambah prediktor baru jika kedua prediktor itu saling terkait kuat (multikolinearitas), sehingga mereka “berebut” dalam menjelaskan variasi Y.) - Jika R-squared meningkat pada model berganda, apakah itu otomatis berarti model lebih baik? (Hint: Belum tentu. R-squared biasa akan selalu naik bila prediktor ditambah. Parameter Adjusted R-squared lebih jujur menilai apakah tambahan variabel itu benar-benar menguntungkan.)
6. Uji Asumsi Model (Diagnostik Residual)
Gunakan plot diagnostik standar lm().
Cara membaca cepat (panduan ringkas)
- Residuals vs Fitted: cek pola (homoskedastisitas/linearitas).
- Normal Q-Q: cek normalitas residual.
- Scale-Location: cek varians residual konstan.
- Residuals vs Leverage: cek pengaruh titik ekstrem.
Pertanyaan
- Plot mana yang paling “mengkhawatirkan” jika tujuan Anda inferensi (uji hipotesis koefisien)? (Hint: Plot Normal Q-Q, karena penghitungan p-value pada regresi linier standar berasumsi bahwa residual harus berdistribusi normal.)
- Jika residual tidak normal, apakah regresi selalu “tidak boleh dipakai”? Dalam konteks apa masih bisa diterima? (Hint: Tidak mutlak terlarang. Asalkan ukuran sampel sangat besar, Teorema Limit Pusat (CLT) melindungi perhitungan kita. Masalah ini lebih fatal pada sampel kecil.)
7. Penanganan Masalah (Opsional)
Bagian ini konsep penting, tetapi beberapa teknik membutuhkan paket tambahan. Anda boleh menjalankannya di R lokal jika paket tersedia.
7.1 Transformasi variabel (contoh: log)
7.2 Regresi robust (opsional, butuh MASS)
Pertanyaan
- Kapan transformasi log lebih masuk akal daripada menambah prediktor baru? (Hint: Saat hubungan antara X dan Y melengkung/eksponensial alih-alih linier lurus, atau ketika varians residual semakin melebar di nilai X yang tinggi.)
- Mengapa regresi robust bisa membantu ketika ada outlier? (Hint: Regresi robust sengaja memberi “bobot” yang sangat kecil pada observasi-observasi outlier sehingga garis regresi tidak melengkung ketarik arah mereka.)
8. Validasi Model (Train–Test Split)
Tujuan: mengukur seberapa baik model memprediksi data baru.
Visualisasi Prediksi vs Aktual
Pertanyaan
- Jika MSE kecil, apa artinya secara praktis? (Hint: Rata-rata error kesalahan tebakan prediksinya rendah, yang berarti model kita cukup canggih untuk memprediksi data-data baru ke depannya.)
- Jika model sangat bagus di training tetapi buruk di test, itu indikasi apa? (Hint: Overfitting. Model terlalu sibuk “menghafal” data training sampai ke noise-noisenya, namun kebingungan ketika diminta memprediksi pola asli pada data baru.)
9. Interpretasi & Pelaporan Hasil
Gunakan format ringkas berikut:
- Model: sebutkan bentuk model dan variabel.
- Temuan utama: koefisien penting (arah & besar efek).
- Kualitas model: R-squared/Adj R-squared dan evaluasi asumsi.
- Validasi: tampilkan MSE test set.
- Kesimpulan: 2–4 kalimat yang menyambungkan hasil ke konteks.
Mini-Tugas (Wajib)
- Buat 1 paragraf interpretasi untuk
model_multiple(maks. 120 kata). - Sebutkan 1 potensi masalah asumsi dari plot diagnostik dan usulan perbaikannya.
- Laporkan MSE dan jelaskan apakah model “cukup baik” untuk prediksi (dengan alasan).
Lampiran: Template Paragraf Pelaporan
“Berdasarkan regresi linear berganda, mpg dipengaruhi oleh wt, hp, dan cyl. Koefisien wt bernilai … (arah & interpretasi), sementara hp … . Model menjelaskan sekitar …% variasi mpg (Adj R² = …). Diagnostik residual menunjukkan … (ringkas). Pada validasi train–test, MSE sebesar … menunjukkan … (interpretasi performa). Secara keseluruhan, model … (kesimpulan & batasan).”