Praktikum Analisis Regresi Eksplorasi

Tujuan Praktikum

Setelah praktikum ini, Anda mampu:

Melakukan eksplorasi awal data untuk kebutuhan regresi (deskriptif & visual).
Menghitung dan menafsirkan korelasi sebagai indikasi awal hubungan linear.
Membangun regresi linear sederhana dan berganda dengan lm().
Memeriksa asumsi dasar regresi melalui diagnostik residual.
Mengevaluasi performa model dengan train-test split dan MSE.
Menulis interpretasi hasil regresi secara ringkas dan tepat.

Rujukan alur praktikum: mengikuti langkah “cara eksplorasi” untuk analisis regresi: persiapan data: eksplorasi: korelasi: model: uji asumsi: validasi: pelaporan.

Apa itu Metode Eksplorasi?

Metode eksplorasi adalah pendekatan analisis yang dilakukan tanpa hipotesis awal yang kaku. Tujuannya adalah menemukan pola, hubungan, dan anomali dalam data secara terbuka sebelum menarik kesimpulan apa pun.

Dalam praktikum ini, Anda akan:

Menjelajahi data secara visual dan deskriptif untuk memahami distribusi dan hubungan antar variabel.
Menggunakan korelasi dan scatter plot sebagai “sinyal awal” sebelum membangun model.
Membangun model regresi dan menguji asumsinya, bukan untuk “membuktikan” hipotesis, melainkan untuk memahami data lebih dalam.

Perbandingan: Jika metode eksplorasi ibarat detektif yang mencari petunjuk, maka metode konfirmasi (Praktikum 05) ibarat hakim yang menguji bukti secara formal.

1. Persiapan Data

Kita gunakan dataset bawaan R: mtcars.

Pertanyaan

Variabel mana yang paling masuk akal menjadi variabel dependen (Y) jika konteksnya efisiensi kendaraan?

“mpg” atau Miles Per Gallon, karena ini adalah metrik utama efisiensi bahan bakar.

Sebelum menghitung apa pun, menurut Anda hubungan mpg dengan wt (berat) cenderung positif atau negatif? Mengapa?

Negatif. Semakin berat kendaraan (wt naik), semakin banyak bahan bakar yang dibutuhkan sehingga efisiensi (mpg) menurun.

2. Eksplorasi Data Awal (Deskriptif & Visual)

2.1 Statistik deskriptif

2.2 Visualisasi dasar

2.3 Visualisasi dengan ggplot2

Visualisasi dasar di atas sudah cukup untuk eksplorasi cepat. Gunakan ggplot2 ketika Anda perlu:

Lapisan bertumpuk: misalnya titik data + garis regresi + label persamaan dalam satu grafik,
Konsistensi estetika: tema, warna, dan tipografi yang seragam untuk laporan atau publikasi,
Faceting: membuat panel grafik terpisah per kelompok tanpa menulis loop,
Kontrol penuh: ukuran teks, legenda, grid, dan margin yang presisi.

Referensi yang berguna:

ggplot2 Cheatsheet (Posit): daftar lengkap fungsi dan argumen ggplot2
R Graph Gallery: ggplot2: koleksi contoh grafik siap pakai dengan kode yang bisa langsung diadaptasi

Pertanyaan

Dari scatter plot, apakah hubungan mpg–wt tampak cukup linear?

Ya, titik-titik membentuk pola menurun yang relatif lurus membentang dari kiri atas ke kanan bawah.

Adakah titik yang terlihat “menyimpang” (calon outlier)? Apa dampaknya pada regresi?

Outlier adalah titik yang menjauh dari pola bergerombol. Outlier dapat “menarik” garis regresi sehingga kemiringannya menjadi meleset dan kurang akurat.

Jika fungsi regresi kedua variabel tersebut menunjukkan y = -5.3x + 37, apa maknanya?

Persamaan y = -5.3x + 37 berarti: setiap kenaikan berat kendaraan (wt) sebesar 1 satuan (1000 lbs), efisiensi bahan bakar (mpg) rata-rata turun sebesar 5.3 mpg. Angka 37 adalah intersep, yaitu prediksi mpg ketika berat kendaraan = 0 (nilai teoretis). Tanda negatif pada koefisien (-5.3) mengonfirmasi hubungan negatif: semakin berat kendaraan, semakin boros bahan bakarnya.

3. Analisis Korelasi

3.1 Korelasi antar-variabel (numerik)

3.2 Visualisasi sederhana (heatmap base R)

Pertanyaan

Variabel apa yang korelasinya paling kuat (positif/negatif) dengan mpg?

Biasanya variabel wt (berat) dan cyl (jumlah silinder) memiliki korelasi negatif yang sangat kuat dengan mpg.

Apakah korelasi kuat selalu berarti hubungan kausal? Jelaskan singkat.

Tidak. Korelasi hanya menunjukkan adanya hubungan pola angka secara statistik, bukan hubungan sebab-akibat (causation).

4. Regresi Linear Sederhana

Kita mulai dari model sederhana: mpg ~ wt.

4.1 Interpretasi cepat koefisien

Pertanyaan

Jika koefisien wt bernilai negatif, artinya apa (dalam konteks kendaraan)?

Setiap peningkatan berat kendaraan sebesar 1 satuan (1000 lbs), jarak tempuh per galon bahan bakar (mpg) rata-rata akan berkurang sebesar angka koefisien tersebut.

Apa perbedaan makna p-value vs R-squared pada output summary()?

P-value mengukur apakah kita punya cukup bukti statistik untuk menganggap hubungannya nyata. R-squared mengukur proporsi keragaman (variasi) Y yang bisa dijelaskan oleh model ini.

5. Regresi Linear Berganda

Tambahkan prediktor lain, misalnya: hp dan cyl.

Pertanyaan

Apakah wt tetap signifikan setelah menambahkan hp dan cyl? Jika berubah, kira-kira kenapa?

Signifikansi sebuah prediktor bisa merosot saat ditambah prediktor baru jika kedua prediktor itu saling terkait kuat (multikolinearitas), sehingga mereka “berebut” dalam menjelaskan variasi Y.

Jika R-squared meningkat pada model berganda, apakah itu otomatis berarti model lebih baik?

Belum tentu. R-squared biasa akan selalu naik bila prediktor ditambah. Parameter Adjusted R-squared lebih jujur menilai apakah tambahan variabel itu benar-benar menguntungkan.

6. Uji Asumsi Model (Diagnostik Residual)

Gunakan plot diagnostik standar lm().

Cara membaca cepat (panduan ringkas)

Residuals vs Fitted: cek pola (homoskedastisitas/linearitas).
Normal Q-Q: cek normalitas residual.
Scale-Location: cek varians residual konstan.
Residuals vs Leverage: cek pengaruh titik ekstrem.

Pertanyaan

Plot mana yang paling “mengkhawatirkan” jika tujuan Anda inferensi (uji hipotesis koefisien)?

Plot Normal Q-Q, karena penghitungan p-value pada regresi linier standar berasumsi bahwa residual harus berdistribusi normal.

Jika residual tidak normal, apakah regresi selalu “tidak boleh dipakai”? Dalam konteks apa masih bisa diterima?

Tidak mutlak terlarang. Asalkan ukuran sampel sangat besar, Teorema Limit Pusat (CLT) melindungi perhitungan kita. Masalah ini lebih fatal pada sampel kecil.

7. Penanganan Masalah (Opsional)

Bagian ini konsep penting, tetapi beberapa teknik membutuhkan paket tambahan. Anda boleh menjalankannya di R lokal jika paket tersedia.

7.1 Transformasi variabel (contoh: log)

7.2 Regresi robust (opsional, butuh MASS)

Pertanyaan

Kapan transformasi log lebih masuk akal daripada menambah prediktor baru?

Saat hubungan antara X dan Y melengkung/eksponensial alih-alih linier lurus, atau ketika varians residual semakin melebar di nilai X yang tinggi.

Mengapa regresi robust bisa membantu ketika ada outlier?

Regresi robust sengaja memberi “bobot” yang sangat kecil pada observasi-observasi outlier sehingga garis regresi tidak melengkung ketarik arah mereka.

8. Validasi Model (Train–Test Split)

Tujuan: mengukur seberapa baik model memprediksi data baru.

Visualisasi Prediksi vs Aktual

Pertanyaan

Jika MSE kecil, apa artinya secara praktis?

Rata-rata error kesalahan tebakan prediksinya rendah, yang berarti model kita cukup canggih untuk memprediksi data-data baru ke depannya.

Jika model sangat bagus di training tetapi buruk di test, itu indikasi apa?

Overfitting. Model terlalu sibuk “menghafal” data training sampai ke noise-noisenya, namun kebingungan ketika diminta memprediksi pola asli pada data baru.

9. Interpretasi & Pelaporan Hasil

Gunakan format ringkas berikut:

Model: sebutkan bentuk model dan variabel.
Temuan utama: koefisien penting (arah & besar efek).
Kualitas model: R-squared/Adj R-squared dan evaluasi asumsi.
Validasi: tampilkan MSE test set.
Kesimpulan: 2–4 kalimat yang menyambungkan hasil ke konteks.

Mini-Tugas (Wajib)

Buat 1 paragraf interpretasi untuk model_multiple (maks. 120 kata).
Sebutkan 1 potensi masalah asumsi dari plot diagnostik dan usulan perbaikannya.
Laporkan MSE dan jelaskan apakah model “cukup baik” untuk prediksi (dengan alasan).

Lampiran: Template Paragraf Pelaporan

“Berdasarkan regresi linear berganda, mpg dipengaruhi oleh wt, hp, dan cyl. Koefisien wt bernilai … (arah & interpretasi), sementara hp … . Model menjelaskan sekitar …% variasi mpg (Adj R² = …). Diagnostik residual menunjukkan … (ringkas). Pada validasi train–test, MSE sebesar … menunjukkan … (interpretasi performa). Secara keseluruhan, model … (kesimpulan & batasan).”