Praktikum Analisis Regresi Cara Konfirmasi
Dokumen ini membahas analisis regresi cara konfirmasi, yaitu pendekatan yang berangkat dari hipotesis yang sudah ditetapkan sebelum melihat data. Berbeda dari eksplorasi yang bersifat terbuka, konfirmasi bertujuan menguji hipotesis secara formal menggunakan uji statistik.
Yang akan dipelajari:
- Konsep dan rumus garis regresi least squares
- Menghitung koefisien regresi secara manual
- Melakukan uji hipotesis formal terhadap koefisien regresi
- Membandingkan model regresi sederhana dan berganda
1. Konsep: Garis Regresi Least Squares
Metode least squares mencari garis \(\hat{y} = ax + b\) yang meminimalkan jumlah kuadrat jarak vertikal setiap titik data ke garis tersebut.
Rumus koefisiennya:
\[a = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{n\sum x_i^2 - \left(\sum x_i\right)^2}, \quad b = \frac{1}{n}\left(\sum y_i - a \sum x_i\right)\]
Mengkuadratkan deviasi membuat fungsi menjadi smooth dan differentiable, sehingga mudah diminimalkan secara matematis. Nilai absolut menghasilkan fungsi yang tidak mulus di titik nol dan lebih sulit dioptimalkan secara analitik.
Pertanyaan: Mengapa kita meminimalkan kuadrat deviasi, bukan nilai absolutnya?
2. Studi Kasus: Data Penjualan Perusahaan
Data penjualan produk (dalam miliar IDR) dari tahun 2019–2023:
Verifikasi dengan lm()
Koefisien \(a\) adalah kemiringan (slope). Dalam konteks penjualan, \(a \approx 8.3\) artinya setiap tahun berlalu, penjualan diperkirakan naik sekitar Rp 8,3 miliar. Ini adalah perubahan rata-rata per unit waktu.
Pertanyaan: Apa arti nilai \(a\) dalam konteks penjualan perusahaan ini?
3. Uji Hipotesis Formal
Dalam pendekatan konfirmasi, hipotesis ditetapkan sebelum melihat data:
- \(H_0\): \(\beta_1 = 0\) → tidak ada hubungan linear
- \(H_1\): \(\beta_1 \neq 0\) → ada hubungan linear yang signifikan
Jika interval kepercayaan tidak mencakup nol, kita punya bukti kuat bahwa koefisien tersebut berbeda dari nol secara statistik — artinya variabel prediktor memang memiliki pengaruh nyata. Jika interval mencakup nol, kita tidak bisa menyimpulkan hubungan yang signifikan.
Pertanyaan: Interval kepercayaan koefisien wt mencakup nol atau tidak? Apa artinya?
4. Regresi Berganda
Menambahkan prediktor: hp (tenaga kuda) dan cyl (jumlah silinder).
R² selalu naik saat kita menambahkan prediktor baru, bahkan jika prediktor itu tidak relevan. Adjusted R² mengoreksi hal ini dengan memberikan penalti untuk setiap prediktor yang ditambahkan. Gunakan Adjusted R² saat membandingkan model dengan jumlah prediktor berbeda.
Pertanyaan: Apakah wt tetap signifikan setelah menambahkan hp dan cyl? Mengapa bisa berubah?
5. Diagnostik Residual
Panduan membaca plot:
| Plot | Yang Diperiksa |
|---|---|
| Residuals vs Fitted | Pola/linearitas, homoskedastisitas |
| Normal Q-Q | Normalitas residual |
| Scale-Location | Varians residual konstan |
| Residuals vs Leverage | Titik ekstrem / outlier berpengaruh |
VIF (Variance Inflation Factor):
- VIF < 5 → aman
- VIF 5–10 → perlu diwaspadai
- VIF > 10 → multikolinearitas serius, perlu tindakan (hapus variabel, PCA, dll.)
Pertanyaan: Berdasarkan VIF, apakah ada multikolinearitas yang perlu dikhawatirkan?
6. Latihan
Latihan 1 — Mudah: Hitung Koefisien Manual
Diberikan data berikut. Lengkapi kode untuk menghitung koefisien \(a\) dan \(b\).
| x | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| y | 2 | 4 | 5 | 4 | 5 |
sum_xl <- sum(x_lat)
sum_yl <- sum(y_lat)
sum_xl_yl <- sum(x_lat * y_lat)
sum_xl2 <- sum(x_lat^2)Hasil: \(a \approx 0.7\), \(b \approx 1.5\), sehingga \(\hat{y} = 0.7x + 1.5\).
Latihan 2 — Mudah: Verifikasi dengan lm()
Setelah menghitung manual di Latihan 1, verifikasi hasilnya menggunakan lm().
model_lat <- lm(y ~ x, data = data.frame(x = x_lat, y = y_lat))Koefisien dari lm() seharusnya sama dengan hasil perhitungan manual.
Latihan 3 — Sedang: Prediksi dan Interval Kepercayaan
Gunakan model_lat dari Latihan 2. Buat prediksi untuk \(x = 6\) dan \(x = 7\), beserta interval kepercayaan 95%-nya.
data_baru <- data.frame(x = c(6, 7))
predict(model_lat, newdata = data_baru, interval = "confidence", level = 0.95)Argumen interval = "confidence" menghasilkan interval kepercayaan untuk nilai rata-rata prediksi. Gunakan "prediction" untuk interval prediksi individu (lebih lebar).
Latihan 4 — Sedang: Regresi Berganda + Diagnostik
Bangun model regresi berganda menggunakan dataset mtcars dengan mpg sebagai variabel dependen dan disp serta drat sebagai prediktor. Kemudian:
- Tampilkan ringkasan model
- Buat plot diagnostik residual
# Langkah 1
model_tugas <- lm(mpg ~ disp + drat, data = mtcars)
summary(model_tugas)
# Langkah 2
par(mfrow = c(2, 2))
plot(model_tugas)
par(mfrow = c(1, 1))Perhatikan plot Q-Q untuk memeriksa normalitas residual, dan Residuals vs Fitted untuk memeriksa linearitas.
Ringkasan
| Konsep | Keterangan |
|---|---|
| Least Squares | Meminimalkan jumlah kuadrat deviasi vertikal |
| Koefisien \(a\) | Slope: perubahan \(y\) per satu satuan \(x\) |
| Koefisien \(b\) | Intercept: nilai \(y\) saat \(x = 0\) |
| p-value | Probabilitas hasil seekstrem ini jika \(H_0\) benar |
| R² | Proporsi variasi \(y\) yang dijelaskan model |
| Adjusted R² | R² yang dikoreksi untuk jumlah prediktor |
| VIF | Ukuran multikolinearitas antar prediktor |