Praktikum Analisis Regresi Cara Konfirmasi

Dokumen ini membahas analisis regresi cara konfirmasi, yaitu pendekatan yang berangkat dari hipotesis yang sudah ditetapkan sebelum melihat data. Berbeda dari eksplorasi yang bersifat terbuka, konfirmasi bertujuan menguji hipotesis secara formal menggunakan uji statistik.

Yang akan dipelajari:

Konsep dan rumus garis regresi least squares
Menghitung koefisien regresi secara manual
Melakukan uji hipotesis formal terhadap koefisien regresi
Membandingkan model regresi sederhana dan berganda

1. Konsep: Garis Regresi Least Squares

Metode least squares mencari garis \(\hat{y} = ax + b\) yang meminimalkan jumlah kuadrat jarak vertikal setiap titik data ke garis tersebut.

Rumus koefisiennya:

\[a = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{n\sum x_i^2 - \left(\sum x_i\right)^2}, \quad b = \frac{1}{n}\left(\sum y_i - a \sum x_i\right)\]

💡 Petunjuk — Mengapa kuadrat, bukan nilai absolut?

Mengkuadratkan deviasi membuat fungsi menjadi smooth dan differentiable, sehingga mudah diminimalkan secara matematis. Nilai absolut menghasilkan fungsi yang tidak mulus di titik nol dan lebih sulit dioptimalkan secara analitik.

Pertanyaan: Mengapa kita meminimalkan kuadrat deviasi, bukan nilai absolutnya?

2. Studi Kasus: Data Penjualan Perusahaan

Data penjualan produk (dalam miliar IDR) dari tahun 2019–2023:

Verifikasi dengan `lm()`

💡 Petunjuk — Apa arti koefisien a dalam konteks ini?

Koefisien \(a\) adalah kemiringan (slope). Dalam konteks penjualan, \(a \approx 8.3\) artinya setiap tahun berlalu, penjualan diperkirakan naik sekitar Rp 8,3 miliar. Ini adalah perubahan rata-rata per unit waktu.

Pertanyaan: Apa arti nilai \(a\) dalam konteks penjualan perusahaan ini?

3. Uji Hipotesis Formal

Dalam pendekatan konfirmasi, hipotesis ditetapkan sebelum melihat data:

\(H_0\): \(\beta_1 = 0\) → tidak ada hubungan linear
\(H_1\): \(\beta_1 \neq 0\) → ada hubungan linear yang signifikan

💡 Petunjuk — Apa artinya jika interval kepercayaan tidak mencakup nol?

Jika interval kepercayaan tidak mencakup nol, kita punya bukti kuat bahwa koefisien tersebut berbeda dari nol secara statistik — artinya variabel prediktor memang memiliki pengaruh nyata. Jika interval mencakup nol, kita tidak bisa menyimpulkan hubungan yang signifikan.

Pertanyaan: Interval kepercayaan koefisien wt mencakup nol atau tidak? Apa artinya?

4. Regresi Berganda

Menambahkan prediktor: hp (tenaga kuda) dan cyl (jumlah silinder).

💡 Petunjuk — Mengapa Adjusted R² lebih tepat untuk perbandingan model?

R² selalu naik saat kita menambahkan prediktor baru, bahkan jika prediktor itu tidak relevan. Adjusted R² mengoreksi hal ini dengan memberikan penalti untuk setiap prediktor yang ditambahkan. Gunakan Adjusted R² saat membandingkan model dengan jumlah prediktor berbeda.

Pertanyaan: Apakah wt tetap signifikan setelah menambahkan hp dan cyl? Mengapa bisa berubah?

5. Diagnostik Residual

Panduan membaca plot:

Plot	Yang Diperiksa
Residuals vs Fitted	Pola/linearitas, homoskedastisitas
Normal Q-Q	Normalitas residual
Scale-Location	Varians residual konstan
Residuals vs Leverage	Titik ekstrem / outlier berpengaruh

💡 Petunjuk — VIF berapa yang mengkhawatirkan?

VIF (Variance Inflation Factor):
- VIF < 5 → aman
- VIF 5–10 → perlu diwaspadai
- VIF > 10 → multikolinearitas serius, perlu tindakan (hapus variabel, PCA, dll.)

Pertanyaan: Berdasarkan VIF, apakah ada multikolinearitas yang perlu dikhawatirkan?

6. Latihan

Latihan 1 — Mudah: Hitung Koefisien Manual

Diberikan data berikut. Lengkapi kode untuk menghitung koefisien \(a\) dan \(b\).

x	1	2	3	4	5
y	2	4	5	4	5

✅ Jawaban Latihan 1

sum_xl    <- sum(x_lat)
sum_yl    <- sum(y_lat)
sum_xl_yl <- sum(x_lat * y_lat)
sum_xl2   <- sum(x_lat^2)

Hasil: \(a \approx 0.7\), \(b \approx 1.5\), sehingga \(\hat{y} = 0.7x + 1.5\).

Latihan 2 — Mudah: Verifikasi dengan `lm()`

Setelah menghitung manual di Latihan 1, verifikasi hasilnya menggunakan lm().

✅ Jawaban Latihan 2

model_lat <- lm(y ~ x, data = data.frame(x = x_lat, y = y_lat))

Koefisien dari lm() seharusnya sama dengan hasil perhitungan manual.

Latihan 3 — Sedang: Prediksi dan Interval Kepercayaan

Gunakan model_lat dari Latihan 2. Buat prediksi untuk \(x = 6\) dan \(x = 7\), beserta interval kepercayaan 95%-nya.

✅ Jawaban Latihan 3

data_baru <- data.frame(x = c(6, 7))
predict(model_lat, newdata = data_baru, interval = "confidence", level = 0.95)

Argumen interval = "confidence" menghasilkan interval kepercayaan untuk nilai rata-rata prediksi. Gunakan "prediction" untuk interval prediksi individu (lebih lebar).

Latihan 4 — Sedang: Regresi Berganda + Diagnostik

Bangun model regresi berganda menggunakan dataset mtcars dengan mpg sebagai variabel dependen dan disp serta drat sebagai prediktor. Kemudian:

Tampilkan ringkasan model
Buat plot diagnostik residual

✅ Jawaban Latihan 4

# Langkah 1
model_tugas <- lm(mpg ~ disp + drat, data = mtcars)
summary(model_tugas)

# Langkah 2
par(mfrow = c(2, 2))
plot(model_tugas)
par(mfrow = c(1, 1))

Perhatikan plot Q-Q untuk memeriksa normalitas residual, dan Residuals vs Fitted untuk memeriksa linearitas.

Ringkasan

Konsep	Keterangan
Least Squares	Meminimalkan jumlah kuadrat deviasi vertikal
Koefisien \(a\)	Slope: perubahan \(y\) per satu satuan \(x\)
Koefisien \(b\)	Intercept: nilai \(y\) saat \(x = 0\)
p-value	Probabilitas hasil seekstrem ini jika \(H_0\) benar
R²	Proporsi variasi \(y\) yang dijelaskan model
Adjusted R²	R² yang dikoreksi untuk jumlah prediktor
VIF	Ukuran multikolinearitas antar prediktor