Praktikum Analisis Regresi Cara Konfirmasi

Dokumen ini membahas analisis regresi cara konfirmasi, yaitu pendekatan yang berangkat dari hipotesis yang sudah ditetapkan sebelum melihat data. Berbeda dari eksplorasi yang bersifat terbuka, konfirmasi bertujuan menguji hipotesis secara formal menggunakan uji statistik.

Yang akan dipelajari:


1. Konsep: Garis Regresi Least Squares

Metode least squares mencari garis \(\hat{y} = ax + b\) yang meminimalkan jumlah kuadrat jarak vertikal setiap titik data ke garis tersebut.

Rumus koefisiennya:

\[a = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{n\sum x_i^2 - \left(\sum x_i\right)^2}, \quad b = \frac{1}{n}\left(\sum y_i - a \sum x_i\right)\]

Mengkuadratkan deviasi membuat fungsi menjadi smooth dan differentiable, sehingga mudah diminimalkan secara matematis. Nilai absolut menghasilkan fungsi yang tidak mulus di titik nol dan lebih sulit dioptimalkan secara analitik.

Pertanyaan: Mengapa kita meminimalkan kuadrat deviasi, bukan nilai absolutnya?


2. Studi Kasus: Data Penjualan Perusahaan

Data penjualan produk (dalam miliar IDR) dari tahun 2019–2023:

Verifikasi dengan lm()

Koefisien \(a\) adalah kemiringan (slope). Dalam konteks penjualan, \(a \approx 8.3\) artinya setiap tahun berlalu, penjualan diperkirakan naik sekitar Rp 8,3 miliar. Ini adalah perubahan rata-rata per unit waktu.

Pertanyaan: Apa arti nilai \(a\) dalam konteks penjualan perusahaan ini?


3. Uji Hipotesis Formal

Dalam pendekatan konfirmasi, hipotesis ditetapkan sebelum melihat data:

  • \(H_0\): \(\beta_1 = 0\) → tidak ada hubungan linear
  • \(H_1\): \(\beta_1 \neq 0\) → ada hubungan linear yang signifikan

Jika interval kepercayaan tidak mencakup nol, kita punya bukti kuat bahwa koefisien tersebut berbeda dari nol secara statistik — artinya variabel prediktor memang memiliki pengaruh nyata. Jika interval mencakup nol, kita tidak bisa menyimpulkan hubungan yang signifikan.

Pertanyaan: Interval kepercayaan koefisien wt mencakup nol atau tidak? Apa artinya?


4. Regresi Berganda

Menambahkan prediktor: hp (tenaga kuda) dan cyl (jumlah silinder).

R² selalu naik saat kita menambahkan prediktor baru, bahkan jika prediktor itu tidak relevan. Adjusted R² mengoreksi hal ini dengan memberikan penalti untuk setiap prediktor yang ditambahkan. Gunakan Adjusted R² saat membandingkan model dengan jumlah prediktor berbeda.

Pertanyaan: Apakah wt tetap signifikan setelah menambahkan hp dan cyl? Mengapa bisa berubah?


5. Diagnostik Residual

Panduan membaca plot:

Plot Yang Diperiksa
Residuals vs Fitted Pola/linearitas, homoskedastisitas
Normal Q-Q Normalitas residual
Scale-Location Varians residual konstan
Residuals vs Leverage Titik ekstrem / outlier berpengaruh

VIF (Variance Inflation Factor):
- VIF < 5 → aman
- VIF 5–10 → perlu diwaspadai
- VIF > 10 → multikolinearitas serius, perlu tindakan (hapus variabel, PCA, dll.)

Pertanyaan: Berdasarkan VIF, apakah ada multikolinearitas yang perlu dikhawatirkan?


6. Latihan

Latihan 1 — Mudah: Hitung Koefisien Manual

Diberikan data berikut. Lengkapi kode untuk menghitung koefisien \(a\) dan \(b\).

x 1 2 3 4 5
y 2 4 5 4 5
sum_xl    <- sum(x_lat)
sum_yl    <- sum(y_lat)
sum_xl_yl <- sum(x_lat * y_lat)
sum_xl2   <- sum(x_lat^2)

Hasil: \(a \approx 0.7\), \(b \approx 1.5\), sehingga \(\hat{y} = 0.7x + 1.5\).


Latihan 2 — Mudah: Verifikasi dengan lm()

Setelah menghitung manual di Latihan 1, verifikasi hasilnya menggunakan lm().

model_lat <- lm(y ~ x, data = data.frame(x = x_lat, y = y_lat))

Koefisien dari lm() seharusnya sama dengan hasil perhitungan manual.


Latihan 3 — Sedang: Prediksi dan Interval Kepercayaan

Gunakan model_lat dari Latihan 2. Buat prediksi untuk \(x = 6\) dan \(x = 7\), beserta interval kepercayaan 95%-nya.

data_baru <- data.frame(x = c(6, 7))
predict(model_lat, newdata = data_baru, interval = "confidence", level = 0.95)

Argumen interval = "confidence" menghasilkan interval kepercayaan untuk nilai rata-rata prediksi. Gunakan "prediction" untuk interval prediksi individu (lebih lebar).


Latihan 4 — Sedang: Regresi Berganda + Diagnostik

Bangun model regresi berganda menggunakan dataset mtcars dengan mpg sebagai variabel dependen dan disp serta drat sebagai prediktor. Kemudian:

  1. Tampilkan ringkasan model
  2. Buat plot diagnostik residual
# Langkah 1
model_tugas <- lm(mpg ~ disp + drat, data = mtcars)
summary(model_tugas)

# Langkah 2
par(mfrow = c(2, 2))
plot(model_tugas)
par(mfrow = c(1, 1))

Perhatikan plot Q-Q untuk memeriksa normalitas residual, dan Residuals vs Fitted untuk memeriksa linearitas.


Ringkasan

Konsep Keterangan
Least Squares Meminimalkan jumlah kuadrat deviasi vertikal
Koefisien \(a\) Slope: perubahan \(y\) per satu satuan \(x\)
Koefisien \(b\) Intercept: nilai \(y\) saat \(x = 0\)
p-value Probabilitas hasil seekstrem ini jika \(H_0\) benar
Proporsi variasi \(y\) yang dijelaskan model
Adjusted R² R² yang dikoreksi untuk jumlah prediktor
VIF Ukuran multikolinearitas antar prediktor