Praktikum Visualisasi Data Teks

Tujuan Praktikum

Setelah praktikum ini, Anda mampu:

Membuat word cloud dari frekuensi kata menggunakan R.
Membuat bar plot frekuensi kata per koleksi dan per kategori.
Memvisualisasikan jaringan bigram untuk menemukan pola asosiasi kata.
Membuat bar plot hasil analisis sentimen.
Membuat heatmap distribusi kata antar dokumen.

1. Persiapan: Data dan Tokenisasi

2. Word Cloud

Word cloud menampilkan kata-kata yang paling sering muncul. Ukuran kata proporsional dengan frekuensinya, semakin besar, semakin sering muncul.

Kapan cocok dipakai: presentasi umum dan eksplorasi awal. Hindari untuk laporan formal karena tidak presisi secara numerik.

Petunjuk: Kapan word cloud sebaiknya TIDAK digunakan?

Word cloud tidak cocok untuk perbandingan atau laporan ilmiah karena:
(1) Mata manusia buruk dalam membandingkan ukuran teks yang tidak sejajar
(2) Tidak menampilkan nilai numerik pasti
(3) Penempatan kata yang acak bisa menyesatkan
Gunakan bar plot jika butuh perbandingan yang presisi.

Kata apa yang paling mendominasi word cloud? Apakah itu mencerminkan topik utama data?

Dari word cloud di atas, kata “rapi” tampil paling besar karena muncul di dua ulasan berbeda, satu di kategori fashion (“jahitan rapi”) dan satu di kategori makanan (“kemasan rapi”). Ini mencerminkan bahwa kerapian/keteraturan adalah atribut kualitas yang diperhatikan pelanggan lintas kategori produk.

Kata-kata berukuran besar lainnya seperti “cepat”, “warna”, “enak”, dan “bagus” menunjukkan tema utama data: ulasan yang berfokus pada kinerja, tampilan, dan rasa: sesuai dengan tiga kategori dataset (elektronik, fashion, makanan).

Catatan: Word cloud dibuat dengan set.seed(42) sehingga posisi kata konsisten setiap kali dijalankan, tetapi ukuran kata tetap mencerminkan frekuensi relatifnya.

3. Bar Plot Frekuensi Kata

3.1 Bar Plot Keseluruhan

3.2 Bar Plot per Kategori

Petunjuk: Kapan bar plot lebih baik daripada word cloud?

Bar plot lebih baik ketika Anda perlu:
(1) Membandingkan frekuensi antar kata secara tepat
(2) Menyertakan angka dalam laporan atau presentasi formal
(3) Membandingkan distribusi antar kategori/dokumen
Ingat prinsip visualisasi: gunakan grafik yang paling jujur dan mudah dibaca sesuai audiens.

Pertanyaan: Apakah kata-kata dominan berbeda antar kategori? Apa yang itu katakan tentang karakteristik masing-masing kategori?

4. Visualisasi Bigram Network

Bigram (pasangan dua kata) membantu memahami konteks dan frasa yang sering muncul bersama.

Petunjuk: Apa manfaat bigram untuk analisis sentimen?

Kata tunggal “tidak” ambigu, bisa diikuti kata positif maupun negatif. Bigram “tidak puas” atau “tidak bagus” menangkap sentimen negatif dengan lebih akurat. Begitu pula “luar biasa” lebih bermakna sebagai satu kesatuan frasa daripada kata “luar” dan “biasa” secara terpisah.

Pertanyaan: Bigram apa yang paling berguna untuk membedakan ulasan positif dan negatif?

5. Visualisasi Analisis Sentimen

5.1 Kamus dan Skor Sentimen

5.2 Bar Plot Skor Sentimen

5.3 Kata Positif vs Negatif Terbanyak

Petunjuk: Mengapa ulasan tertentu bisa mendapat skor 0 meski kalimatnya terasa negatif?

Skor 0 terjadi karena kata-kata dalam ulasan tersebut tidak ada di kamus sentimen yang kita gunakan. Ini disebut coverage problem: kamus tidak lengkap. Solusinya: perluas kamus, gunakan kamus pihak ketiga, atau beralih ke pendekatan machine learning.

Pertanyaan: Ada ulasan yang skornya 0 tapi kalimatnya terasa negatif atau positif? Mengapa hal itu bisa terjadi?

6. Heatmap Distribusi Kata

Heatmap menampilkan seberapa sering kata-kata tertentu muncul di berbagai kategori dokumen, berguna untuk melihat pola distribusi sekaligus.

Petunjuk: Apa yang ditunjukkan warna gelap di heatmap?

Warna gelap (biru tua) berarti kata tersebut sering muncul di kategori tersebut (relatif terhadap maksimumnya). Warna putih berarti kata itu jarang atau tidak muncul sama sekali. Pola ini membantu mengidentifikasi kata-kata yang menjadi “ciri khas” setiap kategori.

Pertanyaan: Kata apa yang hanya muncul di satu kategori saja? Apa artinya secara analitis?

7. Latihan

Latihan 1: Bar Plot Kata per Kategori

Buat bar plot frekuensi kata khusus kategori “makanan” dari dataset token_bersih, tampilkan 5 kata teratas.

Jawaban Latihan 1

token_makanan <- token_bersih %>%
  filter(kategori == "makanan")

frek_makanan <- token_makanan %>%
  count(kata, sort = TRUE) %>%
  head(5)

par(mar = c(6, 4, 3, 2))
barplot(
  frek_makanan$n,
  names.arg = frek_makanan$kata,
  col  = "coral",
  main = "Kata Teratas: Kategori Makanan",
  ylab = "Frekuensi",
  las  = 2
)

Latihan 2: Visualisasi Skor Sentimen dengan Warna Berbeda

Modifikasi visualisasi skor sentimen di Bagian 5.2 agar: - Ulasan positif berwarna hijau ("forestgreen") - Ulasan negatif berwarna oranye ("darkorange") - Ulasan netral berwarna abu-abu

Jawaban Latihan 2

warna_baru <- ifelse(skor_sentimen$skor > 0, "forestgreen",
                     ifelse(skor_sentimen$skor < 0, "darkorange", "gray60"))

barplot(
  skor_sentimen$skor,
  names.arg = paste("U", skor_sentimen$id),
  col  = warna_baru,
  main = "Skor Sentimen (Warna Diubah)",
  ylab = "Skor Sentimen"
)
abline(h = 0, lty = 2)

Latihan 3: Bigram dari Teks Baru

Buat analisis bigram dari teks berikut dan tampilkan 5 bigram teratas (setelah membuang stop words).

Jawaban Latihan 3

bigram_baru <- teks_baru %>%
  unnest_tokens(bigram, teks, token = "ngrams", n = 2)

bigram_baru %>%
  count(bigram, sort = TRUE) %>%
  separate(bigram, into = c("kata1", "kata2"), sep = " ") %>%
  filter(!kata1 %in% stop_b$kata,
         !kata2 %in% stop_b$kata) %>%
  head(5)

Bigram seperti “data science” atau “machine learning” seharusnya muncul karena merupakan frasa teknis yang khas.

Ringkasan: Kapan Menggunakan Visualisasi Apa?

Visualisasi	Keunggulan	Gunakan Untuk
Word Cloud	Menarik, cepat dibaca	Eksplorasi awal, presentasi umum
Bar Plot Frekuensi	Presisi, mudah dibandingkan	Laporan formal, perbandingan kata
Bigram Network	Menampilkan konteks	Analisis frasa dan asosiasi kata
Bar Plot Sentimen	Menampilkan polaritas ulasan	Analisis opini, ulasan produk
Heatmap	Perbandingan lintas dokumen	Distribusi kata antar kategori