Analisis Kelompok Hirarki (Hierarchical Clustering) dengan R-Studio

Studi Kasus: Mobilitas Penduduk Indonesia di Setiap Provinsi Selama Masa Pandemi

DINING DWI SUCI RIYANI
5 min readJul 15, 2021

Haloo data enthusiast…

Kali ini kita akan membahas tentang Hierarchical Clustering dengan metode ward menggunakan program R. Semoga bermanfaat:)

Analisis cluster merupakan suatu teknik statistik dengan metode objek mining yang memiliki tujuan untuk mengelompokkan objek ke dalam suatu kelompok sehingga objek yang berada pada kelompok yang sama akan memiliki kesamaan yang tinggi dibandingkan dengan objek yang berada pada kelompok lain (Sari & Metisen, 2015).

Terdapat dua metode didalam analisis cluster, yaitu metode hierarki dan metode non hierarki. Metode hierarki merupakan metode pengelompokan yang terstruktur dan bertahap dengan didasarkan kepada kemiripan sifat diantara para objek. Kemiripan sifat tersebut dapat ditentukan berdasarkan pada kedekatan jarak Euclidean atau jarak mahalanobis (Silvi, 2018).

Analisis Kelompok Hirarki

Analisis cluster dengan metode hirarki adalah analisis yang pengclusteran datanya dilakukan dengan cara mengukur jarak kedekatan pada setiap obyek yang kemudian membentuk sebuah degdogram. Jenis analisis cluster dengan metode hirarki ada beberapa macam, diantaranya yaitu metode single linkage, metode complete linkage, metode average linkage, metode centroid, metode ward (Nafisah & Chandra, 2017).

Ward’s Method

Jarak antar dua kelompok dalam metode ward’s adalah jumlah kuadrat antara dua kelompok untuk seluruh variabel. Metode ini mencoba meminimumkan varians dalam kelompok dan cenderung digunakan untuk melakukan kombinasi kelompok-kelompok dengan jumlah yang kecil.

Analisis Kelompok Hirarki dengan R-Studio

Untuk melakukan analisis kelompok hirarki, terlebih dahulu kita memasukan data kedalam program R-Studio. Data mobilitas penduduk merupakan data sekunder atau menggunakan data yang sudah tersedia pada google untuk negara Indonesia. Adapun variabel yang digunakan yaitu variabel Retail dan Rekreasi, Area Pemukiman, Taman, Tempat Kerja, Toko Bahan Makanan dan Apotek, dan Pusat Transportasi Umum. Adapun syntax untuk memasukan data kedalam program R-Studio dan pengecekan data missing sebagai berikut

data<-read.delim("clipboard") #(jika data sudah tercopy atau berbentuk .xlsx)
data<-read.csv(file.choose(), sep=",", head=T) #(jika data berbentuk .csv)
summary(data) #(Untuk pengecekan data missing)
Output Pengecekan Data Missing

Pada output diatas dapat diketahui bahwa pada data penelitian yang digunakan tersebut sudah tidak mengandung missing value dimana dapat dilihat pada ringkasan data tidak mengandung nilai NA pada setiap variabel penelitian yang digunakan.

Pengecekan Multikolinearitas

Setelah mengetahui bahwa tidak terdapat nilai missing value dari data, maka untuk melakukan analisis kelompok hirarki, harus terlebih dahulu memenuhi asumsi multikolinearitas. Multikolinearitas dapat didefinisikan sebagai adanya hubungan linear yang sempurna atau pasti diantara beberapa atau semua variabel. Ada beberapa cara untuk mengetahui ada atau tidaknya multikolinearitas dalam data yaitu dengan menganalisis matriks korelasi jika terdapat dua atau lebih variabel independen biasanya memiliki nilai korelasi diatas 0.8 atau kurang dari -0.8 maka dapat diindikasikan bahwa data mengandung multikolinearitas.

#uji multikolineatitas dengan melihat matriks korelasi
korelasi<-cor(data[,2:7]) #Variabel yang diuji hanya yang numerik
View(korelasi)

Didapatkan hasil uji multikolinearitas sebagai berikut.

Output Korelasi Data

Pada output diatas dapat dilihat bahwa nilai korelasi antar variabel tidak ada yang > 0.8 atau < -0.8, seperti pada variabel toko bahan makanan dan apotek berkorelasi dengan variabel pusat transformasi umum memiliki nilai korelasi positif tertinggi yaitu sebesar 0.7633749. sementara variabel area pemukiman berkorelasi dengan pusat transportasi umum memiliki nilai korelasi negatif sebesar -0.5785225. Sehingga berdasarkan pada hasil korelasi pada variabel-variabel diatas, maka dapat disimpulkan bahwa tidak terjadinya multikolinearitas antara variabel satu dengan variabel lainnya.

Metode Ward’s

Untuk membuat analisis kelompok hirarki dengan metode ward dapat dengan menggunakan syntax berikut.

#analisis kluster hierarki (data yang digunakan data numerik)
datadata<-data[,2:7]
datadata
rownames(datadata) <- data$Provinsi[1:34] #Untuk Menambahkan Provinsi pada analisis hirarki yang akan digunakan#metode ward
metode_wd<-hclust(dist(scale(datadata)), method="ward.D")
metode_wd
plot(metode_wd)
#menampilkan plot sebagai petunjuk pemisah kelompok
hclust<-rect.hclust(metode_wd,k=3, border = 2:4)

Didapatkan plot dendrogram dari metode ward’s method seperti pada output dibawah ini.

Dari hasil dendrogram diatas dapat terlihat bahwa k = 3 memberikan hasil pengelompokkan yang baik, yaitu dengan melihat jarak yang dekat di dalam kelompoknnya dan memiliki jarak yang cukup jauh antar kelompoknya. Adapun anggota-anggota dari setiap kelompok adalah sebagai berikut.

Cluster 1: Aceh, Bengkulu, Gorontalo, Kalimantan Tengah, Kalimantan Utara, Lampung, Maluku Utara, Nusa Tenggara Timur, Sulawesi Barat, Sulawesi Tengah, Sulawesi Tenggara, Sumatra Barat.

Cluster 2: Bali, Jakarta.

Cluster 3: Bangka Belitung, Banten, DI Yogyakarta, Jambi, Jawa Barat, Jawa Tengah, Jawa Timur, Kalimantan Barat, Kalimantan Selatan, Kalimantan Timur, Kepulauan Riau, Maluku, Nusa Tenggara Barat, Papua, Papua Barat, Riau, Sulawesi Selatan, Sulawesi Utara, Sumatra Selatan, Sumatra Utara.

Profilisasi Cluster

Untuk melakukan profilisasi kelompok, dilakukan perhitungan rata-rata berdasarkan pada kelompok cluster yang sudah terbentuk dengan variabel yang tersedia yaitu variabel Retail dan Rekreasi, Area Pemukiman, Taman, Tempat Kerja, Toko Bahan Makanan dan Apotek, dan Pusat Transportasi Umum.

=AVERAGE(Variabel Retail dan Rekreasi yang masuk kedalam cluster 1)
=AVERAGE(Variabel Retail dan Rekreasi yang masuk kedalam cluster 2)
=AVERAGE(Variabel Retail dan Rekreasi yang masuk kedalam cluster 3)
dst.
Output Profilisasi Data

Berdasarkan profilisasi kluster data diatas dapat diketahui bahwa warna biru merupakan perhitungan rata-rata tertinggi sementara warna kuning merupaka rata-rata terendah. Kelompok atau cluster 1 memiliki rata-rata mobilitas tertinggi pada bidang retail dan rekreasi, tempat kerja, toko bahan makana, taman, dan transportasi umum. Sementara pada bidang area pemukiman memiliki mobilitas terendah dibandingkan cluster lainnya. Kemudian kelompok atau cluster 2 memiliki rata-rata mobilitas penduduk tertinggi pada bidang area pemukiman, dan bidang lainnya seperti retail dan rekreasi, tempat kerja, toko bahan makana, taman, dan transportasi umum memiliki mobilitas terendah dibandingkan cluster lainnya. Sedangkan cluster 3 memiliki mobilitas penduduk tidak terlalu tinggi dan tidak terlalu rendah.

Untuk melihat syntax secara keseluruhan dapat dilihat disini.

Terimakasih atas perhatiannya, mohon maaf bila terdapat kesalahan.
Semoga bermanfaat:)

--

--

DINING DWI SUCI RIYANI

Fresh graduate of Bachelor of Statistics at the Islamic University of Indonesia. Have interest as data analyst, data scientist and business intelligence.