Lompat ke konten Lompat ke sidebar Lompat ke footer

Analisis Regresi Linier Berganda di Software R / R Studio

Dalam artikel sebelumnya, telah dibahas tentang analisis regresi linier sederhana yang memfokuskan pada hubungan antara dua variabel saja. Namun, dalam dunia nyata, hubungan antara sebuah variabel dengan variabel lain seringkali lebih kompleks dan melibatkan lebih dari satu faktor.

Oleh karena itu, pada artikel ini akan membahas mengenai analisis regresi linier berganda di software R/R Studio yang merupakan teknik statistik yang dapat digunakan untuk menganalisis hubungan antara satu variabel terikat (dependent variable) dengan dua atau lebih variabel bebas (independent variable). Teknik ini dapat membantu dalam mengidentifikasi faktor-faktor yang mempengaruhi variabel terikat dan juga memperkirakan besarnya pengaruh masing-masing faktor terhadap variabel terikat tersebut.

Outline Artikel

Regresi Linier Berganda di Software R/R Studio

R adalah bahasa pemrograman open-source yang populer di kalangan ilmuwan data dan statistikawan. R Studio adalah lingkungan pengembangan terintegrasi (IDE) yang memudahkan penggunaan R. Analisis regresi linier berganda sangat berguna dalam menganalisis hubungan antara dua variabel. Namun, dalam kehidupan nyata, hubungan antara sebuah variabel dan variabel lainnya seringkali lebih kompleks dan melibatkan lebih dari satu faktor. Oleh karena itu, dalam tutorial ini, akan dibahas langkah-langkah untuk melakukan analisis regresi linier berganda menggunakan R Studio.

Tutorial ini akan membantu pembaca untuk memahami cara menggunakan R Studio untuk membuat model regresi linier berganda, menginterpretasikan output dari model tersebut, dan melakukan analisis statistik untuk mengevaluasi keakuratan model regresi. Dalam tutorial ini juga akan disajikan contoh kasus untuk memperjelas pemahaman pembaca mengenai regresi linier berganda.

Melalui tutorial ini, diharapkan pembaca dapat memperluas pengetahuan dan keterampilan analisis data mereka dengan menggunakan R Studio untuk melakukan analisis regresi linier berganda. Tutorial ini juga dapat memberikan wawasan dan pemahaman yang lebih baik mengenai penggunaan R Studio dalam analisis data yang kompleks, sehingga pembaca dapat memanfaatkannya untuk tujuan bisnis, akademik, dan penelitian.

Regresi linier berganda adalah teknik analisis statistik yang digunakan untuk mengetahui hubungan antara variabel independen (X) dan variabel dependen (Y) dengan mengontrol pengaruh dari beberapa variabel independen lainnya. Analisis regresi linier berganda sangat berguna untuk memprediksi nilai Y berdasarkan nilai-nilai variabel independen yang telah diketahui. Dalam artikel ini, saya akan membahas langkah-langkah regresi linier berganda di software R/R Studio, output analisis regresi linier berganda, contoh kasus, output soal regresi linier berganda, interpretasi output, dan kesimpulan.

Langkah-langkah Regresi Linier Berganda di Software R/R Studio

Berikut adalah langkah-langkah yang harus dilakukan dalam melakukan analisis regresi linier berganda di software R/R Studio.

Import Data

Langkah pertama dalam melakukan analisis regresi linier berganda di software R/R Studio adalah mengimpor data ke dalam lingkungan R/R Studio. Data dapat diimpor dalam berbagai format seperti .csv, .txt, .xlsx, atau .rds. Jika data sudah berada dalam format yang sesuai, kita dapat menggunakan fungsi read.csv(), read.table(), read.xlsx(), atau readRDS() untuk memuat data.

Dalam melakukan import data, pastikan bahwa data yang diimpor memiliki struktur yang benar dan sesuai dengan variabel yang akan digunakan dalam analisis. Sebagai contoh, pastikan bahwa data memiliki baris dan kolom yang sesuai, variabel memiliki tipe data yang tepat, dan tidak ada missing value pada data.

Melakukan Uji Normalitas

Langkah selanjutnya adalah melakukan uji normalitas pada data. Uji normalitas dilakukan untuk memastikan bahwa data terdistribusi secara normal. Hal ini penting karena regresi linier berganda membutuhkan asumsi bahwa data terdistribusi normal.

Terdapat beberapa metode untuk melakukan uji normalitas pada data, seperti uji Shapiro-Wilk, uji Kolmogorov-Smirnov, dan uji Anderson-Darling. Untuk melakukan uji normalitas pada data, kita dapat menggunakan fungsi seperti shapiro.test(), ks.test(), dan ad.test().

Jika data terdistribusi normal, maka kita dapat melanjutkan ke langkah selanjutnya. Namun, jika data tidak terdistribusi normal, maka analisis regresi linier berganda tidak dapat dilakukan dan perlu dilakukan transformasi data.

Membuat Model Regresi

Setelah data terdistribusi secara normal, selanjutnya adalah membuat model regresi linier berganda. Dalam model regresi linier berganda, variabel dependen (Y) harus dihubungkan dengan beberapa variabel independen (X).

Dalam membuat model regresi linier berganda, perlu diperhatikan pemilihan variabel independen yang akan dimasukkan dalam model. Variabel independen yang dipilih harus memiliki hubungan atau pengaruh terhadap variabel dependen.

Dalam R/R Studio, kita dapat menggunakan fungsi lm() untuk membuat model regresi linier berganda. Fungsi ini memungkinkan kita untuk memasukkan variabel dependen dan independen, serta dapat menghasilkan output yang berisi koefisien regresi dan hasil uji signifikansi.

Menentukan Koefisien Regresi

Koefisien regresi digunakan untuk mengetahui seberapa besar pengaruh dari setiap variabel independen terhadap variabel dependen. Untuk menentukan koefisien regresi, digunakan metode Ordinary Least Square (OLS).

Dalam R/R Studio, hasil koefisien regresi dapat diperoleh dari output fungsi lm(). Koefisien regresi akan menunjukkan arah dan besar pengaruh setiap variabel independen terhadap variabel dependen. Jika koefisien regresi positif, maka peningkatan nilai variabel independen akan meningkatkan nilai variabel dependen, dan sebaliknya jika koefisien negatif.

Menguji Signifikansi Koefisien Regresi

Setelah mendapatkan koefisien regresi, selanjutnya adalah menguji signifikansi koefisien regresi. Uji signifikansi koefisien regresi dilakukan untuk mengetahui apakah variabel independen berpengaruh signifikan terhadap variabel dependen atau tidak.

Menguji Kualitas Model

Setelah uji signifikansi koefisien regresi, langkah selanjutnya adalah menguji kualitas model. Dalam uji kualitas model, digunakan beberapa metode, seperti uji R Square, uji Adjusted R Square, dan uji F Statistik.

Output Analisis Regresi Linier Berganda

Output analisis regresi linier berganda pada software R/R Studio terdiri dari beberapa bagian, yaitu:

Koefisien Regresi

Output koefisien regresi menunjukkan nilai koefisien untuk setiap variabel independen dalam model regresi. Koefisien regresi menunjukkan seberapa besar pengaruh dari setiap variabel independen terhadap variabel dependen.

Signifikansi Koefisien Regresi

Output signifikansi koefisien regresi menunjukkan apakah variabel independen berpengaruh signifikan terhadap variabel dependen atau tidak

Kualitas Model Output

Kualitas model terdiri dari beberapa bagian, yaitu R Square, Adjusted R Square, dan F Statistik. R Square adalah ukuran seberapa besar variasi dari variabel dependen dapat dijelaskan oleh variabel independen dalam model. Adjusted R Square menyesuaikan R Square untuk jumlah variabel independen dalam model. F Statistik adalah ukuran keseluruhan signifikansi model regresi.

Residuals

Residuals adalah selisih antara nilai aktual variabel dependen dan nilai yang diprediksi oleh model. Output residual menunjukkan seberapa akurat model dalam memprediksi nilai variabel dependen.

Contoh Kasus

Soal

Contoh kasus yang digunakan adalah untuk menganalisis hubungan antara curah hujan dengan penjualan payung. Curah hujan dijadikan variabel bebas (X1), Durasi Hujan dijadikan variabel bebas (X2) dan penjualan payung dijadikan variabel terikat (Y). Tujuan analisis ini adalah untuk mengetahui seberapa besar pengaruh curah hujan dan durasi hujan terhadap penjualan payung.

Curah Hujan

Durasi Hujan

Penjualan Payung

3.2

2.5

20

4.5

3.1

25

2.1

1.8

15

5.7

4.2

30

6.3

5.1

35

2.8

2.0

18

4.1

3.4

24

5.5

4.8

32

1.9

1.5

12

3.8

2.9

22

4.6

3.8

26

2.5

2.1

16

6.1

5.0

36

3.6

2.7

21

5.2

4.5

28

2.3

1.9

14

3.9

3.2

23

4.8

3.9

27

2.9

2.2

19

6.5

5.5

38

5.4

4.6

31

4.4

3.6

25

3.5

2.8

20

2.2

1.7

14

5.8

4.9

33

3.3

2.6

19

4.9

4

28

6.2

5.2

36

2.7

2.0

17

4.3

3.5

24

Memasukkan data ke dalam R/R Studio

Pertama, kita perlu memasukkan data curah hujan, durasi hujan, dan penjualan payung ke dalam R/R Studio. Untuk melakukan hal ini, kita dapat menulis script berikut:

> curah_hujan <- c(3.2, 4.5, 2.1, 5.7, 6.3, 2.8, 4.1, 5.5, 1.9, 3.8, 4.6, 
    2.5, 6.1, 3.6, 5.2, 2.3, 3.9, 4.8, 2.9, 6.5, 5.4, 4.4, 3.5, 2.2, 5.8, 
    3.3, 4.9, 6.2, 2.7, 4.3)
> durasi_hujan <- c(2.5, 3.1, 1.8, 4.2, 5.1, 2.0, 3.4, 4.8, 1.5, 2.9, 3.8, 
    2.1, 5.0, 2.7, 4.5, 1.9, 3.2, 3.9, 2.2, 5.5, 4.6, 3.6, 2.8, 1.7, 4.9, 
    2.6, 4.0, 5.2, 2.0, 3.5)
> penjualan_payung <- c(20, 25, 15, 30, 35, 18, 24, 32, 12, 22, 26, 16, 36, 
    21, 28, 14, 23, 27, 19, 38, 31, 25, 20, 14, 33, 19, 28, 36, 17, 24)

Selain itu, jika data sudah disimpan dalam suatu file, missal excel, maka bisa mengimport dengan script berikut (warna merah melupakan lokasi folder file)

> library(readxl)
> Data1 <- read_excel("C:/Users/Data/Folder/Data1.xlsx")

Visualisasi Data

Setelah memasukkan data, kita dapat memvisualisasikan data menggunakan plot. Hal ini dapat dilakukan dengan menggunakan script berikut:

> plot(curah_hujan, penjualan_payung, main = "Hubungan antara Curah Hujan dan Penjualan Payung", 
    xlab = "Curah Hujan (mm)", ylab = "Penjualan Payung")
> plot(durasi_hujan, penjualan_payung, main = "Hubungan antara Durasi Hujan dan Penjualan Payung", 
    xlab = "Durasi Hujan (mm)", ylab = "Penjualan Payung")

Melakukan Regresi Linier Berganda

Setelah memvisualisasikan data, langkah selanjutnya adalah melakukan regresi linier berganda. Kita dapat melakukan regresi linier berganda dengan menggunakan fungsi lm(). Scriptnya adalah sebagai berikut:

> model_regresi <- lm(penjualan_payung ~ curah_hujan+durasi_hujan)
> summary(model_regresi)

Output Soal Regresi Linier Berganda

Setelah script telah selesai di running / di jalankan, berikut adalah contoh output dari analisis regresi linier berganda menggunakan Software R/R Studio:





Interpretasi Output

Output tersebut merupakan hasil dari model regresi linier berganda yang dibuat dengan menggunakan variabel bebas curah_hujan dan durasi_hujan serta variabel terikat penjualan_payung. Berikut adalah penjelasan masing-masing output dari model tersebut:

Call: lm(formula = penjualan_payung ~ curah_hujan + durasi_hujan)

  • Call ini menunjukkan formula model regresi linier berganda yang digunakan dalam analisis ini, yaitu model dengan variabel terikat penjualan_payung dan dua variabel bebas curah_hujan dan durasi_hujan.

Residuals: Min 1Q Median 3Q Max -2.10232 -0.60407 -0.04186 0.48709 1.72639

  • Residuals menunjukkan residual dari model regresi linier berganda yang dibuat. Residual adalah selisih antara nilai aktual variabel terikat dengan nilai yang diprediksi oleh model regresi linier berganda.

Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.9871 0.5612 5.323 1.28e-05 *** curah_hujan 3.5953 0.7895 4.554 0.000101 *** durasi_hujan 1.8710 0.9102 2.056 0.049601 *

  • Coefficients menunjukkan koefisien estimasi untuk masing-masing variabel dalam model regresi linier berganda. Koefisien estimasi menunjukkan seberapa besar pengaruh setiap variabel bebas terhadap variabel terikat. Dalam model ini, terdapat tiga koefisien estimasi, yaitu koefisien untuk intercept, curah_hujan, dan durasi_hujan.

Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

  • Signif. codes menunjukkan level signifikansi dari masing-masing koefisien estimasi. Semakin sedikit bintang yang digunakan, semakin signifikan koefisien estimasi tersebut.

Residual standard error: 0.906 on 27 degrees of freedom

  • Residual standard error menunjukkan besarnya rata-rata kesalahan prediksi model. Dalam hal ini, rata-rata kesalahan prediksi adalah sebesar 0.906.

Multiple R-squared: 0.9857, Adjusted R-squared: 0.9846

  • Multiple R-squared menunjukkan seberapa besar variasi dalam variabel terikat dapat dijelaskan oleh masing-masing variabel bebas. Nilai multiple R-squared adalah 0.9857, artinya sekitar 98.57% variasi dalam variabel terikat dapat dijelaskan oleh variabel bebas dalam model ini. Adjusted R-squared menghitung multiple R-squared yang telah disesuaikan dengan jumlah variabel bebas dan jumlah sampel dalam model, dan nilainya adalah 0.9846.

T-value

  • T-value adalah nilai statistik yang menunjukkan seberapa signifikan koefisien variabel bebas terhadap variabel terikat dalam model regresi. Semakin besar nilai absolut dari t-value, semakin signifikan variabel bebasnya. Dalam output ini, kita dapat melihat bahwa koefisien curah_hujan memiliki t-value sebesar 4.554, sedangkan koefisien durasi_hujan memiliki t-value sebesar 2.056. Nilai t-value untuk kedua koefisien ini lebih besar dari 2, sehingga dapat disimpulkan bahwa kedua variabel bebas tersebut signifikan secara statistik terhadap variabel terikat.

F-statistic

  • F-statistic adalah nilai statistik yang menguji apakah ada setidaknya satu variabel bebas yang signifikan secara statistik dalam memprediksi variabel terikat dalam model regresi. Semakin besar nilai F-statistic, semakin signifikan model regresi tersebut. Dalam output ini, kita dapat melihat bahwa F-statistic sebesar 930.7 dengan p-value < 2.2e-16. Hal ini menunjukkan bahwa model regresi linier berganda yang dibuat sangat signifikan secara statistik.

Model Regresi Linier Berganda

  • Model regresi linier berganda yang dibuat adalah:

Penjualan_payung = 2.9871 + 3.5953 * Curah_hujan + 1.8710 * Durasi_hujan

Dalam model ini, nilai koefisien untuk curah_hujan adalah 3.5953 dan untuk durasi_hujan adalah 1.8710. Hal ini menunjukkan bahwa setiap peningkatan satu unit pada curah hujan akan meningkatkan penjualan payung sebanyak 3.5953 unit, sementara setiap peningkatan satu unit pada durasi hujan akan meningkatkan penjualan payung sebanyak 1.8710 unit.

Posting Komentar untuk "Analisis Regresi Linier Berganda di Software R / R Studio"