Syamsoelhadi’s Blog


May 25, 2009, 6:58 am
Filed under: Uncategorized

REGRESI LOGISTIK PADA DATA BINER

[1]Syamsul Hadi, [2]Dr. Ir. Hari Wijayanto, MS

1. Latar belakang dan tujuan

Latar belakang

 

Regresi logistik adalah prosedur pemodelan yang diterapkan untuk memodelkan variabel respon (Y) yang bersifat kategori berdasarkan satu atau lebih variabel prediktor (X), baik itu yang bersifat kategori maupun kontinu.apabila kita melakukan penyusunan model hubungan antar variabel seperti halnya pada regresi linier biasa ada dua kelompok variabel yaitu

  • variabel bebas  (indevenden variabel), variabel penjelas (ekplanatory variable) atau biasa dituliskan dengan variabel x.
  • Variabel tak bebas (independen variable), variabel respon (response variable) atau biasa dituliskan dengan variabel y.

Pada regresi linier yang biasa kita gunakan memiliki variabel respon (y) yang bersifat numerik, hal ini tidak sesui jika kita gunakan pada model dengan y yang bersifat kategorik. Sebagai contoh jika kita memiliki nilai y yang hanya memliki dua kategori : sukses (bernilai 1) dan gagal (bernilai 0), jika kita menerapkannya pada regresi linier kita dapat memperoleh regresi dugaan y yang nilainya bermacam-macam tidak hanya 0 dan 1 bahkan mingkin nilainya ada yang lebih dari 1 atau negatif. Hal semacam ini tentunya akan menyulitkan bagi kita untuk memberikan makna atau menginterpretasikannya. Oleh karena itu regresi logistik dapat dijadikan alternatif pemodelan jika variabel y bersifat kategorik.

Sebagaimana metode regresi biasa, berdasarkan jenis variabel responnya regresi logistik dapat dibedakan menjadi 2, yaitu: Binary Logistic Regression (Regresi Logistik Biner) dan Multinomial Logistic Regression (Regresi Logistik Multinomial). Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel respon (Y), misal membeli dan tidak membeli. Sedangkan Regresi Logistik Multinomial digunakan ketika pada variabel respon (Y) terdapat lebih dari 2 kategorisasi. Perlu juga diketahui bahwa variabel yang bersifat kategorik, dapat dibedakan menjadi dua yaitu nominal dan ordinal. Contoh varibel nominal adalah jenis pekerjaan, karena kita tidak dapat menentukan urutan dari jenis-jenis pekerjaan tersebut atau urutan jenis pekerjaan tideak memiliki makna tertentu. Sedangkan tingkat pendidikan adalah varibel ordinal karena kita dapat menyusun kategori tingkat pendidikan sesuai urutan dari yang paling rendah sampai ke yang tinggi atau sebaliknya.

Variabel kategorik yang hanya memiliki dua kategorik, umumnya dimasukan dalam kelompok nominal karena apabila dibolak balik tidak berubah maknanya. Namun khusus untuk dua kategorik ini disebut dengan varibel biner karena sering dinotasikan kategoriknya dengan nilai 0 dan 1.

Jenis model regresi jika mengacu pada jenis variabel y nya dapat dikelompokan menjadi :

  • Variabel y biner            : binery logistik regression
  • Variabel y nominal        : nominal (multinominal) logistic regression
  • Variable y ordinal         : ordinal logistic regression

Pada pembahasan ini kita hanya akan bahas regresi logistic biner selain akan menjadi dasar model regresi logistic yang lainnya, regresi multinominal dan ordinal ada yang akan membahas secara tuntas oleh rekan yang lain.

Tujuan

  • Menjelaskan tentang regresi logistic untuk respon biner atau dichotomous
  • Menduga dan menguji koefisien regresi logistik biner
  • Melakukan penerapan model regresi logistik biner pada kasus yang relevan.

 

2. Dasar Teori, metode perhitungan dan penggunaannya

Regresi Logistik Biner

Sebagaimana telah dijelaskan pada latar belakang diatas bahwa Regresi logistik adalah prosedur pemodelan yang diterapkan untuk memodelkan variabel respon (Y) yang bersifat kategori berdasarkan satu atau lebih variabel prediktor (X), baik itu yang bersifat kategori maupun kontinu. Tidak seperti dalam model regresi linier, yang langsung bisa diperoleh nilai dugaan y karena bentuk modelnya adalah y fungsi dari variabel-variabel penjelas, pada regresi logistik yang dimodelkan adalah nilai peluang terjadinya kategori tertentu (umumnya peluang Y = 1) sehungga nanti model yang didapat adalah model hubungan antara p(Y=1) dengan berbagai variabel penjelas X. Apabila variabel responnya terdiri dari 2 kategori, misalkan : Y=1 (sukses) dan Y=0 (gagal) maka metode regresi logistik yang dapat diterapkan adalah regresi logistik biner. Untuk satu buah objek penelitian, kondisi dengan 2 kategori tersebut mengakibatkan y berdistribusi Bernoulli.

Jika (x) = Pi menyatakan peluang suatu individu ke-i memiliki nilai Y = 1, maka model regresi logistik dengan k buah variabel bebas dapat dituliskan sebagai

logit (Pi) = 0 + 1X1 + 2X2 ……+ kXk …………(1)

dengan logit( (x)) = log  

atau  logit (P) = log

Model regresi logistik adalah model linear antara logit(P)) dengan variabel penjelas X. Seperti halnya dalam regresi linear, kita bisa mendapatkan nilai-nilai intersep dan slope dari model tersebut.

Umumnya bentuk hubungan antara besarnya variabel X dengan besarnya peluang suatu kejadian merupakan kurva yang berbentuk S (S-shaped curve) seperti yang akan digambarkan dibawah ini :

 

 

 

 

Jika hubungan negatif (garis solif pada gambar) akan ditunjukan dengan menurunnya nilai peluang jika nilai x semakin tinggi.

Secara matematis pemodelan hubungan dalam bentuk S-curve lebih sulit bila dibandingkan dengan model yang berbentuk linier. Untuk mengatasi hal tersebut dalam bentuk komputasinya dilakukan tranformasi agar diperoleh bentuk linier. Selain akan mempermudalh dalam hal perhitungan model linier juga umumnya lebih mudah dalam hal interpretasi model yang diperoleh.

Salah satu bentuk transformasi yang dapat digunakan untuk hal yang dijelaskan diatas adalah dengan transformasi logit. Transformasi logit adalah logaritma natural dari nilai odd.

Namun berbeda halnya dengan di regresi linear yang dapat menggunakan metode kuadrat terkecil (least squares method) dalam menentukan dugaan 0 dan i, i = 1, 2, …, k. Secara statistik, metode tersebut mengasumsikan nilai variance error bersifat konstan (homogen). Padahal dalam kasus regresi logistik biner, yang nilai Y mengikuti sebaran bernoulli, yang nilai variance merupakan fungsi dari p. Tentu saja pada data yang kita miliki nilai p ini bervariasi tergantung pada variabel penjelas X. Karena nilai p bervariasi, maka nilai variance juga bervariasi sehingga variance bersifat heterogen. Pendekatan weighted least squares dapat mengatasi masalah ini. Sehingga teknik iteratively reweighted least squares (IRLS) dapat dijadikan pilihan metode selain metode maximum likelihood (ML) dalam menduga parameter model regresi logistik.

Perhatikan bahwa untuk model sederhana dengan satu buah variabel bebas

 

log(p/(1-p)) = 0 + 1X

p/(1-p) = exp( 0 + 1X)

p = exp( 0 + 1X) – p exp( 0 + 1X)

p (1 + exp( 0 + 1X)) = exp( 0 + 1X)

Sehingga p =

 

Dengan kata lain, model regresi logistik biner dapat dituliskan sebagai

 

P (Y = 1) = Pi = …………….. (2)

 

Koefisien  selanjutnya diduga menggunakan metode maximum likelihood. Secara sederhana dapat disebutkan bahwa metode ini berusaha mencari nilai koefisien yang memaksimumkan fungsi likelihood. Dengan nilai Y yang bersifat biner, kita dapat menggunakan Bernoulli sebagai sebaran variabel Y sehingga fungsi likelihood akan berbentuk

 

L  atau   L      Dengan Pi = …………(3)

 

Jelas bahwa nilai  menentukan besarnya nilai fungsi likelihood (L). Secara komputasi bekerja dengan operator perkalian kurang menyenangkan dibandingkan dengan penjumlahan. Transformasi logaritma dapat digunakan mengubah perkalian menjadi penjumlahan, dan kemudian fungsi likelihood diganti dengan fungsi log-likelihood. Perhatikan bahwa fungsi logaritma besifat monoton naik, sehingga jika log-likelihood mencapai maksimum maka fungsi likelihood juga demikian. Bentuk fungsi yang dimaksimumkan dengan demikian adalah

 

Log (g(Y1, …..Yn)) = log

                                       atau

                                    …………….(4)

 

Penduga bagi koefisien  diperoleh sebagai solusi bagi permasalahan memaksimumkan Log Likelihood.

Odd Ratio

Jika model memiliki koefisien slope yang positif maka peluang suatu kejadian akan meningkat seiring dengan peningkatan nilai variabel penjelas. Sebaliknya jika koefisiennya negatif, peluang kejadiannya akan menurun untuk nilai variabel penjelasyang semakin tinggi. Salah satu ukuran untuk melihat hubungan antara nilai variabel penjelas x tertentu dengan peluang terjadinya suatu kategori pada varibel respon adalah odd-ratio. Nilai ini akan menjadi salah satu output standar dalam regresi logistik yang dihasilkan oleh berbagai sofwere.

Formula dari odds ratio =  …….(5)

Odd ratio mengindikasikan seberapa mungkin kategori tertentu terjadi pada orang pertama dibandingkan denga orang yang kedua. Meskipun definisi tepatnya tidak demikian karena yang dibicarakan adalah rasio dari odds dua individu, bukan rasio resiko dua individu. Karena nilai odds ratio diperoleh dari pembagian dua buah odds yang tidak pernah bersifat negatif, maka odds ratio selalu bernilai lebih dari atau sama dengan nol.

Perhatikan odds ratio = 1 terjadi hanya jika kedua odds bernilai sama. Dengan demikian jika odds ratio = 1 kita katakan bahwa resiko kedua grup sama besar.

Apabila kita sudah mendapatkan model regresi logistik, maka odds ratio antar dua individu atau dua kelompok individu dapat dihitung dengan memanfaatkan nilai koefisien regresinya (slope). Nilai koefisien regresi positif akan menghasilkan dugaan odds ratio yang lebih dari 1. sebaliknya jika koefisien negatif akan menghasilkan odds ratio yang kurang dari 1.

Setelah kita mendapatkan model yang kita inginkan, termasuk nilai dari koefisien model, maka selanjutnya adalah apakah efek atau pengaruh dari variabel-variabel penjelas yang kita sertakan dalam model signifikan dalam menentukan peluang suatu kejadian.

Untuk selanjutnya dalam regresi logistik terdapat dua pengujian yaitu uji simultan untuk seluruh variabel penjelas dan ujin parsial untuk masing-masing variabel penjelas. (Pada regresi linier : uji F untuk simultan dan uji-t untuk parsial) uji simultan dilakukan dengan menggunakan uji rasio kemungkinan (likelihood ratio test) yang merupakan rasio antara dua buah nilai likelihood.

Pengujian model logit dan pendugaan selang

Untuk menguji apakah model logit secara keseluruhan dapat menjelaskan pilihan kualitatif (y), hipotesis yang diuji dalam hal ini adalah : Ho: 1=0 (model tidak dapat menjelaskan) lawan H1: 1 (model dapat menjelaskan). Statistik uji yang digunakan adalah dengan likelihood ratio, yaitu rasio fungsi kemungkinan model UR (likelihood tanpa peubah bebas) terhadap fungsi kemungkinan modelR (likelihood dengan peubah bebas). Statistik uji G dibawah ini menyebar menurut sebaran khi-kuadrat dengan derajat bebas (k-1).

 

G =

 

Jika menggunakan tarap nyata hipotesis H0 ditolak (model signifikan) jika statistik uji G > Khi-Kuadrat.

Jika Ho ditolak maka dapat disimpulkan bahwa 1 , dengan pengertian lain model regresi logistik dapat menjelaskan atau memprediksi pilihan individu pengamatan.

Untuk menguji faktor mana 1  yang berpengaruh nyata terhdap pilihannya, perlu uji statistik lanjut. Dalam hal ini kita dapat menguji signifikansi dari parameter koefisien secara parsial dengan statistik uji Wald yang serupa dengan statistik uji – t atau uji z dalam regresi linier biasa.

 

Statistik uji yang digunakan adalah :

 

nilai-P dua arah dari statistik uji wald ini adalah  dimana z adalah peubah acak normal baku (Hauck dan Donner dalam Bambang juanda 2009).telah mengkaji performance uji-wald ini dan menemukan bahwa nilainya berprilaku agak aneh, karena sering gagal menolak Ho jika koefisiennya signifikan. Mereka menyarankan untuk menggunakan uji rasio kemungkinan.

 

3.Another example Contoh Penerapan

1. This example is adapted from Pedhazur (1997).  Suppose that seven out of 10 males are admitted to an engineering school while three of 10 females are admitted.1111Misalnya ada 7 dari 10 orang laki-laki yang masuk sebuah sekolah teknik (SMK Teknik), sedangkan untuk perempuan adalah 3 dari 10 orang yang masuk SMK Teknik tersebut. The probabilities for admitting a male are, peluang untuk masuk sekolah Teknik bagi laki-laki adalah:

p = 7/10 = .7       q = 1 – .7 = .3 p = 7 / 10 = 0.7 ,  q = 1 – 0.7 = 0.3

Here are the same probabilities for females,sedangkan us sedangkan peluang untuk perempuan adalah:

p = 3/10 = .3       q = 1 – .3 = .7 p = 3 / 10 = 0.3  , q = 1 – 0.3 = 0.7

Now we can use the probabilities to compute the admission odds for both males and females, Sekarang kita dapat membandingkan peluang yang masuk sekolah teknik untuk kedua gender tersebut (laki-laki dan perempuanodds(male) = .7/.3 = 2.33333).

odds (laki-laki) = 0.7/0.3 = 2,33333
odds(female) = .3/.7 = .42857 odds (perempuan) = 0.3/0.7 = 0.42857

Next, we compute the odds ratio for admission, Selanjutnya kita hitung odds rasio bagi keduanya  

OR = 2.3333/.42857 = 5.44 Odds Rasio = 2.3333/0.42857 = 5,44

Thus, for a male, the odds of being admitted are 5.44 times as large than the odds for a female being admitted.dari proses pehitungan diatas kita dapat mengatakan bahwa bagi seorang laki-laki peluang untuk masuk sekolah tekhnik (SMK Tekhnik) adalah 5,44 kali lebih besar dibandingkan dengan peluang perempuan untuk masuk sekolah tekhnik.

2. Sebuah survey dilakukan terhadap 2.484 orang untuk menelaah prilaku ngorok dan penyakit jantung. Subjek diklasifikasikan berdasarkan tingkat ngoroknya yang dilaporkan dari pasangannya. Model peluang linearnya adalah , peluang kejadian penyakit jantung merupakan fungsi linear dari tingkat ngorok seseorang. Kita asumsikan  adalah peluang kejadian yang muncul dari sebaran binomial bebas satu sama lain. Adapun tingkat ngorok (x) adalah (0, 2, 4, 5) dengan tingkat ngorok dan kategori terakhir berdekatan (4 dan 5).

Data ngorok dan penyakit jantung tersebut lalu dianalisis melalui tiga model yaitu linear, logit, dan probit. Hasilnya diperlihatkan pada tabel 1.

 

Tabel 1. Hubungan antara ngorok dan penyakit jantung

Ngorok penyakit jantung Proporsi Ya Linear Fit Logit Fit
Ya tidak
Tidak Pernah 24 1355 0.017 0.017 0.021
Kadang-kadang 35 603 0.055 0.057 0.044
hampir tiap malam 21 192 0.099 0.096 0.093
Tiap malam 30 224 0.118 0.116 0.132

 

Coba bahas secara praktis kegunaan model tersebut. Begitu juga secara teoritis kedua pendekatan model(mengapa pendekatan linier dalam hal ini masih bisa dilakukan).

Gambar grafik untuk kedua model tersebut.

Solusi

Kegunaan kedua model tersebut adalah untuk menduga berapa peluang seseorang terkena penyakit jantung jika orang tersebut mengorok dalam tidurnya sesuai dengan tingkat ngorok yaitu tidak pernah (0), kadang-kadang (2), hamper tiap malam (4), dan tiap malam (5).

 

1. Linear Fit

Model

Dari nilai fit yang didapat pada tabel 1, pendekatan linear masih bias dilakukan karena:

  1. Nilai proporsi yang didapat masih dalam rentang 0 – 1, hal ini masih relevan karena nilai peluang berkisar 0 dan 1.
  2. Plot data dari persamaan regresi diatas dengan nilai :
Y X
0.017 0
0.055 2
0.099 4
0.118 5

 

Didapat hasil  sebagai berikut:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Dari plot diatas terlihat bahwa titik-titik data dapat di tarik garis lurus, hal ini yang mengindikasikan bahwa data tersebut dapat dimodelkan dengan persamaan regresi li near sederhana.

 

  1. Nilai dugaan parameter koefisien yaitu  dan  masih logis diinterpretasikan.

Hasil olahan SAS (karena SAS yang bias digunakan pendugaan parameternya menggunakan metode ML) didapat koefisiennya:

Algorithm converged.

 

Analysis Of Parameter Estimates

Parameter

DF

Estimate

Standard Error

Wald 95% Confidence Limits

Chi-Square

Pr > ChiSq

Intercept

1 0.0161 0.0011 0.0140 0.0182 222.37 <.0001

X

1 0.0204 0.0003 0.0198 0.0211 4033.40 <.0001

Scale

1 0.0012 0.0004 0.0006 0.0025    

 

 

bo = 0,0161 artinya jika seseorang tidak ngorok dalam tidurnya, maka peluang terkena penyakit jantung sebesar 1,61%.

b1 = 0,0204 artinya jika seseorang tingkat kengorokannya naik sebanyak satu satuan maka peluang terkena penyakit jantung akan naik  sebesar 2,04%.

 Tetapi model linear sederhana ini tidak dapat digunakan dalam prediksi. Jika kita menambah tingkat kengorokan menjadi lebih besar, maka nilai peluang yang didapat akan menjadi besar > 1. hal ini yang menjadi kelemahan dari model regresi linear sederhana.

 

2. MODEL LOGISTIK

           

Ditansformasi kelogit:

 

Sehingga didapat nilai fit logit yaitu

Model ini digunakan karena respon yang kita punya adalah data kategorik sehingga lebih tepat dalam menduga atau memprediksi.

Plot dari model logistik data diatas adalah

 

Dari plot diatas terlihat bahwa nilai dugaan logit membentuk garis melengkung dan jika diteruskan untuk x(tingkat ngorok yang lebih besar) maka peluangnya akan mendekati nilai 1 (gambar sigmoid)

Gambar ketiga kurva dari model regresi linear sederhana dan logit

 

 

JADI, untuk data pada table 1 dapat digunakan model regresi linear sederhana walaupun tidak tepat digunakan dalam memprediksi untuk tingkat ngorok yang lebih besar (regresi linear sederhana dapat digunakan untuk data yang tidak kontinu/data kategorik). Regresi logistik dapat digunakan untuk data kategorik pada table 1.

 

  1. PENUTUP

Berdasarkan pembahasan diatas dapat disimpulkan bahwa penggunaan model regresi logistik dalam menelaah berbagai respon yang terdiri atas data biner didasarkan atas pertimbangan empirik dan teoritis seperti halnya telah dijelaskan diatas bahwa Regresi logistik adalah prosedur pemodelan yang diterapkan untuk memodelkan variabel respon (Y) yang bersifat kategori berdasarkan satu atau lebih variabel prediktor (X)

Dari contoh penerapan yang tertera diatas penggunaan regresi logistik bukan hanya yang bernilai kategorik tetapi bisa juga digunakan pada data yang bernilai numerik.

Dari bahsan diatas penyusun mengaku masih banyak sekali kekurngan dan ketidak lengkapan pembahasan ini dikarenakan pemahaman penyusun masih terbatas tentang bahsan regresi logistik tersebut, tetapi penusis berharap dengan tugas ini menjadi aspirasi bagi penulis untuk melanjutkan pembahsan dan sekaligus penelitian dilapangan untuk menyusun karya ilmiah (tesis). Akhirnya masukan dan tanggapan yang positif bi butuhkan untuk melengkapi tugas ini.

 

Daftar Pustaka

 

Agresti, A (2007), An Introduction Categorical Data Analysis, John Wiley and Sons.Inc, New York.

Hosmer, D.W. dan Lemeshow, S. (2000), Applied Logistic Regression, second edition, John Wiley & Sons, USA

Juanda, B (2009), Ekonometrika Pemodelan dan pendugaan, IPB Pers

Ryan, P Thomas 1997), Multilevel Modern Regression Methods, John Wiley and Sons.Inc, New York.

www.ats.ucla.edu/stat/stata/topics/logistic_regression.htm&ei=OUQWSo-hGoWdkAW6rM3tDA&sa=X&oi=translate&resnum=2&ct=result&prev=/search%3Fq%3DLOGISTIC%2BREGRESSION%2BBINARY%2BWITH%2BMOVIE%26hl%3Did (didownload pada 12-05-2009, jam 12 .30 WIB).

Kurnia A (  ), Binary Response and Logistic Regression Analysis, Bahan Kuliah, IPB

Warsono (1997), Model Regresi Logistik, Paper, FMIPA UNILA

 

REGRESI LOGISTIK

(BINER)

 

Ditulis dan diajukan untuk memenuhi sebagian dari persyaratan mata kuliah Analisis Regresi Terapan pada Program SPs Mayor Statistika Terapan  

 

                                   Pengampu : Dr.Ir. Hari Wijayanto, MSi

 

 

 

 

 

 

 

 

 

 

Oleh:

Syamsul Hadi

 G 152 080 174

 

                                                                                                            

 

 

 

 

DEPARTEMEN STATISTIKA  FAKULTAS MIPA

SEKOLAH PASCASARJANA (SPs) INSTITUT PERTANIAN BOGOR

2009

 


[1] Mahasiswa Program Pasca Sarjana – Magister Statistika Terapan, Institut Pertanian Bogor

[2] Dosen Pengampu pada Matakuliah Analisis Statistik dan Ketua Jurusan Statistika IPB


Leave a Comment so far
Leave a comment



Leave a comment