Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP
Transkript
Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP
Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences 18 (1-2):01-08, 2013 Araştırma Makalesi/Research Article Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP Regresyon* Suna AKKOL1, Hayrettin OKUT1, Sanem ŞEHRİBANOĞLU2 1 :Yüzüncü Yıl Üniversitesi, Ziraat Fakültesi, Zootekni Bölümü, Biyometri ve Genetik ABD. Kampüs VAN 2 : Yüzüncü Yıl Üniversitesi, İstatistik Bölümü, VAN. e-posta: , [email protected] ÖZET: Çeşitli çalışma alanlarında sıfır ağırlıklı sayma ile elde edilen verilerle sıklıkla karşılaşılmaktadır. Bu tip veriler için sıfır ağırlıklı Poisson (Zero-inflated Poisson: ZIP) regresyon ve sıfır ağırlıklı negatif binom (Zero-inflated negatif binomial: ZINB) regresyon kullanılmaktadır. Üzerinde çalışılan veri kümesi boylamsal (longitudinal) bir yapıya sahip olduğunda gözlemlerin bağımsızlık varsayımı geçerliliğini yitirmektedir. Bilinen yöntemler yerine bu tür verilerin analizi için son yıllarda çok seviyeli modeller kullanılmaya başlanmıştır. Bu çalışmada, sıfır ağırlıklı sayma ile elde edilen veri kümesinde gözlemlerin birbirinden bağımsız olmaması durumunda ortaya çıkan problemlerin üstesinden gelebilmek için çok seviyeli ZIP regresyon modeli kullanılmıştır. Bu amaçla boylamsal yapıya sahip sıfır ağırlıklı sayma ile elde edilen veri kümesi üzerinde bir uygulama yapılmıştır. Anahtar Sözcükler: sıfır ağırlıklı modeller, çok seviyeli modeller, Poisson ve negatif binomial regresyon, boylamsal veri. Multilevel ZIP Regression for Zero-Inflated Count Data ABSTACT: Poisson regression models are often used for analysis of zero-inflated count data from several studies. Both, zero-inflated Poisson (ZIP) and zero inflated negative binomial (ZINB) can handle the existing heterogeneity in data structure. Data are correlated and have hierarchical structure when research study that involves repeated observations of the same items over long periods of time. The aim of present paper is to introduce multilevel ZIP model to overcome on heterogeneity for zero-inflated count data and illustrate techniques for fitting and interpreting the zero-inflated Poisson regression. We provided an empirical application and illustration of the multilevel ZIP regression from a longitudinal study. Keywords: zero-inflated models, multilevel models, Poisson and Negative Binomial Regression, longitudinal data Giriş Sayma ile elde edilen veriler ile çeşitli çalışma alanlarında sıklıkla karşılaşılmaktadır. Bu tip verilerin analizinde genellikle Poisson regresyon modeli kullanılır. Fakat pratikte sayma ile elde edilen veriler yaygın olarak Poisson dağılışına göre beklenenden çok sayıda sıfıra sahip olabilirler. Dolayısıyla bu tür verilere Poisson veya Negatif Binom regresyon modeli uygulandığı takdirde parametre tahminlerindeki istenilen sapmasızlık özelliği geçerliliğini yitirir (Gosh ve diğ., 2006). 1 Poisson dağılışına uymayan çok sayıda sıfıra sahip sayıma dayalı veri için önerilen bir yaklaşım sıfır ağırlıklı (zero-inflated) Poisson dağılışının kullanılmasıdır. İki parametreli, p ve λ, olan bu dağılışta populasyonun iki tip bireyden oluştuğu varsayılır. Bunlardan birincisi p olasılıklı her zaman sıfır olan sayıma dayalı veri, ikincisi ise (1-p) olasılıklı Poisson (λ) dağılışlı sayıma dayalı veriyi içerir. Lambert (Lambert, 1992), bu dağılışı kullanarak zeroinflated Poisson (ZIP) regresyon isminde yeni bir model tanıtmıştır. Bu model aslında : Bu çalışma TÜBİTAK TOVAG 105O204 ve YYÜ BAPB 2006-ZF-B03 tarafından desteklenmiştir. Akkol ve ark., karışımlı Poisson (mixture Poisson) regresyon modelinin özel bir halidir (Dange, 2004). ZIP regresyon son yıllarda yoğun olarak çeşitli araştırmacılar (Böhning ve diğ., 1999, Lee ve diğ., 2001, Cheung, 2002) tarafından kullanılmaktadır. Veri kümesinin sıfır olmayan kısımdaki veriler aşırı yayılıma sahip ise ZIP dağılışı yerine alternatif bir yaklaşım olarak zero-inflated negatif binomial (ZINB) dağılışı gibi aşırı yayılımı dikkate alabilecek bir dağılış önerilmektedir (Cheung, 2002, Böhning, 1998, Yau ve diğ., 2003, Sheu ve diğ., 2004). Sıfır ağırlıklı sayma ile elde edilen veriler boylamsal (longitudinal) yapıya sahip olabilirler. Bu tip veriler son yıllarda çok seviyeli modelleme içinde değerlendirilmektedir (Akkol, 2004, Hall., 2000; Yau ve Lee, 2001; Hur ve diğ., 2002; Wang ve diğ., 2002). Lee ve arkadaşları (Lee ve Diğ., 2006) tarafından sıfır ağırlıklı boylamsal (longitidunal) sayma ile elde edilen veriler için çok seviyeli ZIP regresyon modeli kullanılmıştır. Bu çalışmada çok sayıda sıfıra sahip sayma ile elde edilmiş boylamsal veriler için ZIP, ZINB ve gözlemlerin bağımsızlığını yitirmesi durumunu dikkate alan çok seviyeli ZIP regresyon modelleri kullanılacaktır. Bu amaçla önce ZIP, ZINB ve çok seviyeli ZIP regresyon modelleri için genel bir değerlendirme yapılacaktır. Daha sonra çok sayıda sıfıra sahip sayma ile elde edilmiş boylamsal veriler için bu üç yöntem karşılaştırılarak veri setini için en iyi model tespit edilecektir. Yöntem Sıfır ağırlıklı Poisson (Zero-Inflated Poisson=ZIP) Regresyon Modeli: ZIP regresyon, şans değişkenleri Y ’nin karışımlı bir modele sahip olduğunu ve bunun iki alt populasyondan oluştuğunu varsayar. Bu alt populasyonlarda biri şans değişkenlerinin p olasılıkla sıfır değerinin aldığı ( Y 0 ) populasyonu gösterirken diğeri ise şans değişkenlerinin 1 p olasılığı ile değerini aldığı alt Y yi Poisson i populasyonu ifade eder. Bundan dolayı ZIP aşağıdaki gibi ifade edilir (Gosh ve diğ., 2006); pi (1 pi ) e i if yi 0, yi ~ 0 Pr(Yi yi | pi , i ) (1 pi ) e i i yi / yi ! if yi 0, yi ~ Po (i ) yi 1,2.... sırayı, ve regresyon parametrelerini göstermektedir. Bu dağılışa ilişkin ortalama ve varyans sırasıyla, E (Yi ) (1 pi )i ve var(Yi ) (1 pi )i (1 pi i ) ifade edilir. Genel olarak yukarıdaki regresyon modeli için tüm verilere ait log olabilirlik fonksiyonu (3 numaralı eşitlik) kullanılarak model parametreleri ve tahmini yapılır (Gosh ve diğ., 2006; Hall., 2000). Burada i (1 ,..., N ) ve pi ( p1 ,..., p N ) olup, her iki alt populasyonda parametre tahmini için aynı model kullanılmamaktadır. p olasılıklı alt populasyon için logit(pi) ve 1-p olasılıklı Poisson alt populasyonu için ise bağlantı (link) fonksiyonları log(i) kullanılarak modelleme yapılır. log( i ) B i (2) Yukarıda Bi ve Gi, B ve G kovaryet (açıklayıcı değişken) matrisine ilişkin i’ ninci log it ( pi ) log ( pi (1 pi )) Gi N ( , ; yi ) ui log e Gi exp e Bi (1 u i ) yi Bi e Bi log 1 e Gi (1 u i ) log( yi !) i 1 Sıfır ağırlıklı Negatif Binomial (ZeroInflated Negative Binomial=ZINB) Regresyon Modeli: Cevap değişkeni Yi’nin sıfır ağırlıklı negatif binomial (ZINB) dağılışa sahip (1) (3) olması durumunda pi olasılığı ile Yi~0 ve (1pi ) olasılığı ile Yi~ NB(i , ) gösterir ve bu dağılışın olasılık yoğunluk fonksiyonu, 2 Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP Regresyon p (1 p )(1 ) 1 i i i Pr(Yi y i ) yi i yi yi 1 (1 pi ) 1 y i ! 1 1 i yi yi 0 ZINB de şans değişkenlerinin Y karışımlı bir modele sahip olduğunu ve bunun iki alt populasyondan oluştuğu varsayılır. ZIP modelinde olduğu gibi p olasılıklı alt populasyon için logit(pi) ve 1-p olasılıklı, negatif binom alt populasyonu için ise log(i) bağlantı (link) fonsiyonları kullanılarak modelleme yapılır. ZINB dağılışına sahip herhangi bir cevap değişkeni için ortalama ve varyans sırasıyla aşağıdaki gibi verilir. (5) E ( yi ) 1 pi i , yer alan y 0 şeklinde skaler bir büyüklüğü ifade eder. ve pi ’nin her ikisin de 0’dan büyük olduğu durumlarda Yi’nin marjinal dağılışı ’dan dolayı aşırı yayılım ve pi ’den dolayı çok sayıda sıfır içerme durumu gözlenir. Yukarıda verilen (7) numaralı eşitlikte pi 0 olduğu zaman negatif binomial dağılış söz konusu olacaktır. Yine aynı eşitlikte 0 olması durumunda artık söz konusu eşitlik ZIP modele indirgenir. Yi (i 1,..., n) gözlemleri için ZINB logolabilirlik fonksiyonu 6 numaralı eşitlikteki gibi yazılır (Jansakul, 2005); Var ( y i ) 1 pi i 1 pi i i Burada i ve pi parametreleri aynı zamanda modelde yer alan açıklayıcı değişkenlere bağlı olarak değişir ve olasılık fonksiyonunda , , p; y I i yi 0 log 1 (4) yi 0 1 pi 1 i { I i yi 0 log1 pi yi log i yi log log yi y i 1 log 1 i log y i 1 log 1 } Çok seviyeli (Multi-level) ZIP Regresyon Modeli: İki seviyenin olduğu çok seviyeli bir modelleme probleminde, ilk olarak en yüksek seviyeden örnek birimler alınır. Daha sonra mevcut birimlerden alt birimler örneklenir. Söz konusu alt birimler birinci seviye alt birimleridir. Buna göre birinci seviyedeki birimler genellikle tamamen bağımsız olmazlar (Akkol, 2004; Hox, 1998; Goldstein, 1995; Agresti ve diğ., 2000). Yij , i’ninci bireye ait j’ninci tekrarı göstersin m ( i 1,2,..., m; j 1,2,..., ni ve toplam n n i i 1 sayıdır). Buna göre şansa bağlı katsayı ve eğime sahip iki seviyeli ZIP regresyon modeli aşağıdaki gibi yazılır. pij log it pij Gij w0 i w1i (7) ij log (1 p ) ij ij log( ij ) B ij u 0i u1i Yukarıdaki eşitlikte logit kısımdaki Gij sabit etkilere ait desen matrisini, bilinmeyen regresyon parametresini, w0 i ikinci seviyeye ait şansa bağlı katsayı ve (6) w1i şansa bağlı eğimi (slope) göstermektedir. log kısımdaki Bij sabit etkilere ait desen matrisini, bu kısımdaki bilinmeyen regresyon parametresini, u0 i bu kısımdaki ikinci seviyeye ait şansa bağlı katsayıyı ve u1i yine bu kısımdaki ikinci seviyeye ait şansa bağlı eğimi göstermektedir. w2 w w ~ N 0, , w w 0i 0 01 w21 u0 i 2 u ~ N 0, u , u u u1i u u01 u21 w 1i w w01 0 01 (8) Parametre tahmin edilirken kullanılan EM algoritmasının (McLachlan¸1997) M aşamasında w ve u matris elemanlarının bilindiği varsayılır. Pratikte bunlar bilinmez ve tahmin edilmesi gerekir. GLMM’e göre en iyi doğrusal sapmasız tahminleyici (BLUP) tipi log-olabilirlik, 1 2 şeklinde iki kısımda verilir (Lee ve Diğ., 2006; Yau ve Lee, 2001; Wang ve diğ., 2002). 3 Cilt/Volume: 18, Sayı/Issue1-:2. 2013 Akkol ve ark., 1 exp ij exp exp ij log 1 exp ij y ij 0 y ij ij (9) exp ij log y ij ! log 1 exp ij y ij 0 1 1 1 ww m log 2 u u u 2 m log 2 w w u 2 Başlangıçta varyans unsurlarının sabitlenmesi ile birlikte ZIP model için 1 maksimize edilmeye başlar. Bu, parametre tahminleme sürecinin ilk aşamasıdır. Daha sonra kısıtlanmış en çok olabilirlik (REML) kullanılarak varyans unsurlarının değerleri güncellenir. 1 ’deki şansa bağlı etkilerde ve parametre tahminlerinde beklenen düzeyde (10) yakınsama sağlandıktan sonra EM algoritması kullanılır. Uygulama Bu çalışmada kullanılan veri kümesi daha önce Okut ve arkadaşları (Okut ve diğ., 2005) tarafından yapılan bir çalışmada kullanılmış olan Amerika Youth Survey’den alınmıştır. Veri kümesinde kullanılan cevap değişkeni 5 yıl süre ile bireylerin evden kaçış sayılarını ifade etmektedir. Şekil 1. Bireylerin 5 yıl süre ile evden kaçış sayılarına ait frekans dağılımı Uygulama amaçlı sunulan örnekte 5 yıl süre ile aynı bireylerin her yıl evden kaçış sayıları Şekil 1’de özetlenmiştir. Modele bireylerin cinsiyeti, bir yılda kullandıkları ortalama madde kullanım sayısı, ırkı, ebeveynlerin evlilik durumu ve aile gelirleri açıklayıcı değişken olarak dahil edilmiştir. Çalışmada kullanılan veri kümesinin % 55.22’sini erkekler geriye kalanı bayanlardan oluşmaktadır. Irklar dikkate alındığında, beyazlar veri kümesinin %82.36’sını siyahlar %13.18’ini oluştururken geriye kalan %4.45’lik kısmını diğerleri olarak adlandırılan çeşitli ırklardan insanların bir araya geldiği grubu ifade etmektedir. Çalışmaya dahil edilen bireylerin ebeveynlerine ait medeni durumları iki başlık altına toplanmıştır. Bunlardan ebeveynin evli olduğu bireylerin toplam bireyler içindeki oranı % 79.33 iken bekar olanların oranı %24.67’dir. Ailenin geliri ve madde kullanımına ilişkin temel istatistikler Çizelge 1’de özetlenmiştir. Çizelge 1. Analizde değişkenler için temel istatistikler Değişken Aile geliri Madde kullanımı Birinci Yıl İkinci Yıl Üçüncü Yıl Dördüncü Yıl Beşinci Yıl kullanılan Ortalama (St.Sapma) 4.31 (2.33) 5.34 (4.48) 6.22 (5.09) 8.72 (6.36) 9.34 (6.73) 8.75 (4.81) Bulgular ve Tartışma Çalışmada kullanılan veri kümesindeki cevap değişkeni olan bireyin evden kaçış sayısı yaklaşık olarak %95’i sıfır değerine sahiptir. Bu oran saymayla elde edilen veriler için beklenenden daha yüksektir. Dolayısıyla veri kümesinin analizi için öncelikle ZIP ve ZINB, daha sonra iki seviyeli ZIP regresyon analizi uygulanmıştır. Bu amaçla analizler yapılırken Stata (Stata/SE 9.0) ve SAS (SAS, 2007) paket programları kullanılmıştır. Çok sayıda sıfıra sahip boylamsal veri kümesi için kullanılan ZIP ve ZINB regresyon modeli 4 Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP Regresyon için aynı açıklayıcı değişkenler, modelin hem lojistik hem de log kısmında değerlendirmeye alınmıştır. Tahmin edilen parametre sonuçları Çizelge 2. ZIP ve ZINB regresyon modeline ilişkin sonuçlar Değişkenler/Parametreler Logistic ij log it pij Gij ve bunlara ait standart hatalar Çizelge 2 ile sunulmuştur. ZIP ZINB Sabit Gelir düzeyi Cinsiyet Madde kullanımı Etnisite Medeni durum Yaş Log ij log(ij ) B ij 0.1851(.8274) -0.0701(.0582) -0.5306(.1705)** -0.1097(.0135)** 0.6412(.2137)** -0.2812(.1990) 0.2393(.0419)** -7.7424(3.068)* 0.1332(.1352) -0.9605(.4762)* -0.0929(.0299)** 2.45848(.7818)** 1.2273(.5498)* 0.2963(.1400)* Sabit Gelir düzeyi Cinsiyet Madde kullanımı Etnisite Medeni durum Yaş -0.0359(.0741) -0.3458(.0467)** -0.4021(.1233)** 0.0029(.0094) 0.7415(.1368)** -0.0989(.1403)* 0.0847(.0335) -4.0287(1.446)** -0.1567(.0694)* -0.3784(.2778) 0.0816(.0212)** 2.0408(.5310)** 1.0473(.3337)** -0.0595(.0989) 1.9926(.2770)** 1 Regresyon modelini iki kısımda inceleyen sıfır ağırlıklı modellerden ZINB veri kümesinde sıfır olmayan kısımda aşırı yayılım olduğu zaman kullanılır. Eğer aşırı yayılım yoksa ZIP regresyon ZINB’ye tercih edilen regresyon modeli olur. Çizelge 2 incelendiğinde aşırı yayılımı modelleyen önemli olduğu dikkat 1 ’nin çekmektedir. Bu parametrenin önemli olması aşırı yayılımın varlığını göstermektedir. Bu çalışmada kullanılan veri kümesi için aşırı yayılımı dikkate alan ZINB regresyon modeli ZIP modele tercih edilmektedir. Üzerinde çalışılan veri kümesi için elde edilen Voung testi (Moghimbeigi ve diğ., 2009) sonuçlarına göre ZIP regresyon, Poisson regresyona tercih edilmiştir. Benzer sonuç negatif binom için de elde edilmiş ve ZINB regresyon, NB regresyona tercih edilen regresyon modeli olarak tespit edilmiştir. Çok sayıda sıfıra sahip veri kümesi için bu beklene bir sonuçtur. Veri kümesindeki boylamsal yapıyı dikkate alan bir yaklaşım, çok seviyeli modellemedir. Bu yaklaşım ile bireylere ait beş tekrarlı olarak elde edilen veri kümesi, birey içi yıllar olmak üzere bir sınıflandırmaya sahiptir. Burada tekrarlar birinci ve bireyler ikinci seviye olmak üzere veriler iki seviyeli model özelliği göstermektedir. Bu tip veriler için kullanılan modellere aynı zamanda büyüme eğrisi modelleri (growth curve models) ismi de verilmektedir (Okut ve diğ., 2005). Çok seviyeli modelleme kullanılarak her iki seviyeye ilişkin şansa bağlı etkiler ve dolayısıyla bunlara ait varyans ve kovaryanslar modele tanıtılmıştır. İki seviyeli ZIP regresyon modelinden elde edilen sonuçlar modelin her iki kısmı ( Logit ve Log) için Çizelge 3’de verilmiştir. 5 Cilt/Volume: 18, Sayı/Issue1-:2. 2013 Akkol ve ark., Çizelge 3. Çok seviyeli ZIP regresyon modeline ilişkin sonuçlar Logit Kısım Değişkenler Log Kısım ij log(ij ) pij Sabit 0.917 ij log (1 p ) Bij u0i u1i Gelir düzeyi -0.063 ij Cinsiyet -0.570** logit pij Gij w0i w1i Madde kullanımı 0.089** Etnisite 0.283* Medeni durum 0.067 Yaş -0.198** 0.0408 Var w0i w20 Değişkenler Sabit Gelir düzeyi Cinsiyet Madde kullanımı Etnisite Medeni durum Yaş Varyans ( ˆ 0i ) -0.5625 -0.400** -0.506** 0.195** -0.247** 0.004 0.0107 2.888 Varw1i w21 0.05912 Varyans( ˆ1i ) 0.042 covw0i , w1i w01 0.2099 Co var yans( ˆ 0i , ˆ1i ) 3.304 *:p<0.05, **:p<0.01 Boylamsal yapıya sahip sıfır ağırlıklı saymayla elde edilen veriler için en iyi modeli belirlemek üzere ZIP, ZINB ve iki seviyeli ZIP regresyon modelleri için logolabilirlik, AIC ve BIC değerleri Çizelge 4’te verilmiştir. Çizelge 4. Kullanılan Modeller İçin Log-olabilirlik, AIC ve BIC Değerleri Model Log-likelihood AIC ZIP -1323.7 2675.5 ZINB -1067.7 2165.4 İki seviyeli ZIP -985.2 2014.4 Yukarıdaki çizelgeye göre ZINB regresyon modelinin ZIP’den daha iyi logolabilirlik, BIC ve DIC değerlerine sahip olduğu görülmektedir. Zira ZIP’den farklı olarak modelde yer alan yayılım parametresi önemli bulunmuştur. İki seviyeli ZIP regresyon modeli ise hem ZIP hem de ZINB regresyon modellerinden daha iyi bulunmuştur. Çünkü iki seviyeli ZIP regresyon modeli veri kümesindeki boylamsal yapıyı dikkate almaktadır. Başka bir ifadeyle çok seviyeli modelleme boylamsal veri yapısını dikkate alarak parametre tahmini yapmakta ve bu nedenle çok sayıda sıfıra sahip boylamsal veri kümesi için ZIP ve ZINB’ye tercih edilmektedir. Sonuç Sayma ile elde edilen veri kümesinde çok miktarda sıfır olması durumunda ZIP regresyon (Gosh ve diğ., 2006) modeli Poisson regresyona tercih edilir. Veri kümesinin sıfır olmayan kısmında aşırı yayılım söz konusu ise ZINB regresyon modeli kullanılmaktadır (Böhning, 1998; Ridout ve diğ., 2001). Bu çalışmada kullanılan cevap değişkeni bireylerin evden kaçma sayılarını göstermekte ve büyük oranda sıfır (%95) içermektedir. Çalışmaya BIC 2765.5 2261.8 2155.4 başlarken bu veri kümesi için ZIP ve ZINB regresyon modelleri kullanılmıştır. Çizelge 4’de verilen sonuçlar gösterdi ki üzerinde çalışılan ZINB regresyon, veri kümesinin uyumunu ZIP regresyondan daha iyi yapmıştır. Tablo 3’de verilen yayılım parametresinin () önemli çıkması veri kümesinde bir aşırı yayılımın olduğunu ve bunun modellenmesi ile uyumun daha iyi olabileceğini göstermektedir. Boylamsal yapıya sahip bir veri kümesi aynı zamanda hiyerarşik bir yapı sergiler. Bu tip hiyerarşik bir yapıya veya sınıflandırmaya sahip verilerin analizi için son yıllarda çok seviyeli modelleme kullanılmaya başlanmıştır (Yau ve Lee, 2001; Lee ve Diğ., 2006; Moghimbeigi ve diğ., 2009; Lochner, 2003). Veri kümesindeki boylamsal yapının varlığını dikkate alan çok seviyeli modelleme ile gözlemlenemeyen heterojenlik kaynağı dikkate alınmaktadır. Çalışmada kullanılan ZIP, ZINB ve iki seviyeli ZIP regresyon analizinin Toblo 4 ile verilen sonuçları değerlendirildiğinde, iki seviyeli ZIP regresyon analizine ait değerlerin (log-olabilirlik=-985.2, AIC=2014.4 ve BIC=2155.4) en küçük değerler olduğu tespit edilmiştir. Dolayısıyla 6 Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP Regresyon çalışmada kullanılan regresyon modellerinden (ZIP, ZINB ve iki seviyeli ZIP) en iyisinin, iki seviyeli ZIP regresyon olduğu sonucuna varılmaktadır. Kaynak Agresti A., Booth J. G., Hobert J. P. and Caffo B., “Random Effect Modelling of Categorical Response Data”, Sociological Methodology, 30 (1), 2780. 2000 Akkol S., “Çok seviyeli genelleştirilmiş doğrusal modellerde parametre tahminlemesinde MQL, PQL ve MCMC yöntemlerinin karşılaştırılması”, Doktora Tezi, Ziraat Fakültesi, YYU, 2004. Böhning D., “Zero- Inflated Poisson Models and C.A.MAN: A Tutorial Collection of Evidence”, Biometrical Journal 40(7), 833-843, 1998. Böhning D., Dietz E., Schlattmann P., Mendonça L., Kirchner U., “The zeroinflated Poisson modeland decayed , missing and filled teeth index in dental epidemiyology”, Jornal of Royal Statistical Society, series A, 162, 10301039, 1999. Cheung Y. B. “Zero-inflated models for regression analysis of count data: a study of growth and development”, Statistics in Medicine, 21, 1461-1469. 2002. Dagne A. G., “Hierarchical Bayesian Analysis of Correlated Zero-inflated Count Data”, Biometrical Journal, 46(6), 653–663. 2004. Ghosh S. K., Mukhopadhyay P., and Lu J. C., “Bayesian Analysis of Zero-Inflated Regression Models” Journal of Statistical Planning and Inference, 136(4), 1360-1375, 2006 Goldstein, H., 1995. Multilevel Statistical Models, http://www.google.com.tr/search?hl=tr& q=Applied+Multilevel+Analysis+hox&b tnG=Ara&aq=f&aqi=&aql=&oq=&gs_r fai= Hall D.B., “Zero-inflated Poisson and binomial regression with random effects: a case study”, Biometrics, 56, 1030-1039. 2000. Hox J. “Multilevel Modelling in Windows; A Reviev of MLwiN”, Multilevel Modelling Newsletter, 10(2):2-5, 1998. Hur K., Hedeker D., Henderson W., Khuri S., Daley, J., “Modeling clustered count data with excess zeros in health care outcomes research”, Health Serv. Outcomes Res Method, 3, 5-20. 2002. Jansakul N. Fitting a zero-inflated Negative Binomial model via R”, In Proceedings 20th International Workshop on Statistical Modelling, Sidney, Australia, 277-284, 2005. Lambert D., “Zero-inflated Poisson regression, with an application to defects in manufacturing”, Technometrics , 34:1-14, 1992 Lee A. H., Wang K., Yau KKW, “Analysis of zero-inflated Poisson data incorporating extend of exposure”, Biometrical Juornal, 43, 963-975, 2001. Lee A.H., Wang K., Scott J.A., Yau K.K.W., McLachlan G.,J., “Multi-level zeroinflated Poisson regression modeling of correlated count data with excess zeros”, Statistical Methods in Medical Research, 15, 47-61, 2006. Lochner, K.A., Kawachi, I., Brennan, R.T., Buka, S.L., “Social Capital and Neighborhood Mortality Rates in Chicago”, Social Science&Medicine, 56, 1797-1805, 2003. McLachlan G J., “On the EM algorithm for overdispersed count data”, Statistical Methosds in Medical Research, 6, 7698, 1997. Moghimbeigi A., Eshraghian M. R., Mohammad K., McArdle B., “Multilevel zero-inflated negative binomial regression modeling for overdispersion count data with extra zeros”, Journal of Applied Statistics, 35(10), 1193-1202, 2008. Moghimbeigi A., Eshraghian M. R., Mohammad K., McArdle B.,”A score test for zero-inflation in multilevel count data”, Computational Statistics and Data Analysis, 53, 1239-1248, 2009. Okut H., Duncan C. S., Duncan E. T., “Growth Mixture Modeling of ZeroInflated Count Data”, JSM (Joint Statistical Meeting), Minneapolis, 2005. 7 Cilt/Volume: 18, Sayı/Issue1-:2. 2013 Akkol ve ark., Ridout M., Hinde J., Demétrio C.G.B. “A Score test for testing a zero-inflated Poisson regression model against zeroinflated negative binomial alternatives”, Biometrics, 57, 219-223. 2001. SAS, 2007. SAS/STAT, Carry Inc. Religh, NC. Sheu M., Hu T., Keler T. E., Ong M., Sung H. Y., “The effect of a major cigarette price change on smoking behavior in California: a zero-infated negative binomial model”, Health Economics, 13: 781–791, 2004. Singer J.D., “Using SAS PROC MİXED to fit multilevel models, hierarchical models, and individual growth models”, Journal of Educational and Behavioral Statistics, 24(4), 323-355, 1998. Stata 9. Data Analysis and Statistics Software. College Station. Texas 77845. Vuong Q.H., “Likelihood ratio test for model selection and non-nested hypotheses”, Econometrics, 57(2), 307-333, 1989. Wang K., Yau K. K. W., Lee A. H., “A zeroinflated Poisson mixed model to analyze diagnosis related groups with majority of same–day hospital stays”, Comput. Methods Programs Biomed., 68, 195203, 2002. Yau K. K. W, Lee A. H. “Zero-inflated Poisson regression with random effects to evaluate an occupational injury prevention programme”, Satatistics in Medicine, 20, 2907-2920. 2001. Yau K. K. W., Wang K., Lee A. H. “Zeroinflated negative binomial mixed regression modeling of over-dispersed count data with extra zeros”, Biometrical Journal, 45,437-452. 2003. 8 Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences
Benzer belgeler
Özgeçmiş - GRUMLAB
phytoplankton in a eutropic lagoon (Liman Lake, Turkey)”. Journal of Environmental
Biology, 31, 629-636.
A10. MARASLIOGLU, F., SOYLU, E. N., GONULOL, A. 2013. Seasonal variation and
occurrence of a...
Final Technical Program Turkeytrib`15
Conference lunch (7-9 October 2015) will be given at B Building (top floor with a
Bosphorous view) “Çatı Restaurant” of Yıldız Campus (the building next to the
Conference Hall), Yıldız Technical Un...