ODTU Istatistik e
Transkript
ODTU Istatistik e
ODTÜ İstatistik e-bülten Ocak-Mart 2016 Zeynep Kalaylıoğlu Hoşgeldiniz... Son e-bültenden beri üç ay geride kaldı. Bu üç ay içerisinde çok şeylerin hızla olduğuna, değiştiğine, başladığına, bittiğine tanık olduk, oluyoruz... herşeyi, bilincimizde farkında olarak İnsan beyni ise olan hissettiğimiz kederlerden kaygılardan bağımsız, kaydediyor sürekli. Bize düşen sadece, "yaşamak". Doğanın ve evrenin ritmiyle uyum içerisinde yaşamak. Matematik ile klasik müzik ve şiir bu ritmde yaşayan beyinlerin eseri. Ve ünlü matematikçi Gelfand'ın dediği gibi matematik ile klasik müzik ve şiirin, ortak özellikleri: güzellik, yalınlık, kesinlik, ve çılgın düşünceler (kendisinin kullandığı tam kelimelerle; beauty, simplicity, exactness, and crazy ideas). Merkezi limit teoreminin de, bir Tschaikovsky keman konçertosunun da, ve bir Mevlana Celaleddin Rumi şiirinin de insanda uyandırdığı aynı arılıktaki engin hislerin benzerliği başka nasıl açıklanabilirdi ki ..İnsan beyni, bu müthiş elektrokimyasal organ, bizi bugün, dünyamızdan bir milyar ışık yılından daha uzak iki kara deliğin birleşmesi ile ortaya çıkan muazzam çekimle uzay-zamanda oluşan dalgayı ölçebildiği bir çağa getirdi. Bu sayıda, okuma kısmında, bu ölçümlerin yapıldığı LİGO Projesin'de, bu müthiş ve Şubat ayında hepimizi yerinden hoplatan sonuçların ardında yatan istatistiksel veri analizlerinden bahsedeceğiz. Ayrıca geçen sayımızda da olduğu gibi, bu sayıda da bölümümüzde çalışılan doktora araştırmalarından birisine yer verdik. Ve yine bu sayıda da, geçtiğimiz üç ayda bölümümüzde gerçekleşen araştırma-eğitim-topluma hizmet faaliyetlerinden oluşan bir örneklem sunacağız. Doç. Dr. Zeynep Kalaylioglu ODTÜ İstatistik Bölümü Bölüm Başkan Yardımcısı 2 Kısa Kısa... • Mezunlarımızdan Dr.Timur Hülagü (T.C.Merkez Bankası) "İstatistik Dünyasında Son Eğilimler: Büyük Veri, Veri Paylaşımı ve Üniversite-Kamu İşbirliği" konulu bir seminer vermiştir. • Mezunlarımızdan Dr. Pınar Erdem (T.C. Merkez Bankası) "Are Macroprudential Policies Effective Tools to Reduce Credit Growth in Emerging Markets?" başlıklı bir seminer vermiştir. • Öğretim üyelerimizden Doç.Dr. Vilda Purutçuoğlu'nun, 23 Mart 2016 tarihinde düzenlenen “European Cooperation for Statistics of Network Data Science” adlı COST Projesinde Türkiye adına yönetim komitesi üyesi olarak Yönetim Komitesi 1.Toplantısı’na katılmak üzere Belçika’ya gitmesi planlanmıştı (22 Mart Brüksel terör olayı ile ertlendi). • İstatistik Topluluğu’nca, psikolog ve yazar Azra Kohen'in konuşmacı olarak katıldığı bir söyleşi düzenlenmiştir. • İstatistik Topluluğu’nun bu yıl başlattığı 1 ay 1 mezun etkinlikleri kapsamında, Mart ayında, 1989 Mezunu Hakan Şahin iş hayatındaki tecrübelerini içeren bir sunum ve ardından söyleşide bulundu. • Matematiksel İstatistik dersi öğrencilerimiz, mezunlarımızdan Cem Şen (Türk Tuborg) ile bir söyleşiye katılmışlardır. • ODTÜ Rektörlük Bilimsel Araştırma Projeleri Koordinatörlüğün'den destekli birinci İstatistik Kampüs Projes'ni hayata geçirdik. Proje konusu ODTÜ kampüsünde çöp kutularının içerisine girmeyen katı atıkların analizi ve çözüm önerileri. Lisans öğrencilerinden oluşan 20 kişilik araştırma ekibimiz ve konuyla ilgili olarak Çevre Mühendisligin'den bir akademik danışman ile çöp kutularının dışında yerlerde bulunan geri dönüştürülebilecek atıklar ve gıda atıklarının mekansal ve zamansal dağılmı modellenecek, analizlerle birlikte proje sonucunda, çevre kirliliği, hijyen ve çevre estetiğini korumak için çöp kutularının ve konteynırlarının 3 sayıları ve lokasyonlarına dair bir model oluşturulacaktır. Araştırma. Zaman Serilerinde Kümeleme Analizi ve Kümelerin Zamansal Bağımlılığı Sipan Aslan, ODTÜ İstatistik Bölümü Doktora öğrencisi İktisat, sosyoloji, işletme, arkeometri, biyoloji, meteoroloji, bilgisayar bilimleri, sinir bilimleri gibi pek çok ve farklı disiplinlerde oldukça yaygın uygulama alanı bulunan kümeleme (clustering) analizi, etiket(label) ya da taksonomik bilgileri bilinmeyen gözlemler arasından türdeş özellikte ki gözlem gruplarının belirlenmesi amacına yönelik geliştirilen istatistiki yöntemler bütünü olarak tanımlanabilir. Kümeleme analizi, gözlemlerin gerçekte ait olabileceği taksonomik (class) bilgileri bilinmediği için öğreticisiz(unsupervised) öğrenmeye dayalı olmak durumundadır. Diğer bir deyişle, elimizdeki gözlemlerin sınıflarını tanımlayan niteliksel bilgiler mevcut olsaydı (yani bir öğretici araca sahip olabilseydik) gözlemlerin bu taksonomik bilgilerle uyumluluğunu belirlemek ve sınıflamak (classification) öğreticili (supervised) öğrenmeyle ve neredeyse matematiksel bir kesinlikle mümkün olabilecekti. Örneğin, bir fabrika üretim sürecinde bozuk ürün ve sağlam ürün sınıflarını betimleyen bilgilere tümüyle sahip olduğumuzu düşünelim. Üretim bandından çıkan son ürünün bu iki sınıftan hangisine ait olduğunu belirlemek pek zor olmayacaktır. Bu açıdan bakıldığında, kümeleme analizinde, sınıflamadan farklı olarak, bilimsel (belirli bir amaca yönelik ve sınanabilir) bir nitelik taşıyan, kendi içinde türdeş(homojen) birbirleri arasındaysa türdeş olmayan (heterojen) grupların elde edilmesi amacıyla yönelebileceğimiz ve araştırabileceğimiz tek şeyin sadece gözlemlerin sahip olduğu değişkenlikler olduğunu görmekteyiz. Bu inceleme, istatistik biliminin konusu olmakla birlikte, analizlerden elde edilen bilgilerin birbiriyle kıyaslanması için de yine istatistiki özellikte bir ölçeğe ihtiyacımız olacaktır. 4 Literatürde, kümeleme analizleri için kullanabilecek pek çok yöntem mevcut olmakla birlikte, tartışmamız, kümeleme analizine konu olacak verilerin zamana bağımlı (dinamik) olması ya da zamana bağımlı olmaması (statik) gibi temel ve belirleyici doğal durumları üzerine derinleştirilebilir. Burada akla gelen temel sorulardan biri, kümeleme analizinde kullanacağımız yöntemlerin, zamana bağımlı veri yapılarını (zaman serisi verilerini) incelemek söz konusu olduğunda ne derece etkin olabilecekleridir. Çünkü zamana bağlı verilerin dizisel korelasyon (autocorrelation) içermesi ve yine zaman serisi değişkenlerinin birbiriyle olan ilişkilerinin zamana bağımlı değişkenlikler sergileyebilmesi analiz aşamasında çözümleri araştırılması gereken olgulardır. Kısaca belirtmek gerekirse, kümeleme probleminde zaman serileri söz konusu olduğunda, zaman boyutundan bağımsız bir analiz yöntemi uygun bir yaklaşım olmayacaktır. Doktora çalışmamızın hedeflerini bu sorunsal üzerinde kurgulayıp, zaman serisi kümeleme literatürüne bu yönüyle katkıda bulunmayı amaçlamaktayız. Konuya ilişkin ayrıntılı bilgi ve literatür taraması için Liao (2005); Fu (2011) ve Aghabozorgi vd. (2015) örnek olarak verilebilir. Doktora tez çalışmamızda, zaman serilerinde kümeleme analizi üzerine önerdiğimiz yaklaşımdan bahsetmeden önce, tezimizde tartıştığımız konun daha kolay anlaşılması bakımından, üzerinde çalıştığımız uygulama alanlarından birisi üzerine okuyucunun dikkatini çekmek isteriz. Uygulama örneği olarak vermek istediğimiz problem, Türkiye iklim bölgelerinin kümeleme analiziyle belirlenmesi problemi olarak adlandırılabilir. Bu uygulamada incelediğimiz veriler, ülke geneline yayılmış meteorolojik gözlem istasyonlarından elde edilen sıcaklık, yağış, basınç vb. gibi meteorolojik değişkenlerin geçmişe dayalı yer gözlemleridir. Burada, kümeleme analizine esas teşkil eden gözlem istasyonları, çok değişkenli zaman serileriyle ifade edilmektedirler. İstasyonları, gözlemledikleri zaman serilerini baz alarak, birbiriyle olan benzerlikleri ya da türdeşlikleri bakımından gruplara ayırmayı hedeflemekteyiz. Grup içi benzerlik düzeyinin en yüksek olduğu ve aynı zamanda gruplar arası benzerlik düzeylerinin en düşük olduğu durumda ortaya çıkan sonuç (harita) iklimsel açıdan değerlendirilebilecek ve farklı iklim bölgelerinin ayrıştırılıp tartışılabileceği bilgiyi üretecektir. Örneğin, Şekil 1 de, 1950 – 1980 yılları arası sadece aylık toplam yağış değişkenin değerlendirildiği kümeleme analizine ilişkin sonuçları görmekteyiz. Bu örnek haritada, daireyle gösterilen noktalar istasyon lokasyonlarını, farklı renkte gösterilen bölgeler (12 bölge) ise analiz sonucunda aynı grupta/kümede yer alan istasyonları göstermektedir. 5 Çalışmamızda üzerinde durduğumuz ve tartışmak istediğimiz diğer önemli bir konu ise küme yapılarının da zamana bağımlı olabilecek yapılarını belirleyebilmektir. Zaman periyodu değiştikçe küme yapılarında da değişkenlik beklenebilir. Dolayısıyla kümeleme analizinde kullanılan yöntemin bu türden değişkenlikleri dikkate alacak şekilde belirlenmesi önemlidir. Örneğin, Şekil 2 de gördüğümüz üzere, yağış değişkeni için analize tabi tutulan zaman periyodu 1981 – 2010 olarak alındığında, küme yapılarında 1950 – 1980 dönemine göre bazı değişimler gözlemlenmektedir. Tezimizde önerdiğimiz zaman serileri kümeleme yaklaşımının geçerliliğini sınadıktan sonra, yukarıda verdiğimiz örnek özelinde, küme yapılarında gözlemlediğimiz zamana bağlı değişimlerin iklim değişikliği açısından yorumlanabilecek sonuçlar olduğunu söylemek mümkün olabilecektir. Türkiye iklim bölgelerinin kümeleme yöntemiyle belirlenmesi probleminde kısaca örneklediğimiz ve doktora tez çalışmamızda konu edindiğimiz soruları iki ana başlık altında genelleştirilebiliriz. (I) - Zaman serilerinde kümeleme analizi için uygun yaklaşımın araştırılması. (II) - Önerilen yaklaşımın zamana bağlı küme yapılarının elde edilmesine elverişli olup olmadığının incelenmesi. Zaman serilerinde kümeleme problemine önerdiğimiz yaklaşım, temel olarak, serileri meydana getiren ve gerçek yapısını bilemeyeceğimiz veri üretim mekanizmaları hakkında ayırt edici bilgiler edinmeye dayanmaktadır. Diğer bir deyişle, zaman serilerinin birbirlerine benzerliklerinin doğru bir şekilde belirlenmesi ve gruplanması için, serileri üreten “kaynak” yapılar hakkında model bazlı yaklaşımlar ile ayırt edici bilgilere ulaşmak gereklidir. İdeal durum, yukarıda verilen fabrika örneğinde olduğu üzere, serileri üreten mekanizmaların tümüyle biliniyor olduğu durumdur ve incelenen serilerin bu mekanizmalara uygunluğunun araştırılmasıyla sınıflandırılmaları mümkündür. Gerçekte karşılaştığımız durum çoğunlukla ideal durumun tam tersidir. Örneğin, zaman serileri analizinde yapılan uygulamalar, seriyi meydana getiren asıl mekanizmanın bilinmesi mümkün olmadığı için, genellikle seriyi üreten veri mekanizmasına istatistiksel zaman serisi modelleri aracılığıyla yaklaştırımda (approximation) bulunmaya dayanmaktadır. Burada ancak kullanışlı işe yarar modellerden bahsetmek mümkündür ki, bu da önerdiğimiz kümeleme yaklaşımın temel dayanağını oluşturmaktadır. Bu bağlamda, önerdiğimiz kümeleme yaklaşımının model bazlı kümeleme analizi sınıfına dâhil olduğunu ifade edebiliriz ve yaklaşımın aşamalarını 4 adımda genelleştirebiliriz; 6 • Yaklaşımda kullanılacak zaman serisi modellerinin belirlenmesi. • Kümeleme analizinde incelenen serilerin belirlenen modellerle olan ortaklıklarının belirlenip özellik (feature) vektörlerine/matrislerine dönüştürülmesi. • Her bir seriye ilişkin özellik vektörlerinin/matrislerinin karşılaştırılması ve gruplanması. • Özellik vektörlerinin/matrislerinin zamana bağlı değişimlerini göz önüne alarak zamana bağlı küme yapılarının belirlenmesi. Önerdiğimiz yaklaşımın etkinliği bir dizi simülasyon senaryosuyla sınanarak ve gerçek veriler üzerine (EEG sinyalleri ve Emtia fiyat serileri) uygulamalarla örneklendirilerek değerlendirilmektedir. Kaynaklar: 1. Liao, T. W. (2005). Clustering of time series data survey. Pattern recognition 38 (11), 1857-1874. 2. Fu, T.C. (2011). A review on time series data mining. Engineering Applications of Artificial Intelligence 24 (1), 164-181. 3. Aghabozorgi, S., A. S. Shirkhorshidi, and T. Y. Wah (2015). Time-series clusteringa decade review. Information Systems 53, 16-38. ________________________ Sipan Aslan, doktorasına ODTÜ İstatistik Bölümün'de, Yrd. Doç. Dr. Ceylan Yozgatlıgil ve Doç. Dr. Cem İyigün (ODTÜ Endüstri Mühendisliği Bölümü) danışmanlığında devam etmektedir 7 Ligo Projesi: Gözlemevlerinden elde edilen sinyal verilerinin istatistiksel analizleri ve iki kara deliğin birleşmesi ile uzay-zamanda ortaya çıkan dalganın keşfi Doç. Dr. Zeynep Kalaylioglu Şubat ayında Ligo Projesin'de çalışan bilim insanları (astrofizik, matematik, istatistik vb. alanlarındaki araştırmacılardan oluşan 127 kişilik bir araştırma ekibi), Physical Review Letters dergisinde bir makale yayımladılar. Makalenin başlığı "İkili kara delik birleşiminden gelen çekimsel dalga gözlemleri Observations of gravitational waves from a binary black hole merger" idi. Bu yayınla birlikte dünyadaki yaygın haber kanalları (başta BBC olmak üzere), bu haberi bilimsel dergiden çıkarıp dünyadaki bütün insanlara ulaştırdılar. Bulgular çok önemliydi. Çünkü: uzay-zamandaki çekimsel dalgalara dair (yani birşeylerin muazzam bir çekim gücü ile boşlukta yarattığı dalgalanma) ilk gözlemdiler; kara deliklerin varlığına dair ilk bulguydular; ve Einstein'in genel izafiyet teorisini destekliyorlardi. Einstein 100 yıl önce kara deliklerin karakteristik özelliklerini tahmin etmişti ve bulunan bu bulgular bu özelliklerle tutarlılık içerisinde. Ligo Projesi çerçevesinde, Washington (yukarıdaki fotoğraf) ve Louisianaeyaletlerinin kuş uçmaz kervan geçmez yörelerinde kurulan gözlemevlerinde kaydedilen zaman serisi verileri (sinyaller) analiz 8 ediliyordu 1995'lerden beri. Bu gözlemevlerinin her birinde 4'er km. uzanan 2 kol var. Bu kollar, uzaydan gelen sinyalleri kaydederken, aynı zamanlarda görülmesi beklenen sinyalleri de simüle edip kaydediyor. Yani hem gerçek hem de simüle edilen sinyaller var. Ve herşey yolunda gittiğinde gerçek ve simüle edilen sinyallerin aynı olması bekleniyor. Arada fark olması, uzaydan gelen verilerde uzaydaki çekimsel dalgalanmadan kaynaklı bir bozukluk (distortion) olmasına işaret ediyor. Verilerin 1995'lerden beri yapılan analizlerindeki amaç parametre tahminleri ve diğer istatistiksel çıkarımlarda bulunmak idi. Bunun için Bayesci tahmin yöntemleri ve bu yöntemleri uygulamak için Markov zinciri Monte Carlo (Markov chain Monte Carlo) algoritmaları kullanıldı.Bu analizlerin sonucunda %90 güven aralıkları (Bayesci felsefede bunlara güven aralığı-confidence interval yerine credible interval diyoruz) oluşturuldu. %10'luk hata payı bu kadar ses getiren sonuçların ardında yatan büyük bir hata payı gibi görünüyor ancak, LİGO projesindeki araştırmacılar, bu sinyallerden elde edilen verilerin yanlış alarm verme oranını 203,000 yılda bir olarak hesapladılar. %10'luk hata payını bu çerçeveden değerlendirmek gerek. Bu analizlerde kullanlan istatistiksel modellerden birisi, Yeni Zelanda Üniversitesi İstatistik Bölümün'den, bizim de birebir tanıdığımız bir meslektaşımızın, Physical Review dergisinde basılan Bayesci modeli. Çekimsel dalga gözlemlerinin olasılık yoğunluk fonksiyonunu tahmin icin yarıparametrik bir model. Bunun için daha önce kullanılan modeller Student t dağılımına dayalı modellerdi. Bu dağılımın avantajı, kuyruklarının Normal dağılıma kıyasla daha uzun olması ve böylece merkezdan daha uzaktaki verileri de anlamlandırabilme avantajı. Ancak bu dağılımın çekimsel dalga verileri analizlerinde bias yarattığı ortaya çıktı. Bernstein polinomlarının önsel dağılım olarak kullanıldığı Bayesci yarı-parametrik yöntemde ise bu biasin sözkonusu olmadığı görüldü. İnsanoğlunun kumarda kazanma arzusuyla doğan İstatistik biliminin 21. yy'da bizleri getirdiği yer gerçekten heyecan verici.... 9 10 11
Benzer belgeler
P9-Kümeleme Analizi - Başkent Üniversitesi Tıp Fakültesi
nitelik taşıyan, kendi içinde türdeş(homojen) birbirleri arasındaysa türdeş olmayan (heterojen)
grupların elde edilmesi amacıyla yönelebileceğimiz ve araştırabileceğimiz tek şeyin sadece
gözlemleri...