Olasılık ve˙Istatistik
Transkript
AK TA SL Olasılık ve İstatistik Aydın ÜSTÜN 2014 AK İçindekiler TA SL 1 GİRİŞ 1 1.1 Ölçme, Olasılık ve İstatistiğe Genel Bakış . . . . . . . . . . . . . . . . 1 1.2 Deney Tasarımı: Anakütle ve Örneklem Uzayı . . . . . . . . . . . . . 2 1.2.1 Örneklem süreci . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 İstatistik Türleri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.1 Betimsel istatistik . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.2 Çıkarımsal istatistik 6 . . . . . . . . . . . . . . . . . . . . . . . 2 TEMEL OLASILIK 9 2.1 Giriş . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Olasılığın İki Tanımı . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 Rasgele olaylar için cebirsel işlemler . . . . . . . . . . . . . . . . . . . 12 2.3.1 Temel Olasılık Önermeleri . . . . . . . . . . . . . . . . . . . . 14 2.3.2 Koşullu Olasılık . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3.3 Bağımsız Olaylar . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3.4 Bayes Kuramı . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4 İleri Sayım Teknikleri . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4.1 Ağaç Çizgeleri . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 ii İçindekiler 2.4.2 Permütasyon . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4.3 Kombinasyon . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI 25 3.1 Rasgele Değişken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 AK 3.2 Rasgele Dağılımlar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2.1 Olasılık Yoğunluk Fonksiyonu . . . . . . . . . . . . . . . . . . 27 3.2.2 Ayrık Dağılım Fonksiyonu . . . . . . . . . . . . . . . . . . . . 28 3.2.3 Sürekli Dağılım Fonksiyonu . . . . . . . . . . . . . . . . . . . 29 3.3 Rasgele Değişkenin Beklenen Değeri ve Momenti . . . . . . . . . . . . 31 Beklenen Değer ve Ağırlıklı Ortalama . . . . . . . . . . . . . . 31 3.3.2 Varyans ve Standart Sapma . . . . . . . . . . . . . . . . . . . 34 3.3.3 Moment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 TA SL 3.3.1 3.4 Diğer Merkezi Eğilim ve Saçılım Ölçütleri . . . . . . . . . . . . . . . . 38 3.5 Birleşik Rasgele Dağılımlar . . . . . . . . . . . . . . . . . . . . . . . . 42 3.5.1 Ayrık Durum . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.5.2 Sürekli Durum . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.5.3 Bağımsız Rasgele Değişkenler . . . . . . . . . . . . . . . . . . 47 3.5.4 Koşullu Olasılık Dağılımları . . . . . . . . . . . . . . . . . . . 48 3.5.5 Kovaryans ve Korelasyon . . . . . . . . . . . . . . . . . . . . . 49 4 BAŞLICA OLASILIK DAĞILIMLARI 55 4.1 Ayrık Dağılımlar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1.1 Bernaulli ve Binom Dağılımları . . . . . . . . . . . . . . . . . 55 4.1.2 Ayrık Üniform Dağılım . . . . . . . . . . . . . . . . . . . . . . 58 4.1.3 Poisson Dağılım . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2 Sürekli Dağılımlar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2.1 Normal Dağılım . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2.2 Chi-Kare Dağılımı . . . . . . . . . . . . . . . . . . . . . . . . 65 4.2.3 t Dağılımı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Olasılık ve İstatistik s.2014.02.21 iii İçindekiler Fisher Dağılımı . . . . . . . . . . . . . . . . . . . . . . . . . . 68 TA SL AK 4.2.4 Olasılık ve İstatistik s.2014.02.21 TA SL AK Bölüm 1 1.1 GİRİŞ Ölçme, Olasılık ve İstatistiğe Genel Bakış Ölçme, fiziksel bir büyüklüğün önceden belirlenmiş birim büyüklükler yardımıyla ölçeklendirilmesi eylemidir. Ölçme sonucu elde edilen sayısal veriye ölçü veya gözlem adı verilir. Tekrarlı ölçü sonuçları birbirine benzer sayısal değerleri işaret etse de, bilim ve mühendislikte ölçme, rasgele (kontrol edilemeyen) olayların sonuçlarıdır. Bu nedenle, istatistikte ölçü ve gözlemlere rasgele değişken gözüyle bakılır. Tekrar edilen her ölçü, farklı zaman veya mekanın özelliklerini yansıtır. Çevresel koşullar istenildiği kadar aynı tutulmaya çalışılsın, yine de insan duyularının ve ölçme sistemlerinin yetersizliği, birbirinden az ya da çok sapan ölçme sonuçlarını doğurur. Sonuç olarak, mükemmel veya kesin değeri verecek bir ölçme işleminden söz etmek olanaklı değildir. Doğada gözlenebilen olaylardan belirli bir sonuç (bilgi) çıkarmak için verileri belli kurallar altında sayısal anlamda toplamak, bilim ve mühendislik çalışmalarının en önemli görevleri arasındadır. Yukarıda anılan nedenlerle ölçme sonuçlarının raslantısal olaylara bağlı olması, gereğinden fazla ölçünün toplanmasını zorunlu kılmaktadır. Öte yandan, belli bir yığını oluşturan veriler arasında raslantısallıktan kaynaklanan tutarsızlıklar görülmesine rağmen, bunlar bazı grafiklere taşındığında ortak (kütlesel) bir davranış sergilerler. Bu davranış biçimi kuramsal olarak iyi bilinen olasılık fonksiyonları ile uyum içindedir. İşte bu yüzden veri yığınlarının tek anlamlı sonuçlara dönüştürülmesi, matematiksel istatistiğin konusudur. Türk Dil Kurumu sözlüğüne1 göre istatistik tanımı; 1 Türkçe Sözlük (2005) Türk Dil Kurumu, Ankara. 2 GİRİŞ bir sonuç çıkarmak için olguları yöntemli bir biçimde (olasılık kuramı ilkelerine dayanarak) toplayıp sayı olarak belirtme işi, sayım bilimi TA SL AK biçiminde verilmektedir. Tanımdan anlaşılacağı üzere, olasılık kuramı istatistiğin temelini oluşturmaktadır. Olasılık kuramı, tıpkı bir ölçme işlemindeki kontrol edilemeyen çevresel etkenlerde olduğu gibi, belirsizlik durumunu inceler. Şans oyunları olasılık uygulamalarının en tipik örneğidir. Bilim ve mühendislik uygulamarında ise deney ya da olay sonuçları (ölçüler), genellikle kontrol edilemeyen ancak varlığı belli olasılık değerleriyle ortaya çıkan (stokastik) olaylar kadar, geometrik ve fiziksel yasaların sonuçları olarak nicelikleri önceden belli (deterministik) olguları da içerir. Örneğin, ağırlık (gravite) ivmesini ölçen bir gravimetreden okunan sayısal değer, yeryuvarının toplam kütlesi ve ölçümün yapıldığı noktanın yerin ağırlık merkezine göre konumuna bağlıdır. Önceden, belirli bir yaklaşıkla bilinen kütle ve konum bilgisi için gravite ivme değeri deterministik yolla hesaplanabilir. Ancak, deterministik sistemler başlangıç koşullar altında hep aynı sonuçları verdiğinden stokastik süreçlerden farklıdırlar, dolayısıyla olasılık kuramının dışında yer alırlar. Bu açıklamalardan yola çıkılarak tek başına olasılık kavramından söz edildiğinde; rasgele olayları analiz eden bir matematik dalı, matematiksel anlamda bir olayın gerçekleşebilme durumunu gösteren sayı (0 ile 1 arasında) anlaşılır. Burada 0 imkansız olay, 1 kesin olay anlamındadır. Veri analizinde istatistik, sonuçların yorumlanması ve gösterimi için gereklidir. Stokastik olayların fonksiyonel davranışını tanımlayan olasılık dağılımları kullanılmaksızın istatistik sonuçlarını yorumlamak zorlaşır. İstatistik, geçmiş verilerin tekrarlanma (frekans, sıklık) durumunu ortaya koyarken; olasılık aynı olayın gelecekteki gerçekleşebilme durumunu açıklar. Söz konusu ilişki, bir yazı-tura oyunuyla örneklendirilebilir. Para atışında yazı veya tura gelme olasılığı, var olan seçenekler göz önüne alınarak hesaplanabilir: normal koşullar altında her ikisi de eşit, 1/2. Buna karşın 100 kez atılmış bir para için 47 tura ve 53 yazı gelmesi, tam aynı olmasa da olasılık dağılımından elde edilen 1/2 değerini işaret ederler. Buradan, istatistik sonuçları tutarlılık açısından olasılık dağılımı değerleriyle irdelenmelidir önermesi yapılabilir. Ayrıca, verilen örneğe ilişkin uygulama esasları ve sonuçları karşılaştırıldığında olasılığın kuramsal, istatistiğin deneysel açıdan değerlendirilmesi gerektiği hemen anlaşılmalıdır. 1.2 Deney Tasarımı: Uzayı Anakütle ve Örneklem Bilimsel araştırmanın amacı sınırlı bir veriden evrenin nasıl işlediğine ilişkin bilgi çıkarmaktır. Deney ve istatistiksel analiz burada çok önemli bir sac ayağı işlevi görür. Araştırmanın çıkış noktası gözlenen olgu ve bağlı olduğu parametreler üzerinden kurulmuş hipotezdir. Hipotezin geçerliliği, ancak bir deneysel çalışmayla sınanabilir. Şekil 1.1 doğa bilimlerinde bilimsel yöntemin nasıl işletildiğini ve deneyin bir bilimsel yaklaşımdaki yerini özetlemektedir. Sonuçta üretilecek bilginin Olasılık ve İstatistik s.2014.02.21 3 Deney Tasarımı: Anakütle ve Örneklem Uzayı doğruluğunu ya da bilimsel araştırmadan bir sonuca ulaşılıp ulaşılamayacağını, eldeki örnekleme (veri toplama) planı belirler. Olası örnekleme hatalarının sonuçlar (kestirilen parametreler) üzerindeki etkisi sistematik kayıklık (bias) olarak görülür. AK Doğa olayları ve Gözlemler Hipotez Test edilebilir tahminler TA SL Deney ve Veri analizi Deney sonuçları hipotezi doğruluyor mu? Hipotezi yeniden kur Hayır Evet Kuram/Bilgi Şekil 1.1: Bilimsel yöntem kullanarak doğa olaylarından bilgi edinimi İstatistikte ise gözlenen bir olgu hakkında sonuç çıkarabilmek için anakütle (evren, popülasyon ya da uzay) hakkında veri toplamak yerine, sonuçlara anakütleyi temsil eden örneklem uzayı üzerinden ulaşmak pratik bir zorunluluktur. Amaçlanan istatistiksel çalışmanın başarıyla gerçekleştirilmesi deney tasarımına bağlıdır. Deney sonuçlarını etkileme potansiyeline sahip koşulların önceden belirlenmesi tasarımın en kritik aşaması olarak görülmelidir. Anakütle yerine seçilen örneklem uzayındaki örneklem (denek) dağılımı, anakütleyi eksiksiz biçimde temsil edecek nitelikte olması esastır. Bu beklenti, ancak iyi bir deney tasarımı ile karşılanabilir. Olasılık ve İstatistik s.2014.02.21 4 1.2.1 GİRİŞ Örneklem süreci Örneklem sürecini oluşturan aşamalar başarılı bir istatistiksel çalışmanın sonuç ürünü için doğruluk ve tutarlılığın sağlanmasına zemin hazırlar. Bu aşamalar ve temel özellikleri hakkında kısa bilgi maddeler halinde aşağıda verilmektedir. AK Anakütlenin tanımlaması: Anlaşılmak istenen olgu ve onun nicelik tanımının yapılmasını ifade eder. Bu tanımlar araştırma konusu ana kütleyi açık bir şekilde ortaya çıkarmalıdır. Örneğin, bir ülkedeki okur-yazarlık oranı belirlenmek istensin. Okur-yazarlık, okul çağına gelmiş veya başka bir deyişle okuma-yazma yetisine sahip bireyler ile ilgili bir kavramdır. Dolayısıyla, anakütle (nüfus veya yığın olarak da adlandırılır), okur-yazar olup olmadığı belirlenecek tüm bireylerdir. Okul öncesi yaş grubu ve bu yetiye sahip olmayanlar anakütlenin dışında sayılırlar. TA SL Örnekleme çerçevesinin belirlenmesi: Çoğu kez anakütleyi oluşturan tüm bireylere ulaşmak ya pratik olarak olanaksız ya da uygulama maliyeti karşılanamayacak boyuttadır. Böyle bir durumda, anakütleyi oluşturan her örneğin içinde bulunabileceği bir altkütle (örneklem kümesi) araştırmasına gidilebilir. Örneklem kümesi ile anakütle hacminin anlamlı ölçüde daraltılacak olması çalışmanın uygulanabilirliğini kolaylaştıran en önemli unsurdur. Örnekleme çerçevesi anakütle içerisinde sınırları belirlenmiş altkütleyi temsil eder. Yukarıdaki okur-yazarlık örneğini ele alacak olursak, örnekleme çerçevesi bir veya birkaç il veya mahalle ve bu sınırlar içinde kalan bireylerdir. Örnekleme yönteminin belirlenmesi: Yukarıda sınırları belirtilen örneklem çerçevesinden örneklemlerin nasıl seçileceğini açıklar. Basit rasgele, düzenli (sistematik), katmanlı, küme, çok aşamalı ve alan olasılık örnekleme tekniklerinden biri veya kombinasyonları kullanılabilir. Örnekleme tekniğinin seçiminde uygulama maliyetinden doğruluk beklentilerine, istatistik çalışmasının gereksinimlerinden yöntemin uygulanabilirliğine kadar değişik etkenler belirleyici rol oynar. Hangi yöntem seçilirse seçilsin, olasılık dağılımı kurallarına göre örnekleme çerçevesi içinde kalan örneklem çeşitliliğinin ve bu seçimle uygulamaya geçecek erişilebilirliğin ana kütleyi yansıtması esastır. Örnekleme sayısının belirlenmesi: Basitçe ölçü (gözlem) sayısının belirlenmesi olarak değerlendirilebilir. Deneysel çalışmada ilgilenilen parametre ve onların sayısı ile yakın ilişkiye sahiptir. Parametre sayısından az olmamak koşuluyla sonuçların güven ve anlamlılık düzeyi toplanan verilerin sayısına bağlıdır. Anakütle hakkındaki yorum ve çıkarımların gücü örneklem sayısından gelir. Bir çalışmada ne kadarlık veriye gereksinim olduğu bazı test gücü çizelgelerinden ve birikimli (kümülatif) dağılım fonksiyonu eşitliklerinden hesaplanabilir. Olasılık ve İstatistik s.2014.02.21 5 İstatistik Türleri Örnekleme (veri toplama): Yukarıdaki tasarım aşamalarının uygulanmasıyla veri toplama sürecine geçilmiş olur. Tasarımda belirlenen çerçevenin dışına çıkılmamasının yanı sıra gözlem sırasında çevresel etkenlerin de kayıt altına alınması veri analizini ve çıkarılacak sonuçların kalitesini arttıracağı göz önünde bulundurulmalıdır. İstatistik Türleri AK 1.3 Örneklem kümesinden elde edilen verilerin istatistiksel analizi bizi iki istatistik türüne götürür: betimsel (açıklayıcı) istatistik ve çıkarımsal (tümevarımcı, sonuç çıkarıcı) istatistik. 1.3.1 Betimsel istatistik TA SL Eldeki verilerin özetlenmiş biçimi ya da başka bir deyişle niceliklendirilmesi betimsel istatistiği açıklar. Verilerin sınıflandırılması, sınıf toplamları veya tekrarlanma sayıları, ortalamaları, saçılım (yayılım) değerleri, veri sınıfları arasındaki ilişki (korelasyon) değerleri, bunlara ait çizelge ve grafik gösterimler betimsel istatistiğin uygulama örnekleridir. Analiz sürecinin olasılık kuramından bağımsız ilerlermesi betimsel istatistiğin ayırtkan özelliğidir. Betimsel istatistik için kullanılan analiz teknikleri değişik biçimlerde sınıflandırılabilir. Değişken sayılarına göre analiz araçları ve bazı örnekler aşağıdaki gibi sıralanabilir: • Tek değişkenli (univaryat) – Çizelgeler: sayım, frekans (sıklık) – Grafik ve çizgeler: çubuk, pasta, ağaç, histoğram – Merkezsel konum araçları: ortalama, mod, ortanca (medyan) – Yayılım ve saçılım (sapma) ölçütleri: varyans, standart sapma, çarpıklık, basıklık • İki değişkenli (bivaryat) – Çapraz çizelgeler – Saçılım haritaları – Bağımlılık ölçütleri (korelasyon, kovaryans) • Çok değişkenli (multivaryat) – Korelasyon matrisleri – Regresyon analizleri Olasılık ve İstatistik s.2014.02.21 6 GİRİŞ AK Betimsel istatistik örneği olarak, bir öğrenci grubunun belirli bir dersteki başarısı açıklayıcı bir bilgi olarak değerlendirilebilir. Sınav notlarının ortalaması bir başarı göstergesidir. Türkiye İstatistik Kurumu (http://www.tuik.gov.tr) tarafından toplanan ve yıllık bazda yayımlanan verilerin tümü (çizelge, grafik vb.) açıklayıcı istatistik niteliğindedir. Örneğin, 1990–2009 yılları arasında Türkiye’de gerçekleşen sera gazı emisyon (salınım) verileri hem çizelge (Çizelge 1.1) hem de şekil (Şekil 1.2) olarak sunulabilir. Atmosferde sera etkisi yaratan bu gazların yıllık rakamlar üzerinden toplam emisyon içindeki ortalama payları (merkezsel konumları) pasta dilimleriyle Şekil 1.3’deki gibi gösterilebilir. Çizelge 1.1: 1990–2009 yılları arasında Türkiye’nin sera gazı emisyon değerleri (Kaynak: TÜİK, birim: milyon ton CO2 eşdeğeri) CO2 141.36 148.31 153.95 162.55 160.82 173.90 192.01 205.18 204.32 203.68 225.43 208.99 218.04 232.64 243.43 259.61 276.72 307.92 297.12 299.11 CH4 33.50 37.56 41.02 43.33 43.71 46.87 49.31 50.59 51.90 53.14 53.30 52.74 50.43 51.63 49.37 52.38 53.33 55.58 54.29 54.37 N2 O F Gazları Toplam 11.57 0.60 187.03 12.51 0.74 199.13 14.58 0.68 210.23 15.10 0.69 221.66 12.02 0.60 217.15 16.22 0.52 237.51 16.40 0.89 258.62 14.98 1.13 271.88 16.65 1.18 274.05 16.93 1.03 274.78 16.62 1.66 297.01 14.69 1.70 278.11 15.32 2.41 286.20 15.67 2.80 302.75 16.00 3.46 312.26 14.18 3.73 329.90 15.55 4.05 349.64 12.35 4.13 379.98 11.57 3.51 366.50 12.53 3.64 369.65 TA SL Yıl 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 1.3.2 Çıkarımsal istatistik Çıkarımsal istatistik, örneklemden elde edilen (betimsel) istatistiksel sonuçları kullanarak anakütle hakkında yargıda bulunmayı amaçlar. Gözlem altına alınan anakütlenin beklenen davranışı hakkında bir yargıda bulunabilmek için bir dizi işlem yürütülür. Betimsel istatistik analiziyle türetilmiş ortalama, standart sapma, korelasyon vb. değerler temel veri olarak kullanılır. Bu bilgilere dayanarak anakütle için bir hipotez (varsayım) ileri sürmek ilk aşamadadır. Olasılık dağılımları Olasılık ve İstatistik s.2014.02.21 7 İstatistik Türleri 400 F Gazları N2 O CH4 CO2 300 250 200 AK Emisyon (milyon ton CO2 eşdeğeri) 350 150 100 50 0 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Yıl TA SL Şekil 1.2: Yıllara göre Türkiye’nin sera gazı emisyonu değişimi (Kaynak: TÜİK) kullanılarak hipotezler testlerden geçirilir ve sonuç olarak geleceğe ilişkin bir öngörülerde bulunulur. Gerektiğinde bu işlem değişik veri grupları arasındaki ilişkilerin tanımlanması ve buradan model üretilmesine (regresyon analizi) doğru götürülebilir. Bütün bu süreçler çıkarımsal istatistik başlığı altında ele alınır. Bu haliyle bilim, mühendislik ve üretim sektörü çıkarımsal istatiği en çok kullananların başında gelir. Neden sonuç ilişkisi en iyi biçimde çıkarımsal istatistikle açıklanabilir. Jeodezik uygulamalarda atmosferik olayların doğrultu, düşey açı, elektro-manyetik dalgalar (örneğin GNSS sinyalleri) üzerindeki etkilerinin araştırılması, uyuşumsuz ölçülerin analizi, deformasyon analizinde noktasal yer değiştirmelerin deformasyon sayılıp CO2 %76.26 CH4 %17.72 F Gazları %0.64 N2 O %5.39 Şekil 1.3: Sera gazlarının yıllık ortalama emisyon oranları (Kaynak: TÜİK) Olasılık ve İstatistik s.2014.02.21 8 GİRİŞ TA SL AK sayılamayacağı, koordinat dönüşümlerinde nokta uyuşum testleri, dengeleme hesabında kestirilen parametrelerin güven ve anlamlılık düzeyleri çıkarımsal istatistiğin en çok karşılaşılan örnekleridir. Olasılık ve İstatistik s.2014.02.21 AK Bölüm 2 TA SL TEMEL OLASILIK 2.1 Giriş Rasgele olayların deney sonuçları üzerindeki etkileri belli olasılık değerleri göz önüne alınarak değerlendirilir (bkz. [1.3.2]). Bilim ve mühendislik uygulamalarında bunun en basit örneklerini güven aralığı hesaplamaları oluşturur. İstatistiksel bir çalışmanın kestirilmiş bazı parametrelerine (örneğin ortalama ve saçılım değerlerine) bakılarak, sonuçların güvenirliği hakkında yorum yapılabilir. Olasılık hesaplarının uygulama bulduğu alanlardan bir başkası şans oyunlarıdır. Şans oyunlarının tamamen raslantısal olaylar üzerine kurgulanması, olasılık kuramına ilişkin örneklerin neden bu tür uygulamalardan seçildiğine en iyi cevaptır. Sırasıyla, sayılabilir ve sayılamayan örneklem uzaylarını kullanan ayrık ve sürekli olasılık dağılımları, olasılık kuramının temel özelliklerinin anlaşılmasında anahtar rol oynarlar. Bu bölümde olasılık kuramı açısından rasgele olaylar, rasgele değişkenler ve onların beklenen değerleriyle, sonuçların dağılım özellikleri ele alınacaktır. 2.2 Olasılığın İki Tanımı Deneysel bir çalışmada ardışık gözlemlerin yakın değerler olarak tekrar etmesi belli fiziksel ve geometrik yasaların sonucudur. Bu yasalar aynı girdi verileriyle aynı sonuçları verirler. Gerçekte gözlem değerlerinin benzerliği belirli bir mertebeye kadardır ve genellikle ölçme sisteminin yeteneğiyle ilişkilidir. Ölçülen büyüklüklerdeki tekrar eden rakamlar dış etkenlerin kontrol edilebildiği 10 TEMEL OLASILIK AK (deterministik) kesimi temsil eder. Geriye kalan kesim ise tek bir ölçü için değişkenliği (büyüklüğü ve işareti) önceden kestirilemeyen, ancak kitlesel olarak davranışı bilinen rasgele (stokastik) süreçlerle açıklanır. İnsana ait hatalardan arındırılmış, en gelişmiş teknolojinin kullanıldığı ölçme sistemlerinde bile stokastik büyüklükler kaçınılmaz olarak gözlem değerlerinde kendilerini belli ederler. Ölçme uygulamarında gözlenen büyüklükler, bir yere kadar kontrol altında tutulabilir. Özetle, kusursuz veya mükemmel ölçü yoktur. Bu özellikleriyle ölçüler, şans oyunlarındaki raslantısallıkla bire bir benzer davranış gösterirler. Sonuç olarak, deneysel bir çalışmanın değişkenlerinin alacağı değerlerin, zar atışından farkı yoktur denilebilir. Çevresel koşulların aynı kaldığı deneysel bir çalışmada, tekrarlı gözlemler birbirinden farklı raslantısal değerler alıyorsa bu tür deneylere rastgele deneyler denir. Rasgele deneylerin olası tüm sonuçları bir küme (uzay) ile tanımlanır. Buradan itibaren örneklem uzayı S sembolü ile gösterilecektir. Örneklem uzayının elemanları sözel olabileceği gibi bu küme her biri için atanmış sayıları da içerebilir. Küme elemanları sayılabilir (sonlu ya da sonsuz) veya sayılamaz nitelikte olur. Rasgele deneyler ve örneklem uzayları aşağıda bazı örnekler verilmektedir. TA SL Örnek 2.1 Bir para atışında, deney sonucu tura T (1) ya da yazı Y (0) ile sonuçlanır. Buna göre para atışı oyununun küme elemanları, S = {0, 1} veya S = {Y, T } olarak gerçekleşir (sonlu sayılabilir). Örnek 2.2 Para atışı iki kez yapılsın. Sembolik veya sayısal olarak, S = {Y Y, Y T, T Y, T T } veya S = {0, 1, 2, 3} küme elemanlarıyla ifade edilen 4 sonuçtan biriyle karşılaşılır (sonlu sayılabilir). Örnek 2.3 Zar atışında deney sonucunu oluşturan küme elemanları (sonlu sayılabilir): S = {1, 2, 3, 4, 5, 6} Örnek 2.4 Bir oyun parkında roket oyunu için boy cetveli testi uygulansın (sonlu sayılabilir): S = {kısa, uzun} veya S = {0, 1} Olasılık ve İstatistik s.2014.02.21 11 Olasılığın İki Tanımı Örnek 2.5 Sonucu doğal sayılar kümesi, N = {0, 1, 2, . . . } Örnek 2.6 AK olan deney (sonsuz sayılabilir). Bir hedefe yapılan 10 doğrultu gözleminin aritmetik ortalaması (sonsuz sayılamaz): S = {0g ≤ t < 400g } TA SL Yukarıda verilen örneklerden anlaşılacağı üzere herhangi bir deneyin olası tüm çıktıları önceden bilinebilmektedir. Para atışında tura gelme olasılığı –eşit yazı gelme olasılığı da hesaba katıldığında– 1/2 olacaktır. Benzer şekilde zar atışında üç gelme olasılığı 1/6, tek sayı gelme olasılığı 1/2 olacaktır. Olasılığın geleneksel tanımına göre; bir deneyin karşılıklı olarak dışarmalı (mutually exclusive) ve eşit olasılıklı n farklı çıktısı varsa, sayısı nA olan bir olayın gerçekleşme olasılığı, nA P (A) = (2.1) n eşitliğinden hesaplanabilir. Yukarıdaki kuramsal sonuca deneysel yolla ulaşmak mümkündür. Para veya zarın hilesiz, tekrar atışların eşit koşullar altında yapılması durumunda, herhangi bir A olayının gerçekleşme sayısı tüm atışların sayısına bölünerek bağıl tekrarlanma sayısı, nA h(A) = (2.2) n elde edilir. h(A) değerine, geçmişte gözlenmiş olayların sıklığına dayandığından olasılığın frekans açıklaması gözüyle bakılır. P (A) ve h(A) değerleri birbirine eşit çıkması beklenen büyüklüklerdir. Deney sayısı arttıkça sonuçların birbirine daha da yaklaştığı görülür. Buna sonuca göre; A olayının gerçekleşme olasılığı P (A), bağıl tekrarlanma sayısının limit durumudur: P (A) = lim h(A) n→∞ (2.3) (2.3)’ten, bir olayın olasılığı, bağıl tekrarlanma sayılarına bakılarak tanımlanabileceği anlaşılmalıdır. Ancak, pratikte deney sayısının sonlu oluşu ve kuramsal olasılık değerlerine sadece sonsuzda ulaşılabilmesi, tanım için bu yöntemin tercih edilmesini zora sokar. Bu yüzden olasılık tanımları ve önermeleri daha çok kuramsal olasılık sonuçları için geçerlidir. Örnek 2.7 Olasılık ve İstatistik s.2014.02.21 12 TEMEL OLASILIK Bir hastanedeki doğum kayıtlarına göre Ocak ayında 68 erkek, 71 kız bebek dünyaya gelmiştir. Bu verilere göre, erkek ve kız çocuk meydana gelme olasılıkları, sırasıyla h(E) = 71 68 68+71 = 0.489, h(K) = 68+71 = 0.511’dir. 2.3 AK Olasılık hesabı, 0 ve 1 arasındaki değerlerle sonuçlanır. Bazı durumlarda bu sonuçlar yüzdesel karşılıklarıyla da verilebilmektedir: son örnek için erkek ve kız çocuk dünyaya gelme olasılıklarının %48.9 ve %51.1 olması gibi. Rasgele olaylar için cebirsel işlemler TA SL Rasgele deneyin olası tüm sonuçlarını içeren S kümesine örneklem uzayı, bu deneyin çıktısına ya da S kümesinin elemanlarından birine örneklem veya elementer olay adı verilir. Örneklem uzayının elemanlarıyla oluşturulmuş (alt)küme bir olayın karşılığıdır. Buna göre; {1,3,5} kümesi zar atışında tek sayı gelme olayının elemanlarıdır. Örneklem uzayının herhangi bir alt kümesi A, rasgele olay veya kısaca olay olarak tanımlanır: A ⊂ S. Gerçekleşmesi mümkün olmayan olay için alt küme A = ∅, boş kümedir. S örneklem uzayında her hangi iki rasgele olaya karşılık gelen alt kümeler A ve B olsun. A ve B, yeni rasgele olayları türetmek için kullanılabilir. Şekil 2.1’de görüldüğü gibi, Venn diyagramlarıyla gösterilebilen birleşim (∪), kesişim (∩), değil (˜) ve fark (−) işlemleri olaylar cebri adı verilen matematik yöntemi tanımlar: • A ∪ B, A ve B olaylarının birleşimi anlamındadır; her iki kümenin sonuçlarını içerir. Mantık işlemlerinde “veya” operatörünün karşılığıdır. • A ∩ B, A ve B olaylarının kesişimi anlamındadır; her iki kümenin ortak sonuçlarını içerir. Mantık işlemlerinde “ve” operatörünün karşılığıdır. • Ã, A olayının dışındaki sonuçları ifade eder. operatörünün karşılığıdır. Mantık işlemlerinde “değil” • B − A, B’nin A’da olmayan sonuçlarını kapsar. S − A biçiminde yazılırsa, à işlemine dönüşür (Şekil 2.1). Örnek 2.8 Olasılık ve İstatistik s.2014.02.21 13 Rasgele olaylar için cebirsel işlemler Zar atışı için rasgele olaylar A = {1, 2, 3, 5} ve B = {3, 4, 5, 6} verilsin. Cebirsel olaylar, A ∪ B = {1, 2, 3, 4, 5, 6} A veya B (birleşim) A ∩ B = {3, 5} A ve B (kesişim) à = S − A = {4, 6} A hariç (değil) B̃ = S − B = {1, 2} B hariç (değil) A − B = {1, 2} B hariç A (fark) B − A = {4, 6} A − B ∪ B − A = {1, 2, 4, 6} B A ve B karşılıklı dışarmalı A TA SL A AK A hariç B (fark) B S S A∪B A B A∩B A B S à ∩ B = B − A A S A−B∪B−A B S à = S − A Şekil 2.1: S örneklem uzayında rasgele olaylar (A, B ⊂ S) için cebirsel işlemler Olasılık ve İstatistik s.2014.02.21 14 TEMEL OLASILIK A ve B olaylarına karşılık gelen kümelerde herhangi bir eşleşme yoksa yani küme işleminden A∩B = ∅ sonucu çıkıyorsa, bu olaylar karşılıklı olarak dışarmalıdır denir. A1 , A2 , · · · , An olaylarının karşılıklı dışarmalı olması için bu özelliğin herhangi iki çift için de geçerli olması gerekir. 2.3.1 Temel Olasılık Önermeleri Önerme 2.1 A’nın olasılık değeri, AK S örneklem uzayı üzerinden açıklanan her olay A ve onun olasılığını gösteren sayı P (A) olsun. Aşağıdaki temel önermeler (aksiyomlar) kanıt gerektirmeksizin her zaman geçerlidir: P (A) ≥ 0 artı tanımlıdır. TA SL Önerme 2.2 S olması kesin olaydır: P (S) = 1 (2.4) (2.5) Önerme 2.3 A1 , A2 , . . . , An karşılıklı olarak dışarmalı olaylar dizisi ise birleşimlerinin olasılığı, ayrı ayrı olasılıklarının toplamına eşittir: P (A1 ∪ A2 ∪ · · · ∪ An ) = n X i=1 P (Ai ) = P (A1 ) + P (A2 ) + · · · + P (An ) (2.6) Yukarıdaki temel önermelere dayanılarak ileride yararlanmak üzere bazı teoremler ileri sürülebilir. Teorem 2.1 A olayının gerçekleşmeme olasılığı, P (Ã) = 1 − P (A) (2.7) ile hesaplanır. Kanıt: A olayının gerçeklememesi bu kümenin dışındakileri à = S − A ilgilendirir (sonuçlar A kümesinin dışından çıkar). Karşılıklı olarak dışarmalı A ve à olaylarının toplamları S örneklem uzayını oluşturduğundan yukarıdaki temel önermeler göz önüne alındığında (2.7) çıkar. Olasılık ve İstatistik s.2014.02.21 15 Rasgele olaylar için cebirsel işlemler Teorem 2.2 A veya B olaylarının (birleşim) olasılığı, P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (2.8) dir. Kanıt: Şekil 2.1’e göre; P (A ∪ B) = P (A ∩ B̃) + P (A ∩ B) + P (à ∩ B) AK P (A) = P (A ∩ B̃) + P (A ∩ B) P (B) = P (A ∩ B) + P (à ∩ B) P (A) + P (B) = P (A ∩ B̃) + P (à ∩ B) + 2P (A ∩ B) eşitlikleri yazılabilir. Son eşitlikte sağ ve soldaki terimlerden P (A ∩ B) çıkarılırsa, P (A) + P (B) − P (A ∩ B) = P (A ∩ B̃) + P (à ∩ B) + P (A ∩ B) = P (A ∪ B) elde edilir. Örnek 2.9 TA SL Okey taşları arasından rasgele bir seçim yapıldığı varsayılsın. Taşın sarı renkli veya 13 olma olasılığını hesaplayalım. 1’den 13’e kadar 4 renk ve çift seri taşların sayısı 104’tür (joker taşlar hariç). Buradan seçilen taşın, P (13) = 8/104 13 olasılığı P (sarı) = 26/104 P (13 ∩ sarı) = 2/104 bulunduğundan 13 veya sarı taş olasılığı, sarı renk olasılığı 13 ve sarı renk olasılığı P (13 ∪ sarı) = P (13) + P (sarı) − P (13 ∩ sarı) 8 26 2 32 4 = + − = = 104 104 104 104 13 çıkar. Teorem 2.3 A1 , A2 ve A3 olaylarının birleşimi, P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 )− (2.9) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) ile elde edilir. Teorem 2.4 Her A olayı için, 0 ≤ P (A) ≤ 1 (2.10) eşitsizliği geçerlidir. Burada P (A) = 0 olanaksız olayın (A = ∅), P (A) = 1 kesin olayın (A = S) olasılığıdır. Kanıt: Önerme (2.4) ve Teorem (2.7). Olasılık ve İstatistik s.2014.02.21 16 2.3.2 TEMEL OLASILIK Koşullu Olasılık Örnek 2.10 AK İki kez atılan para için örneklem uzayı S = {T T, T Y, Y T, Y Y }’dır. İki atışın da tura gelme olayı A = {T T } ve olasılığı P (A) = 1/4’tür. Buna karşın atışlardan birinin tura olduğu önceden biliniyorsa, B = {T T, T Y, Y T } olayı ile karşı karşıyayızdır. A ∩ B = {T T } olduğuna göre, B’den A olayının çıkma olasılığı 1/3’tür. Verilen örneği dikkate alacak olursak, daha önce gerçekleşmiş (önsel) bir olaya ilişkin bilginin olasılık hesabında kullanılması durumu söz konusudur. Olasılık hesabında böylesi uygulamalar, koşullu olasılık adı altında incelenir. Koşullu olasılık hesabı birbirine bağımlı iki olayı gerektirir. A ve B iki olay olsun. Daha önce B’nin bilinen gerçekleşmesi içinde (P (B) > 0 koşuluyla) A’nın olasılığı P (A|B) ile gösterilir. Küme işlemleri üzerinden bu değere, P (A|B) = P (A ∩ B) P (B) (2.11) TA SL işlem sonucu ile ulaşılır. Genel olarak bilinen B için A’nın koşullu olasılığı P (A|B), bilinen A için B’nin koşullu olasılığından P (B|A) farklıdır. Örnek 2.11 Bir zar atışında gelen sayının 4’ten küçük olma olasılığını hesaplayalım. a) Başka bilgi verilmemiş olsun. b) Atışın tek sayı ile sonuçlandığı biliniyor olsun. a) A, 4’ten küçük gelme olayını göstersin: A = {1, 2, 3}. Bu durumda A’nin olasılığı (her bir örneklemin eşit olasılığa sahip olduğu düşünülerek), P (A) = P (1) + P (2) + P (3) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2 çıkar. b) Gelen sayının tek sayı olduğu biliniyorsa, başka bir deyişle B = {1, 3, 5} ise, A ∩ B = {1, 3} ⇒ P (A ∩ B) = 2/6 ve koşullu olasılık, P (A|B) = 2/6 P (A ∩ B) = = 2/3 P (B) 3/6 elde edilir. 2.3.3 Bağımsız Olaylar A ve B olayları için, P (A|B) = P (A) Olasılık ve İstatistik (2.12) s.2014.02.21 17 İleri Sayım Teknikleri eşitliğinin geçerli olduğu olaylar dizisinde, A’nın gerçekleşmesinin B’den etkilenmediği söylenebilir. Buna göre A ve B bağımsız olaylardır deriz. P (A ∩ B) = P (A)P (B) (2.13) bağımsız A ve B olaylarının gerçekleşme olasılığını verir. Örnek 2.12 AK Tavla oyuncusunun zarları atışı bağımsız iki olayı işaret eder. Düşeş (6,6) gelme olasılığı 1 bu bağımsız olaylardan hesaplanabilir: 16 × 16 = 36 A1 , A2 , A3 olayları bağımsız, başka bir deyişle, P (Ai |Aj ) = P (Ai ) i 6= j (i, j = 1, 2, 3) (2.14) eşitliğini sağlıyorsa üçünün de aynı olay altında gerçekleşme olasılığı, P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ) TA SL eşitliğiyle hesaplanır. 2.3.4 (2.15) Bayes Kuramı Birleşimleri örneklem uzayının alt kümesini oluşturan A1 , A2 , A3 , · · · An ’in karşılıklı olarak dışarmalı olaylar olduğunu varsayalım. Teorem 2.5 Herhangi bir önsel A olayının gerçekleşmesinin (P (A) > 0) sonucuna bağlı A1 , A2 , · · · , An olaylarının olasılıkları Bayes Kuralı, yardımıyla belirlenir. P (Ai )P (A|Ai ) P (Ai |A) = Pn j=1 P (Aj )P (A|Aj ) (2.16) Bayes teoremi birden fazla koşullu olasılık değerleri arasındaki ilişkiyi açıklar. (2.16) ile P (A|B) ve P (B|A) ile birbirine dönüştürülebilir büyüklükler haline gelir: P (A|B) = 2.4 P (A)P (B|A) P (B) (2.17) İleri Sayım Teknikleri Bir örneklem uzayı genellikle sayılabilir sonlu sayıda eleman içerir. Eleman sayısının küçük olduğu durumlarda, olasılık hesaplamak için seçenekleri sıralamak Olasılık ve İstatistik s.2014.02.21 18 TEMEL OLASILIK zor değildir. Eleman sayısının artmasıyla seçenekleri sıralamak veya saymak zorlaşır. Örneğin 0’dan 9’a kadar olan sayılar kaç değişik biçimde sıralanabilir sorusunun cevabını, saymak yerine seçenekleri faktöriyel hesabı ile bulmak daha kolaydır: 10! = 3 628 800. 2.4.1 Ağaç Çizgeleri AK Sayım işleminin belli kuramlara dayandırıldığı matematik dalına katışımsal analiz (kombinatoryal analiz, İngilizce combinatorial analysis) adı verilir. Faktöriyel, perpütasyon, kombinasyon varyasyon gibi ileri sayım teknikleri büyük örneklem sayısına sahip veri kümeleri için karmaşık olasılık hesapları yapmanın en etkili araçlarıdır. A1 , A2 , . . . , Ak birbirinden bağımsız olaylar, n1 , n2 , . . . , nk sırasıyla eleman sayıları olsun. k sayıdaki ardışık olayın gerçekleşmesiyle ortaya çıkacak seçeneklerin sayısı, n1 n2 n3 · · · nk (2.18) TA SL eleman sayılarının çarpımı ile bulunur. Örneklem değerleri sürekli aynı kümeden çıkıyorsa ya da aynı bağımsız olayın k kez tekrarlanması söz konusu ise bu durumda seçenek sayısı, n · n · · · · · n (k kez) = nk (2.19) olur. Bir zarın ya da paranın k sayıda atılması buna örnektir. Örnek 2.13 Bir dondurmacıdan değişik dondurma ve sos seçenekleriyle sipariş vermek isteyelim. Bağımsız olaylar, Kremalı dondurma grubu K Meyveli dondurma grubu M Sos grubu S = {Sütlü, Kakaolu} = {Karadut, Vişne, Limon} = {Çikolata, Böğürtlen} örneklem kümeleri ile verilsin. Her örneklem kümesinden birer seçim yapılarak verilebilecek siparişlerin sayısı 2 · 3 · 2 = 12’dir. Örnek 2.14 Bir paranın üç kez arka arkaya atılmasıyla elde edilebilecek sonuçların sayısı 2 × 2 × 2 = 23 = 8’dir. Ardışık olaylar dizisine ait seçeneklerin ve olasılıkların belirlenmesinde ağaç çizgeleri (zaman zaman olasılık çizgeleri de denilmektedir), hem problemin anlaşılmasını hem de hesap kolaylığı sağlar. Örnek 2.13, bir ağaç çizgesi (Şekil 2.2) yardımıyla da gösterilebilir. Benzer şekilde üç kez tekrarlanan para atışı için Şekil 2.3’te görülen seçenekler ve olasılıkları ortaya çıkar. Olasılık ve İstatistik s.2014.02.21 19 İleri Sayım Teknikleri Çikolata Karadut Böğürtlen Çikolata Sütlü Vişne Böğürtlen Çikolata Limon AK Böğürtlen Dondurma Çikolata Karadut Böğürtlen Çikolata Kakaolu Vişne Böğürtlen Çikolata Limon Böğürtlen TA SL Şekil 2.2: Ağaç çizgesi üzerinden dondurma sipariş seçenekleri Verilen iki örnek eşit olasılıklı örneklem uzayları içindir. Örneklemlerin eşit olasılıklarla temsil edilmediği uygulamalar için de ağaç çizgeleri kullanılabilir ve olasılık hesapları gerçekleştirilebilir. Bunun için, bir noktadan çıkan ağaç dallarının tümü bağımsız bir olayı, dalların her biri çıkması muhtemel sonucun olasılıklarını gösterecek şekilde çizge oluşturulmalıdır. Ardışık olayların beklenen sonuçları ağaç dalları boyunca gidilerek bağımsız olasılıkların çarpımından hesaplanabilir. Örnek 2.15 Bir torbada aynı büyüklükte 1 kırmızı, 2 yeşil ve 3 mavi top bulunsun. Torbadan arka arkaya iki kez top çekilsin. Seçenekler ve olasılıklarını ağaç çizgesi yardımıyla bulalım. Torbadan çekilen ilk topun tekrar geriye konulmadığı durumda örneklem kümesi, S = {KY, KM, Y K, Y Y, Y M, M K, M Y, M M } olur. Çekiş önceliği düşünülmeksizin topların kırmızı ve mavi çıkma olasılığı, Şekil 2.4’e göre KM ve M K olasılıkları toplamına eşittir: 3 6 1 3 + = = 30 30 30 5 2.4.2 Permütasyon Permütasyon bir kümedeki elemanların tamamını ya da bir kısmını kullaOlasılık ve İstatistik s.2014.02.21 20 TEMEL OLASILIK b T Y 0.5 0.5 TY YT YY 0.25 0.25 0.25 0.25 TTT TTY TY T TY Y 0.125 0.125 0.125 0.125 AK TT Y TT Y TY YYT YYY 0.125 0.125 0.125 0.125 Şekil 2.3: Yazı-tura oyununda üç kez atılan para için seçenekler ve olasılıkları b 2 6 1 6 Y M TA SL K 3 6 2 5 3 5 1 5 1 5 3 5 1 5 2 5 2 5 Y M K Y M K Y M 2 30 3 30 2 30 2 30 6 30 3 30 6 30 6 30 Şekil 2.4: İçinde 1 kırmızı (K), 2 yeşil (Y ) ve 3 mavi (M) top bulunan torbadan arka arkaya yapılan iki çekilişin olasılık değerleri narak, sadece yerlerini değiştirme yoluyla farklı sonuçlar üretme işlemidir. Sıralama sonucu oluşacak her öğe bir permütasyon olarak değerlendirilir. Örneğin, {abc, bca, cab, acb, cba, bac} kümesinin elemanları a, b ve c harflerinin permütasyonudur. Farklı sıralama sonuçlarına karşılık gelen permütasyonların sayısı, n eleman sayısının faktöriyeli n! ile bulunabilir. Permütasyon için kullanılacak elemanların, belli bir grubun arasından sınırlı sayıda rasgele seçimle belirlenmesi istenebilir. n elemanlı bir kümede ilk seçimde n seçenek, ikinci seçimde n − 1 seçenek, üçüncü seçimde n − 2 seçenek vardır. Sıra r. seçime geldiğinde n − r + 1 sayıda seçenek kalır. Bu düzenle; ortaya çıkacak sıralama sayısı, n Pr = n(n − 1)(n − 2) · · · (n − r + 1) = n! (n − r)! (2.20) ile hesaplanır. n Pr , n’nin r. permütasyonu olarak okunur. Dikkat edilirse, (2.20) ile elde edilen sonuç, sıralamada herhangi bir elemanın sadece bir kez kullanılması, tekrar etmemesi kuralı için geçerlidir (tekrarsız permütasyon). Olasılık ve İstatistik s.2014.02.21 21 İleri Sayım Teknikleri Aksi durumda, permütasyon hesabı değişir. Tekrarlı permütasyon sıralamada bir elemanın birden fazla geçtiği seçenekleri de kapsar. Bu, seçim işleminin sürekli aynı sayıda seçenek arasından yapılması anlamına gelir. Olası seçeneklerin sayısını (2.19) verir. Örnek 2.16 AK 0, 1, 2, 3, 4, 5, 6 sayılarından rasgele 3’ü seçilerek (tekrarsız permütasyon) yapılabilecek farklı dizilimlerinin sayısı, 7! = 7 · 6 · 5 = 210 7 P3 = 4! olur. 000,112 gibi içinde birden fazla sayının geçtiği tekrarlı permütasyonların sayısı ise 73 = 343’tür. Seçimin yapılacağı küme elemanları farklı alt gruplardan oluşabilir. n1 sayıda birinci grup, n2 sayıda ikinci grup, devamla nk sayıda k. grup olsun. Toplam eleman sayının n = n1 + n2 + · · · + nk olduğu bu kümeden çıkabilecek permütasyon sayısı, = n! n1 !n2 ! · · · nk ! (2.21) TA SL n P(n1 ,n2 ,··· ,nk ) ile belirlenir (Speigel vd., 2009, s. 9). Örnek 2.17 11 kelimeden oluşan MISSISSIPPI kelimesinin harfleri gruplandırıldığında, 1 M, 4 I, 4 S ve 2 P’nin bulunduğu görülür. Bu durumda 11 harfin permütasyonu, 11 P(1,4,4,2) = 11! = 34650 1!4!4!2! dir. 2.4.3 Kombinasyon Farklı elemanların, sıra gözetilmeden bir araya getirilmesi işlemine kombinasyon adı verilir. Permütasyonun aksine, abc ve bca aynı kombinasyonlardır. n elemanlı bir kümenin r’li (r ≤ n) kombinasyonlarının sayısı, n! n = n Cr = r r!(n − r)! (2.22) ile hesaplanır. (2.22) kombinasyon değeri binom kuvvet dizilerinin, n n−r r x y (x + y) = r r Olasılık ve İstatistik (2.23) s.2014.02.21 22 TEMEL OLASILIK katsayılarına eşittir. r = 0 ve r = n için kombinasyon, n n =1 = n 0 (2.24) sonucunu verir. AK Bir kümeden eşit sayıda seçime karşılık gelen kombinasyon ve permütasyon sayıları arasında, n n Pr (2.25) = n Cr = r! r ilişkisi vardır. Örnek 2.18 Bir basketbol takımının sahadaki 12 kişilik kadrosundan kaç değişik 5 oyuncu çıkar? TA SL Birbirinden farklı 5 kişilik takım sayısı (sıralamanın önemi yok): 12 12! 12 · 11 · 10 · 9 · 8 · 7! = = = 792 12 C5 = 5 5!(12 − 5)! 5 · 4 · 3 · 2 · 1 · 7! Örnek 2.19 Sayısal Loto oyununda bir oyuncunun 6 tutturma olasılığını hesaplayalım. Toplam 49 topun bulunduğu kümeden rasgele 6 seçim yapıldığında, 49 49! 49 · 48 · 47 · 46 · 45 · 44 C = = = = 13 983 816 49 6 6 6!(49 − 6)! 6·5·4·3·2·1 seçenek ortaya çıkar. Bir oyuncunun oynayacağı tek kolonla 6 sayıyı tutturma olasılığı, P = 1 1 = 13 983 816 49 C6 dır. n sayıda farklı seçeneğin k sayıda alt gruba ayrıldığını kabul edelim: n1 + n2 + · · · + nk = n. Her alt kümeden sırasıyla r1 , r2 , . . . , rk sayıda yapılacak seçimden (2.18)’e göre, nk n2 n1 (2.26) ··· n1 C r1 n2 C r2 · · · nk C rk = rk r2 r1 farklı kombinasyon çıkar. Seçim işlemi tüm grupların birlikte bulunduğu kümeden yapılacaksa beklenen sonucun olasılığı da kombinasyon hesabı ile bulunabilir. Bu durumda r1 + r2 + · · · + rk = r toplam seçim miktarını göstermek üzere, (2.26) sonucunun olasılığı, n1 n2 · · · nrkk n1 Cr1 n2 Cr2 · · ·nk Crk r2 r1 = (2.27) P (A) = n n Cr r Olasılık ve İstatistik s.2014.02.21 23 İleri Sayım Teknikleri eşitliğinden bulunur. Burada A, n’nin r. gerçekleşmesi anlamındadır. kombinasyonu içinde ri olaylarının Örnek 2.20 AK Bir sınıfta 12 kız, 36 erkek öğrenci bulunduğunu varsayalım. Öğrenciler arasında 2’si kız, 6’sı erkek 8 kişilik proje grubu oluşturulmak isteniyor. Söz konusu sınıftan kaç değişik kombinasyon çıkar? 12 kız öğrenciler arasındaki kombinasyon sayısını, 36 erkek öğrenciler arasındaki 2 6 kombinasyon sayısını temsil ettiğinden, 12 36 12 · 11 36 · 35 · 34 · 33 · 32 · 31 = · = 66 · 1 947 792 = 128 554 272 2 6 2 6·5·4·3·2·1 farklı sayıda proje grubu oluşturulabilir. Örnek 2.21 TA SL Örnek 2.15’teki kırmızı (1), yeşil (2) ve mavi (3) toplar arasından rasgele kırmızı ve mavi top seçme olasılığını kombinasyon hesabı ile bulalım. Kırmızı, yeşil ve mavi alt kümelerin eleman sayıları ve kombinasyona girecek elemanları, n = n1 + n2 + n3 = 1 + 2 + 3 = 6 r = r1 + r2 + r3 = 1+0+1 = 2 olarak bilindiğine göre, 6 top arasından kırmızı ve mavi top seçme olasılığı (2.27)’den, 1 2 3 1 1·1·3 = P (K ve M ) = 1 60 1 = 15 5 2 çıkar. Olasılık ve İstatistik s.2014.02.21 24 TA SL AK TEMEL OLASILIK Olasılık ve İstatistik s.2014.02.21 AK Bölüm 3 TA SL RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI 3.1 Rasgele Değişken Gözlenen fiziksel, geometrik ya da buna benzer bir olaya belli sayılarla ya da bu sayılara karşılık gelen belli fonksiyonlarla nicelik kazandırılabilir. Para atışı gibi raslantısal olaylar üzerine kurgulanmış deneyler için bile, S örneklem uzayının her elemanı için sayısal bir karşılık bulunabilir. Bunlardan bazıları, örneğin zar atışının sonuçları, doğal olarak sayılardan oluşurken; bazıları da sayılara dönüştürülerek ifade edilebilir. Para atışında tura için 1, yazı için 0 kabul edilmesi gibi: ( 0 s1 = Y için X : S → [0, 1] , X(si ) = 1 s2 = T için Verilen örneklerden hareketle, tanımlı alanı (domain) örneklem uzayı olan fonksiyonlara rasgele (stokastik) fonksiyon denir (Papoulis, 1984, s. 63). X rasgele fonksiyonu (değişkeni) örneklem uzayının gerçek değerli sayılara izdüşümünü, X :S→R (3.1) sağlar. Gerçek değerli rasgele fonksiyonlar ya da rasgele değişkenler, genellikle X veya Y gibi büyük harflerle gösterilir. Rasgele değişkenler kullanılarak S sıralı örneklem uzayında belli olayların tanımı yapılabilir. Bazı gösterimler ve anlamları Çizelge 3.1’de verilmektedir. Örneklem uzayındaki elementer olaylar (si ) kullanılarak türetilecek değerlerin 26 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI Çizelge 3.1: Sıralı örneklem uzayında rasgele değişken X yardımıyla olay tanımlama Notasyon {X = x} {X ≤ x} {X > x} {x1 ≤ X ≤ x2 } Olay tanımı X = x’in geçerli olduğu elementer olaylar x ve onun solundaki elementer olaylar x’in sağındaki elementer olaylar x1 ve x2 aralığındaki elementer olaylar AK (değişken) tanımı için belli bir kural yoktur. Aynı örneklem kümesinden farklı rasgele fonksiyon tanımları yapılabilir. Örnek 3.1 Üç kez atılan para oyununda, tura için 1, yazı için 0 ataması yapalım. uzayındaki seçeneklere karşılık, rasgele değişken X için değerler, Örneklem TA SL Elementer olaylar X YYY 0 T Y Y, Y T Y, Y Y T 1 T T Y, T Y T, Y T T 2 TTT 3 şeklinde gerçekleşir. Örnek 3.2 Başka bir örnekte, tavla oyununda bir kez atılarak elde edilen iki sayı toplamı X rasgele değişkeni, toplamı veren seçeneklerin sayısı Y rasgele değişkeni ile gösterilsin. Örneklem kümesine karşılık değişkenler, Elementer olaylar X Y (1, 1) 2 1 (1, 2), (2, 1) 3 2 (1, 3), (2, 2), (3, 1) 4 3 (1, 4), (2, 3), (3, 2), (4, 1) 5 4 (1, 5), (2, 4), (3, 3), (4, 2), (5, 1) 6 5 (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1) 7 6 (2, 6), (3, 5), (4, 4), (5, 3), (6, 2) 8 5 (3, 6), (4, 5), (5, 4), (6, 3) 9 4 (4, 6), (5, 5), (6, 4) 10 3 (5, 6), (6, 5) 11 2 (6, 6) 12 1 sonuçlarıyla karşımıza çıkar. Bir deneyin gerçek sayılarla kaydedilen sonuçları veya yukarıda tanımlandığı gibi örneklem uzayının gerçek sayılara izdüşümü ölçü, gözlem olarak adlandırılır. Ölçüler bir başka deyişle rasgele değişkenler ayrık (discrete) ve sürekli (continous) Olasılık ve İstatistik s.2014.02.21 27 Rasgele Dağılımlar olarak sınıflandırılırlar. Sonlu ya da sonsuz sayılabilir değer alan değişkene ayrık; sayılamayan, sonsuz değer alan değişkene sürekli (ayrık olmayan) rasgele değişken denir. İlerleyen konularda, ayrık ve sürekli rasgele değişkenler ve onların dağılım fonksiyonları ayrı ayrı ele alınmaktadır. 3.2.1 Rasgele Dağılımlar AK 3.2 Olasılık Yoğunluk Fonksiyonu X rasgele değişkeni ve olasılığından söz edildiğinde, f (x) = P ({s ∈ S}|X = x) (3.2) olaylarının olasılığı anlaşılır. f (x)’e olasılık dağılımı, olasılık yoğunluk fonksiyonu ya da sadece olasılık fonksiyonu denir. (3.2), hem ayrık hem de sürekli rasgele değişkenler için aynıdır. Genel olarak, f (x) ≥ 0 TA SL (3.3) ve x’in olası bütün değerlerini kapsamak üzere, ayrık ve sürekli rasgele değişkenler için, sırasıyla, Z ∞ X f (xi ) = 1 , f (x)dx = 1. (3.4) −∞ i koşulları gerçekleşiyorsa f (x) bir olasılık fonksiyonudur. Örnek 3.3 Örnek 3.2’nin X rasgele değişkenine karşılık gelen olasılık fonksiyonunu bulalım. İki seçeneğin bulunduğu 3 kez tekrarlanan olaydan 8 seçeneğin çıkacağını Örnek 3.1’de belirlemiştik. Buna göre elementer olayların olasılıkları, P (si ) = 1 8 , (i = 1, 2, . . . , 8) eşit değerlere sahip olacaktır. Buradan, olası değerler 0, 1, 2, 3 için X rasgele değişkeninin olasılık fonksiyonu, f (0) = P (X = 0) = P (Y Y Y ) = 1 8 3 1 1 1 + + = 8 8 8 8 3 1 1 1 f (2) = P (X = 2) = P (T T Y ) + P (T Y T ) + P (Y T T ) = + + = 8 8 8 8 1 f (3) = P (X = 3) = P (T T T ) = 8 f (1) = P (X = 1) = P (T Y Y ) + P (Y T Y ) + P (Y Y T ) = sonuçlarını verir. Olasılık ve İstatistik s.2014.02.21 28 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI 3.2.2 Ayrık Dağılım Fonksiyonu X rasgele değişkeni için birikimli (kümülatif) dağılım fonksiyonu ya da özetle dağılım fonksiyonu, F (x) = P (X ≤ x) (3.5) AK eşitliği ile tanımlıdır. Burada x herhangi bir gerçek sayıdır (−∞ < x < +∞). Dağılım fonksiyonu F (x) aşağıdaki özelliklere sahiptir: 1. F (x) artan (azalmayan) bir fonksiyondur: x≤y ⇒ F (x) ≤ F (y). (3.6) 2. İmkansız ve kesin olayların dağılım fonksiyonları, lim F (x) = 0 , x→−∞ lim F (x) = 1 x→+∞ (3.7) 3. F (x) sağdan sürekli bir fonksiyondur: lim F (x + ε) = F (x) tüm x değerleri için TA SL ε→0+ (3.8) Ayrık rasgele değişken X’in dağılım fonksiyonu, olası x1 , x2 , . . . için bilinen olasılık fonksiyonu değerlerinden, F (xk ) = P (X ≤ xk ) = k X f (xi ) , k = 1, 2, . . . (3.9) i=1 hesaplanır. (3.7) gereğince, ilk veriden önceki dağılım fonksiyonu değerleri F (x) = 0 kabul edilir. Ayrık değerlerin sonuncusuna gelindiğinde, F (x) = 1 değerine ulaşılmış olur. Örnek 3.4 Örnek 3.3’ün olasılık ve dağılım fonksiyonunu bulalım ve grafiğini oluşturalım. X rasgele değişkeninin, sonucu sadece 0, 1, 2, 3 olan olaylara bağımlı olduğunu biliyoruz. Bu aralığın dışında, X imkansız olaylara karşılık geldiğinden, x < x1 =0 f (x) > 0 x1 ≤ x ≤ x4 =0 x > x4 durumu geçerlidir. Bu sonuçlarla (3.9)’dan dağılım fonksiyonu için, i 1 2 3 4 Olasılık ve İstatistik f (xi ) f (x1 = 0) f (x2 = 1) f (x3 = 2) f (x4 = 3) = = = = 1/8 3/8 3/8 1/8 F (xi ) F (0) F (1) F (2) F (3) = = = = = P (X P (X P (X P (X P (X ≤ xi ) ≤ 0) ≤ 1) ≤ 2) ≤ 3) = = = = 1/8 1/2 7/8 1 s.2014.02.21 29 Rasgele Dağılımlar F (xi ) = P (xi ≤ X < xi+1 ) f (xi ) = P (X = xi ) 1.00 0.75 0.75 0.50 0.50 0.25 0.25 0 −1 1 2 3 4 xi +∞ f (1) = F (1) − F (0) = 3/8 AK 1.00 −∞ −2 0 −1 1 2 3 4 xi Şekil 3.1: Üç kez atılan para için f (x) olasılık ve F (x) dağılım fonksiyonlarının görünümü çizelge değerleri elde edilir. Sonuçların grafik gösterimi Şekil 3.1’de verilmektedir. TA SL Dağılım fonksiyonu hakkında aşağıdaki gerçeklerden söz edilebilir: 1. Ayrık rasgele değişkenler için dağılım fonksiyonunun görünümü Şekil 3.1’de olduğu gibi her zaman artan merdiven basamağı fonksiyonu biçimindedir. 2. Gözlem noktalarındaki sıçramaların büyüklüğü o noktadaki olasılık değerlerine eşittir. Buna göre olasılık fonksiyonu değerleri, ardışık dağılım fonksiyonu değerlerinden türetilebilir: f (xi ) = F (xi ) − F (x− i ) (3.10) Burada F (x− i ), dağılım fonksiyonunun sağdan limitidir; F (xi−1 ) sonucunu verir (Şekil 3.1). 3.2.3 Sürekli Dağılım Fonksiyonu f (x) artı tanımlı olasılık yoğunluk fonksiyonu olmak üzere, sürekli rasgele değişken X’in [a, b] aralığındaki olasılığı, P (a ≤ X ≤ b) = Z b f (x)dx (3.11) a integrali ile verilir. İntegral sınırları (−∞, x] olarak değiştirilirse kümülatif (artan) olasılık dağılım fonksiyonu, Z x F (x) = P (X ≤ x) = f (x)dx (3.12) −∞ Olasılık ve İstatistik s.2014.02.21 30 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI elde edilir. F (x), rasgele değişkenin x’e kadar alabileceği tüm değerlerin (örneklem uzayındaki olayların) olasılığıdır. Şekil 3.2’de f (x) eğrisi altındaki alan dağılım fonksiyonunun geometrik yorumunu verir. (3.12)’de küçük eşit (≤) işaretinin sadece ayrık değişkenler için anlamı bulunmasına karşın, sürekli fonksiyonlarda kullanılması gelenektir. f (x) AK f (x) F (x) = P (X ≤ x) P (a ≤ X ≤ b) = F (b) − F (a) x x a x b Şekil 3.2: Sürekli rasgele değişken X için F (x) dağılım fonksiyonu ve geometrik yorumu TA SL (3.6)–(3.8) ile özellikleri sıralanan F (x), mutlak fonksiyon niteliğindedir. Bu sayede, (3.11) ve (3.12)’den, {X ≤ a} ve {a < X ≤ b} olaylarının bağımsız olma özellikleri kullanılarak sürekli fonksiyonlar için geçerli, F (b) − F (a) = P (a < X ≤ b) (3.13) Ra eşitliği yazılabilir (Şekil 3.2). a = b için dağılım fonksiyonundan a f (x)dx = 0 sonucu çıkar. Başka bir deyişle, sürekli rasgele değişkenlerin belli bir değere eşit olma olasılığı yoktur (P (X = a) = 0) denir. Öte yandan, (3.13)’te a ve b noktaları birbirine çok yakın seçilir (∆x = b − a) ve fonksiyondaki değişimin limit durumu incelenirse, P (a < X ≤ b) d lim = F (x = a) = f (a) (3.14) ∆x→0 ∆x dx dağılım fonksiyonunun türevi, X rasgele değişkeninin olasılık yoğunluk fonksiyonu elde edilir. Örnek 3.5 P (X > x) = 1 − F (x) olduğunu gösterelim. {X > x} ve {X ≤ x} karşılıklı olarak dışarmalı (bağımsız) olaylardır. Birleşimleri, {X > x} ∪ {X ≤ x} = S ⇒ P (X > x) + P (X ≤ x) = 1 sonucu verdiğinden P (X ≤ x) yerine F (x) yazıldığında, F (x) = P (X > x) = 1 − F (x) bulunur. F (x) tamamlayıcı dağılım fonksiyonu olarak da bilinir. Olasılık ve İstatistik s.2014.02.21 31 Rasgele Değişkenin Beklenen Değeri ve Momenti Örnek 3.6 Sürekli rasgele değişkenin olasılık yoğunluk fonksiyonu, k 1≤x≤4 f (x) = x 0 Diğer AK ile tanımlı olsun. a) Sabit k sayısını belirleyelim. Olasılık yoğunluk fonksiyonu (3.4)’ten, Z 4 Z +∞ 1 dx = 1 f (x)dx = k x 1 −∞ sonucunu sağlamalıdır. Tanımlı integral, x=4 =1 k(ln x) x=1 hesabından k = 1 ln 4 ≈ 0.721 elde edilir. TA SL b) Yukarıdaki sonuca göre yoğunluk ve dağılım grafiklerini oluşturalım ve F (2.5) = P (X ≤ 2.5) için olasılık değerini hesaplayalım. Şekil 3.3, 0.721 x F (x) = 0.721 ln x f (x) = [1, 4] aralığında yoğunluk ve dağılım fonksiyonlarının grafiklerini göstermektedir. Eğri altındaki dolu alan {X < 2.5} olaylarının olasığıdır: Z 2.5 Z 2.5 0.721 f (x)dx = F (x = 2.5) = dx = 0.66 x 1 −∞ 3.3 3.3.1 Rasgele Değişkenin Beklenen Değeri ve Momenti Beklenen Değer ve Ağırlıklı Ortalama Bir rasgele değişkenin olası tüm değerleri, yoğunluk fonksiyonu değerleri de hesaba katılarak, ortalama oluşturmak üzere bir araya getirilirse rasgele değişkenin beklenen değeri elde edilir. Tanım gereğince, beklenen değer ortalama değer ya da kıcaca ortalama olarak görülür (Koch, 1999, s. 93). X rasgele değişkeninin yoğunluk fonksiyonu f (x) olsun. Beklenen değer, ayrık veriler için, X µ = E(X) = xi f (xi ) , i = 1, 2, . . . , n veya ∞ (3.15) i Olasılık ve İstatistik s.2014.02.21 32 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI f (x) = 0.721 x F (x) = 0.721 ln x 1.00 0.66 x 1 x = 2.5 4 AK P (X ≤ 2.5) = 0.66 1 Şekil 3.3: [1, 4] kapalı aralığında, f (x) = Boyalı alan, P (X ≤ x = 2.5) için olasılık. ve sürekli veriler için, µ = E(X) = Z 0.721 x x = 2.5 x 4 fonksiyonu ve onun dağılım grafiği. +∞ xf (x)dx (3.16) −∞ TA SL eşitlikleriyle tanımlanır. E(X), X’in matematiksel beklentisi (ortalama değeri) olarak okunur; µ ile gösterilir. Zaman zaman, öteki rasgele değişkenlerle karışmasın diye µ yerine, µX kullanılır. (3.15) ve (3.16) eşitlikleri örneklem uzayının tüm olaylarını (S) kapsar. Bu nedenle, ağırlık (yoğunluk fonksiyonu) değerleri toplamı P (S) = 1 eşitliğini sağladığından beklenen değer ağırlıklı ortalama anlamındadır. Örnek 3.7 Örnek 3.1 ve 3.3’teki rasgele değişken ve olasılık değerlerini kullanarak beklenen değeri hesaplayalım. Rasgele değişken için olası tüm değerlerin sayısı (gözlem sayısı) n = 4 olduğuna göre, (3.15)’den, µ = E(X) = 4 X i=1 elde edilir. Bu uygulamada xi f (xi ) = 0 · P i f (xi ) 3 3 1 12 1 +1· +2· +3· = = 1.5 8 8 8 8 8 = 1 olduğuna dikkat ediniz. Ayrık rasgele değişkenin n sayıdaki olası tüm değerleri eşit olasılıklı ise, P (X = x1 ) = P (X = x2 ) = · · · = P (X = xn ) = beklenen değer, 1 n n 1X x1 + x2 + · · · + xn µ = E(X) = xi = n i n (3.17) basit aritmetik ortalamaya dönüşür. Olasılık ve İstatistik s.2014.02.21 33 Rasgele Değişkenin Beklenen Değeri ve Momenti Örnek 3.8 Zar atışının sonuçları rasgele değişken kabul edilirse, gelen sayının olasılıkları eşit (P (X = xi ) = 16 ) olduğundan beklenen değer, µ = E(X) = 1+2+3+4+5+6 21 7 = = 6 6 2 AK çıkar. Beklenen değerin özellikleri: Beklenen değer hesabı yukarıdaki örnekler gibi sadece bir rasgele değişken ve onun olasılık yoğunluk değerlerinden başka, birden fazla değişken ve onların fonksiyonları ile bazı sabit sayıları ilgilendirebilir. Bu yüzden beklenen değere ilişkin aşağıdaki özelliklerin bilinmesi yararlıdır. Beklenen değerin en önemli özelliği doğrusal operatör olmasıdır. X ve Y bağımsız rasgele değişkenler, a ve b sabit sayılar olmak üzere aşağıdaki özellikleri geçerlidir: (3.18) E(X + a) = E(X) + a E(aX) = aE(X) E(aX + bY ) = aE(X) + bE(Y ) (3.19a) (3.19b) (3.19c) TA SL E(X + Y ) = E(X) + E(Y ) Bazı uygulamalar, rasgele değişkenin beklenen değerini değil onun fonksiyonunu ilgilendirir. X rasgele değişkeninin fonksiyonu Y = g(X) ise, Y ’nin beklenen değeri, ayrık ve rasgele değişkenler için sırasıyla, X E(Y ) = E[g(X)] = g(x)f (x) (3.20) ve E(Y ) = E[g(X)] = Z +∞ g(x)f (x)dx (3.21) −∞ olur. Eşitliklerden anlaşılacağı üzere X rasgele değişkene ilişkin olasılık fonksiyonu değerleri, türetilen Y rasgele değişkeni için de geçerli olmaktadır. Örnek 3.9 Örnek 3.7’de X rasgele değişkeni ve olasılık değerlerini kullanarak Y = 2X 2 ’nin beklenen değerini hesaplayalım. Olasılık ve İstatistik i X = xi P (X = xi ) Y = 2X 2 = 2x2i yi P (X = xi ) 1 0 1/8 0 0 2 1 3/8 2 3/4 3 2 3/8 8 3 4 3 1/8 18 9/4 P 6 s.2014.02.21 34 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI Örnek 3.10 f (x) yoğunluk fonksiyonu ile verilen bir kürenin yarıçapı X rasgele değişkeni olsun. Kürenin hacmi için beklenen değeri (µY ) hesaplayalım. +∞ AK Kürenin yarıçapı (X) ve beklenen değeri, Z µX = xf (x)dx −∞ integral eşitliğiyle tanımlanır. Buna karşılık hacminin beklenen değeri, (3.21) göz önüne alınarak, Z Z +∞ 4π +∞ 3 4 3 πx f (x)dx = x f (x)dx µY = 3 −∞ −∞ 3 biçiminde yazılabilir. Varyans ve Standart Sapma TA SL 3.3.2 Rasgele değişkenin genel eğilimini ortaya koymak, ağırlık değerlerini göz önüne alarak olası tüm sonuçları tek bir değere dönüştürmek istediğimizde beklenen değer veya ağırlıklı ortalama en uygun büyüklük olarak değerlendirilebilir. Ancak bu sayı, olası değerlerin (verilerin) nasıl saçıldığı veya ortalamadan ne kadar saptıkları hakkında bilgi içermez. Verilerin istatistik yöntemlerle analizinde bir kalite ölçütü olarak varyans, rasgele değişkenin ortalamadan ne kadar uzaklaştığını açıklar. Sapma miktarının karesel biçimi X’in fonksiyonu yeni bir değişken olacaktır. Söz konusu değişkenin beklenen değeri, Var(X) = E[(X − µ)2 ] = E(X 2 ) − 2µE(X) + µ2 = E(X 2 ) − µ2 = E(X 2 ) − [E(X)]2 (3.22) varyans olarak tanımlanır ve karesel biçimi ifade edebilmek amacıyla σ 2 ile gösterilir. (3.22)’deki varyans hesabının, rasgele değişkeninin bir fonksiyonu olarak X ile aynı dağılıma dayandığı kolayca anlaşılabilir. f (x), X rasgele değişkenin yoğunluk fonksiyonu ise (3.20) ve (3.21)’den varyans için, sırasıyla, X σ 2 = E[(X − µ)2 ] = (x − µ)2 f (x) (3.23) ve 2 2 σ = E[(X − µ) ] = Z +∞ −∞ (x − µ)2 f (x)dx (3.24) yazılabilir. Olasılık ve İstatistik s.2014.02.21 35 Rasgele Değişkenin Beklenen Değeri ve Momenti Varyansın karekökü, σ= p Var(X) (3.25) f (x) AK standart sapma olarak adlandırılır. Büyük standart sapma değerleri, X rasgele değişkenin µ’ye göre daha geniş alana yayıldığını (tanım aralığının genişlediğini), küçük olanlar ise saçılmanın daraldığını (olası değerlerin µ’ye yaklaştığını) gösterir. Buradan hareketle, bir ölçme uygulamasında standart sapma, sonuçların düşük ya da yüksek duyarlık (İngilizce precision) olarak yorumlanmasında kullanılır. Farklı σ1 ve σ2 değerlerinin olasılık yoğunluk fonksiyonu ve ölçme kalitesi ile ilişkisi Şekil 3.4’te anlatılmıştır. Yüksek duyarlık σ1 σ2 > σ1 Düşük duyarlık TA SL σ2 µ − σ2 µ − σ1 µ µ + σ1 µ + σ2 x Şekil 3.4: σ1 ve σ2 standart sapma değerlerinin beklenen değer µ’ye göre olasılık yoğunluk fonksiyonuna etkisi Örnek 3.11 Örnek 3.7’nin devamı olarak varyans ve standart sapma değerlerini bulalım. Çözüm için iki yol izlenebilir: a) (3.22) eşitliği kullanılarak. Öncelikle, E(X 2 ) = 4 X i x2i P (X = xi ) = 02 · 1 1 3 3 24 + 12 · + 22 · + 32 = =3 8 8 8 8 8 hesaplanır; µ = E(X) = 1.5 olarak bilindiğine göre, σ 2 = E[(X − µ)2 ] = E(X 2 ) − [E(X)]2 = 3 − 1.52 = 0.75 çıkar. b) İkinci çözüm yolu doğrudan (3.23)’ü kullanmaktır: X 3 3 1 1 σ2 = (X −µ)2 f (x) = (0−1.5)2 +(1−1.5)2 · +(2−1.5)2 · +(3−1.5)2 = 0.75 8 8 8 8 Her iki hesaptan aynı varyans değeri σ 2 = 0.75 çıkmaktadır. Buradan standart sapma σ = 0.866 olarak elde edilir. Olasılık ve İstatistik s.2014.02.21 36 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI Varyans hesabının özellikleri: Beklenen değerin aksine karesel biçime dayandığından, varyans operatörü doğrusal değildir. X ve Y bağımsız değişken, a ve b sabit katsayılar olsun. Varyans hesabı için aşağıdaki eşitlikler geçerlidir: (3.26a) (3.26b) (3.26c) Var(X + Y ) = Var(X) + Var(Y ) (3.27) AK Var(b) = 0 Var(X + b) = Var(X) Var(aX + b) = a2 Var(X) Standartlaştırılmış rasgele değişken birim standart sapma (σ = 1) ve sıfır beklenen değere sahip µ = 0 rasgele değişeni ifade eder. Bilinen σ > 0 ve µ değerleri yardımıyla X rasgele değişkeni, Z= X −µ σ (3.28) TA SL standartlaştırılabilir. Z rasgele değişkenin olası değerlerine z-sayıları veya normal sayılar denir. Örneklem dağılımının normal dağılımla karşılaştırılmasını gerektiren uygulamalarda z-sayıları (birimsiz) kullanılır. 3.3.3 Moment İstatistikte moment kavramı, X rasgele değişkeni ve aldığı değerler hakkında ayrıntılı analizler yapılması istendiğinde gündeme gelir. Moment belli bir kitlenin (veri yığının) şekilsel görünümü için ölçüt tanımlar. İstatistiksel çıkarımın ön planda olduğu ve karar verme amacı taşıyan analizlerde momentler anlam kazanır. Örneğin, istatistikte merkezsel ikinci moment varyansa karşılık gelir ve yoğunluk fonksiyonunun genişliğini ortaya koyar. Genel olarak, olasılık yoğunluk fonksiyonun sıfır etrafındaki n. momenti, n mn = E(X ) = Z +∞ xn f (x)dx (3.29) −∞ X n fonksiyonunun beklenen değerini verir. Sıfır yerine X’in beklenen değeri µ kullanılırsa merkezsel moment, n µn = E[(X − µ) ] = Z +∞ −∞ (x − µ)n f (x)dx söz konusu olur. Ayrık rasgele değişken için merkezsel moment, X µn = E[(X − µ)n ] = (x − µ)n f (x) Olasılık ve İstatistik (3.30) (3.31) s.2014.02.21 37 Rasgele Değişkenin Beklenen Değeri ve Momenti f (x) f (x) Pozitif çarpıklık Negatif çarpıklık Yüksek basıklık AK Düşük basıklık x x Şekil 3.5: Dağılımın çarpıklığı (sol) ve basıklığı (sağ) TA SL ile tanımlıdır. Sıfır etrafındaki moment ve merkezsel moment değerlerine, genel eşitlikler yardımıyla ulaşılabilir (Papoulis, 1984, s. 110): n X n mk (−µ)n−k (3.32) µn = k k=0 n X n µk µn−k (3.33) mn = k k=0 Beklenen değer ve varyans özel moment büyüklükleri arasında yer alır: µ0 = m0 = 1 , m1 = µ , µ1 = 0 , µ2 = σ 2 Çarpıklık üçüncü merkezsel momente karşılık gelen ve dağılımın simetrik olmaktan ne kadar uzak olduğunu gösteren bir ölçüttür. Çarpıklığı sıfır olan dağılım simetriktir. Standartlaştırılmış üçüncü merkezsel moment, α3 = E[(X − µ)3 ] µ3 = 3 3 σ σ (3.34) kısaca çarpıklık (skewness) adı ile anılır. Sol kuyruğu daha uzun dağılım negatif çarpıklığı, sağ kuyruğu daha uzun dağılım pozitif çarpıklığı işaret eder (Şekil 3.5). Basıklık (kurtosis) olarak adlandırılan standartlaştırılmış dördüncü merkezsel moment, E[(X − µ)4 ] µ4 α4 = = 4 (3.35) 4 σ σ ikinci merkezsel moment (varyans) gibi artı değerlidir. Ancak, basıklığı 3 olan normal dağılım baz alınarak eksi ve artı değerli yeni bir basıklık tanımı yapılabilir. Yoğunluk fonksiyonu grafiğinin yanlardan ne kadar basık olduğunu açıklar. Basıklığı yüksek dağılımların en dikkat çekici özelliği sivri tepeleri ve uzun kuyruklarıdır (Şekil 3.5). Olasılık ve İstatistik s.2014.02.21 38 3.4 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI Diğer Merkezi Eğilim ve Saçılım Ölçütleri AK istatistikte, beklenen değer ya da başka bir deyişle ortalama değer merkezi eğilim ölçütüdür. Örneklem kümesinin, anakütlenin ya da olasılık yoğunluk fonksiyonunun nerede konumlandığını gösterir. Geometrik anlamda, µ’nün x ekseni üzerindeki yerini tanımlar. Rasgele değişkenin yerini tanımlamak için başka ölçütler de kullanılabilir. Değişik merkezi eğilim ölçütleri dağılımın özellikleri hakkında bazı ipuçları verdiğinden uygulamada sadece ortalama (µ) ile yetinilmez. Medyan ve mod µ’ye seçenek iyi bilinen merkezi eğilim araçlarıdır. Medyan ortanca veya orta değer anlamına gelir. Sıralı bir biçimde düzenlenmiş dağılımı kütlesel olarak iki eşit parçaya ayırır. Buna göre; dağılım fonksiyonu için, F (µ1/2 ) = 0.5 (3.36) koşulunu sağlayan x = µ1/2 değerine medyan denir. Medyan değeri, ayrık rasgele değişken için aşağıdaki olasılık eşitsizliklerini sağlamalıdır: 1 1 ve P (X > µ1/2 ) ≤ 2 2 TA SL P (X < µ1/2 ) ≤ (3.37) X rasgele değişkeninin alacağı değerler küçükten büyüğe x1 ≤ x2 ≤ · · · ≤ xn sıralanmış olsun. n ölçü sayısına bağlı olarak medyan, ( n tek ise x n+1 µ1/2 = 1 2 (3.38) (x n2 + x n2 +1 ) n çift ise 2 eşitliğinden bulunur. (3.36)’ya göre sürekli rasgele değişkenin olasılık fonksiyonu eğrisi altında kalan alan, µ1/2 = sb. doğrusu ile sınırlıdır. Bu durum, Z x=µ1/2 1 P (X < µ1/2 ) = P (X > µ1/2 ) = f (x)dx = (3.39) 2 −∞ integral eşitliği ile tanımlanır. Normal dağılım gibi simetrik (unimodal) dağılımlarda medyan ortalama değere eşittir: µ1/2 = µ. Buradan hareketle dağılımın çarpıklığı ortaya çıkarılabilir. µ1/2 < µ sonucu pozitif çarpıklığı, tersi negatif çarpıklığı tanımlar. Medyan için geçerli en önemli özelliklerden biri rasgele değişkenin mutlak sapmalarını en küçükleştirmesidir: E[|X − µ1/2 |] = min. Ortalama değer ise sapmaların karelerini en küçükleştirir: E[(X − µ)2 ] = min. Mod dağılım kümesinde olasılığı en yüksek değerdir: µ̂ = arg max(f (x)) := {x | ∀y : f (y) ≤ f (x)} Olasılık ve İstatistik (3.40) s.2014.02.21 39 Diğer Merkezi Eğilim ve Saçılım Ölçütleri AK Burada f (x) olasılık yoğunluk fonksiyonudur. (3.40) ayrık durum için en çok tekrar eden veriyi işaret eder. Dağılımda en yüksek olasılık değeri birden fazla nokta ile temsil ediliyorsa, mod bu değerlerin hepsine karşılık geldiğinden sonuç tek anlamlı olmaktan çıkar. Böylesi durumlarda dağılımın bimodal, trimodal ya da multimodal olduğundan söz edilir. Unimodal başka bir deyişle tek global maksimuma sahip simetrik dağılımlarda (örneğin normal) mod, medyan ve ortalama değer birbirlerine eşittir (Şekil 3.6). Genel olarak unimodal dağılımlar için hesaplanan ortalama, medyan ve mod değerleri aşağıdaki eşitsizlikleri sağlar: TA SL |µ̂ − µ| √ ≤ 3 σ |µ1/2 − µ| √ ≤ 0.6 σ |µ̂ − µ1/2 | √ ≤ 3 σ (3.41a) (3.41b) (3.41c) f (x) µ = µ1/2 = µ̂ µ̂1 µ̂2 µ1/2 µ µ̂ µ = µ1/2 x Şekil 3.6: Simetrik unimodal (mavi), çarpık unimodal (kırmızı) ve simetrik bimodal (yeşil) dağılım için ortalama, medyan ve mod hesabı Örnek 3.12 Test sınavına giren 98 öğrencinin aldığı notlar aşağıda listelenmiştir. Veri kümesine ilişkin ortalama, medyan ve mod değerlerini hesaplayınız. Olasılık ve İstatistik s.2014.02.21 40 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI 12 24 36 28 32 52 76 36 40 8 40 24 40 56 36 60 56 52 48 32 44 44 40 28 36 56 32 48 44 44 24 56 72 48 64 28 24 24 48 36 28 64 52 44 20 48 32 48 36 44 40 56 28 40 36 60 60 40 28 52 40 32 32 52 60 52 36 36 52 52 28 20 56 40 48 64 36 48 24 36 44 28 60 56 44 56 32 52 AK 40 48 32 36 36 48 24 56 40 68 Çözüm: Verilen notlara ilişkin olasılık yoğunluğu ve dağılım çizelgelerini oluşturalım: i xi ni f (xi ) F (xi ) 1 8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 12 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 1 2 7 8 8 13 11 8 10 9 9 5 3 1 1 1 1 98 1 98 1 98 2 98 2 98 4 98 7 98 11 98 8 98 19 98 8 98 27 98 13 98 40 98 11 98 51 98 8 98 59 98 10 98 69 98 9 98 78 98 9 98 87 98 5 98 92 98 3 98 95 98 1 98 96 98 1 98 97 98 1 98 98 98 Yukarıdaki çizelgeye göre; dağılımın ortalaması ya da beklenen değeri, 17 X TA SL µ = E(X) = xi f (xi ) = 42.12 i=1 çıkar. Medyan değerini bulmak için toplam n = 98 ölçü küçükten büyüğe sıralanmalıdır. (3.38) eşitlikleri göre medyan 49 ve 50. sıradaki başarı notunun ortalamasıdır. Yukarıdaki yoğunluk ve dağılım çizelgesinden bu değerlerin 40 olduğu anlaşıldığından, 1 1 µ1/2 = (x49 + x50 ) = (40 + 40) = 40 2 2 bulunur. Mod değeri ise 13 kez tekrar edilen, µ̂ = 36 sonucunu göstermektedir. Hesaplanan merkezi eğilim ölçütlerinin konumu Şekil 3.7’deki sıklık-dağılım grafiğinde gösterilmektedir. Şekilde medyan değerinin kümülatif dağılımın 0.5 seviyesine çıktığı konuma çok yakın olduğuna dikkat edilmelidir. Ortalama sapma verilen bir merkezi eğilim ölçütüne göre rasgele değişkenin mutlak sapmalarının beklenen değeridir; bir saçılım ölçütü olarak standart sapmaya seçenektir. Genel eşitlik, (P |xi − m(X)|f (xi ) Ayrık durum md(X) = E[|X − m(X)|] = R (3.42) |x − m(X)|f (x) Sürekli durum biçiminde yazılabilir. Burada m(X) merkezi eğilim ölçütünü tanımlar; ortalama, medyan veya mod değerlerinden birine karşılık gelir. Örnek 3.13 Olasılık ve İstatistik s.2014.02.21 41 Diğer Merkezi Eğilim ve Saçılım Ölçütleri 14 12 0.875 0.750 0.625 8 0.500 6 0.375 4 2 0 AK 10 Dağılım (F (xi)) Sıklık (ni) 1.000 Mod Medyan Ortalama 16 0.250 0.125 0 0 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80 84 88 92 96 100 Notlar Şekil 3.7: Başarı notlarının sıklık-dağılım grafiği TA SL Son örnekte verilenleri kullanarak; • Standart sapmayı • µ, µ1/2 , µ̂ değerlerine göre ortalama sapmayı hesaplayınız. Çözüm: Başarı notlarının varyansı σ 2 = E[(X − µ)2 ] = E(X 2 ) − [E(X)]2 ile hesaplanabilir. Bunun için E(X 2 ) = 17 X = x2i f (xi ) = 1948.1 i=1 elde edilir ve yukarıda yerine yazılırsa varyans, σ 2 = E[(X − µ)2 ] = E(X 2 ) − [E(X)]2 = 1948.1 − 42.122 = 173.78 çıkar. Dağılımın standart sapması, σ= bulunur. p Var(X) = 13.183 Dağılımın ortalaması, medyanı ve modu için önceki örnekten bilinen değerler sırasıyla Olasılık ve İstatistik s.2014.02.21 42 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI (3.42)’de yerine konularak ortalama sapma için, 17 X |xi − µ|f (xi ) = 10.862 E[|X − µ|] = i=1 17 X md(X) = E[|X − µ1/2 |] = |xi − µ1/2 |f (xi ) = 10.776 i=1 17 X |xi − µ̂|f (xi ) = 11.510 E[|X − µ̂|] = AK i=1 sonuçlarına ulaşılır. 3.5 Birleşik Rasgele Dağılımlar TA SL Şimdiye kadar anlatılan konularda olasılık dağılımını tek değişkenli (univaryat) ele aldık. Olasılık değerini iki (bivaryat) ya da daha fazla (multivaryat) rasgele değişkene bağlı olarak hesaplamak istediğimizde, birleşik dağılım kavramı önümüze gelir. Bir grup insanın kilosu ve boyu iki ayrı rasgele değişken olarak görülebilir. Öte yandan bu iki rasgele değişken birbirini etkileyen büyüklükler olduğu değerlendirildiğinde, grup elemanlarının fiziksel gelişimi, sağlık durumu gibi değişik olayların olasılıklarının bu iki parametreye bağlı olması gerektiği sonucu ortaya çıkar. Gerektiğinde bu örnek cinsiyet, yaş gibi başka parametrelerle (değişkenlerle) de genişletilebilir. Konunun kolay anlaşılması açısından, bu bölümde tanım alanı iki boyutlu rasgele değişken ile belirtilen olasılık uzayları açıklanacaktır. Kovaryans, iki boyutlu birleşik dağılımın en önemli uygulamasıdır. Olasılık yoğunluk fonksiyonu, f = f (x, y) (3.43) iki değişkene bağlı olarak ifade edilen dağılımlara, kısaca (iki boyutlu) birleşik dağılım denir. Aynı anda gerçekleşmesi istenen {X ≤ x} ve {Y ≤ y} olaylarının olasılığını gösteren birleşik dağılım fonksiyonu, F (x, y) = P (X ≤ x, Y ≤ y) = P (D) , pozitif tanımlı, artan fonksiyondur: lim F (x, y) = lim F (x, y) = 0 x→−∞ y→−∞ D = {X ≤ x, Y ≤ y} ∈ R2 (3.44) , (3.45) lim F (x, y) = 1 x,y→∞ (3.44)’de R2 iki boyutlu düzlem uzayı, D bu uzayın içinde X ve Y ’ye ilişkin olayların kesişim alanını gösterir. Bölge tanımı Şekil 3.8’daki gibi birkaç değişik şekilde yapılabilir. D1 , D2 , D3 , D4 bölgeleri için sırasıyla, aşağıdaki olasılık eşitlikleri geçerlidir: P (X ≤ x, Y ≤ y) = F (x, y) (3.46a) P (X ≤ x, y1 ≤ Y ≤ y2 ) = F (x, y2 ) − F (x, y1 ) (3.46b) P (x1 ≤ X ≤ x2 , y1 ≤ Y ≤ y2 ) = F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) (3.46d) P (x1 ≤ X ≤ x2 , Y ≤ y) Olasılık ve İstatistik = F (x2 , y) − F (x1 , y) (3.46c) s.2014.02.21 43 Birleşik Rasgele Dağılımlar y y y2 b y y1 x b y1 b x b b b b y y2 x x x1 b b x b x2 b b x1 x2 x AK y y D1 = {X ≤ x, Y ≤ y} D3 = {x1 ≤ X ≤ x2 , Y ≤ y} D4 = {x1 ≤ X ≤ x2 , y1 ≤ Y ≤ y2 } D2 = {X ≤ x, y1 ≤ Y ≤ y2 } G Şekil 3.8: İki boyutlu rasgele değişken (R2 ) uzayında olay (alan) tanımı (Papoulis, 1984, s. 124) 0. 02 −0.15 −0.10 −0.05 0.00 0.05 0.10 0.15 TA SL İki boyutlu birleşik dağılımların geometrik yorumu x, y, z üç boyutlu koordinat sistemi içinde kolayca yapılabilir. İlgili tanım bölgesi için z = f (x, y) noktaları üç boyutlu koordinat sisteminde bir yüzeyi (kesikli ya da sürekli), (3.46) eşitlikleri de bu yüzeyin altındaki hacim miktarını verir. z = sabit noktaları eşit olasılıklı noktalar kümesini, kısaca eş-olasılık eğrilerini tanımlar. Şekil 3.9 D = {−2.5 ≤ X ≤ 2.5, −2.5 ≤ Y ≤ 2.5} ∈ R2 alanında (iki boyutlu) Gauss’un olasılık dağılımını bir yüzey ile göstermektedir. Eş yükseklik eğrileri aynı olasılık değerlerinin düzleme izdüşümünü temsil etmektedir. 0.0 6 0.0 12 0. .5 −2 4 −2 0. .0 −1 0.14 0.08 0. 0.1 .5 −1 0.02 12 06 0.0 4 0.0 2 08 0. .0 0.1 .5 −0 0.0 0.06 4 0.5 0.0 02 1.0 0. 1.5 2.0 2.5 −2.5 −2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 Şekil 3.9: İki değişkenli Gauss (normal) olasılık fonksiyonu f (x, y) = 2.5 1 −x e 2π 2 +y 2 2 Tek değişkenli olasılık fonksiyonlarına benzer biçimde birleşik dağılımlar da ayrık ve sürekli olmak üzere iki ayrı başlık altında incelenir. Olasılık ve İstatistik s.2014.02.21 44 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI Çizelge 3.2: Ayrık rasgele değişken X ve Y için marjinal ve birleşik olasılıklar P X\Y y1 y2 y3 ··· ym x1 f (x1 , y1) f (x1 , y2 ) f (x1 , y3 ) · · · f (x1 , ym) fX (x1 ) x2 f (x2 , y1) f (x2 , y2 ) f (x2 , y3 ) · · · f (x2 , ym) fX (x2 ) x3 f (x3 , y1) f (x3 , y2 ) f (x3 , y3 ) · · · f (x3 , ym) fX (x3 ) .. .. .. .. .. .. .. . . . . . . . 3.5.1 f (xn , y1 ) f (xn , y2 ) f (xn , y3 ) · · · f (xn , ym ) fY (y1 ) fY (y2 ) fY (y3 ) · · · fY (ym ) fX (xn ) 1 AK xn P Ayrık Durum X ve Y ayrık rasgele değişkenlerin birleşik olasılık fonksiyonu, f (x, y) = P (X = x, Y = y) (3.47) TA SL eşitliği ile verilir. X’in n ve Y ’nin m sayıdaki olası değerine karşılık f (xi , yj )’nin alacağı değerler Çizelge 3.2’deki gibi gösterilebilir. Değişkenlerden biri gözardı edildiğinde veya değişkenlerden biri ile çalışmak istenildiğinde marjinal olasılıklar P (X = xi ) ve P (Y = yj ) ortaya çıkar. Burada, {X = xi } ve {Y = yj } birleşik rasgele olayların alt-kümeleridir. Bu olaylara karşılık gelen olasılıklar (çizelgede satır-sütun toplamları), P (X = xi ) = fX (xi ) = m X f (xi , yj ) (3.48a) f (xi , yj ) (3.48b) j=1 P (Y = yj ) = fY (yj ) = n X i=1 ile gösterilirler. Olasılık yoğunluk fonksiyonlarının özelliklerine uygun olarak marjinal olasılıklar, n X fX (xi ) = i=1 m X j=1 fY (yj ) = m n X X f (xi , yj ) = 1 (3.49) i=1 j=1 eşitliğini sağlar. D ∈ R2 tanım bölgesinde konumu x, y ile belli herhangi bir noktanın birleşik dağılım fonksiyonu, XX F (x, y) = P (X ≤ x, Y ≤ y) = f (x, y) (3.50) x y ve aynı noktadaki marjinal dağılım fonksiyonları, X X FX (x) = fX (x) , FY (y) = fY (y) x Olasılık ve İstatistik (3.51) y s.2014.02.21 45 Birleşik Rasgele Dağılımlar toplamlarından çıkar. Örnek 3.14 Aynı boyutlarda 3 kırmızı, 2 mavi ve 5 yeşil top arasından 3’ü rasgele seçilsin. X rasgele değişkeni kırmızıların, Y mavilerin sayısını göstersin. Dağılımın yoğunluk fonksiyonu çizelgesini oluşturalım ve birleşik dağılımın F (2, 1), FX (2) ve FY (1) değerlerini belirleyelim. AK Verilen bilgilere göre X ve Y rasgele değişkenlerinin alacağı değerler, X = {0, 1, 2, 3} Y = {0, 1, 2} olur. X = xi ve Y = yj (i = 1, 2, 3, 4, j = 1, 2, 3) için olasılık yoğunluk fonksiyonu değerleri, f (xi , yj ) = P (X = xi , Y = yj ) önceki bölümde Örnek 2.21’de anlatıldığı gibi (2.27)’ye göre hesaplanabilir. Bu örnekte, n = n1 + n2 + n3 = 3 + 2 + 5 = 10 r=3 TA SL olduğuna göre X = x ve Y = y olaylarının olasılığı, n2 n1 n3 P (X = x, Y = y) = r1 =x r2 =y r3 =r−x−y n r = 3 x 2 y 5 3−x−y 10 3 eşitliğiyle genelleştirilebilir. Yukarıdaki eşitlikten hesaplanacak olasılık değerleri çizelgede gösterilecek olursa, P X = xi \Y = yj 0 1 2 0 10/120 20/120 5/120 35/120 1 30/120 30/120 3/120 63/120 2 15/120 6/120 0 21/120 3 1/120 0 0 1/120 P 56/120 56/120 8/120 1 sonuçları elde edilir. Paydadaki 120 değeri 10’un 3’lü 10 kombinasyonlarını 3 göstermektedir. Çizelgedeki sıfır değerleri xi + yj > 3 eşitsizliğinin sağlandığı durumlara karşılık gelmektedir (en fazla üç top seçilebildiği için). Son satır ve son sütun, sırasıyla Y ve X rasgele değişkeninin marjinal yoğunluk fonksiyonu değerleridir. F (2, 1), FX (1) ve FY (2) dağılım fonksiyonu değerleri, (3.50) ve (3.51) eşitliklerinden, F (2, 1) = P (X ≤ 2, Y ≤ 1) çıkar. Olasılık ve İstatistik = 3 X 2 X f (xi , yi ) = i=1 j=1 FX (2) = P (X ≤ 2) = FY (1) = P (Y ≤ 1) = 3 X i=1 2 X j=1 111 120 fX (xi ) = 119 120 fY (yj ) = 112 120 s.2014.02.21 46 3.5.2 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI Sürekli Durum Birleşik sürekli rasgele değişkenler X ve Y için D ∈ R2 bölge tanımı yapılsın. ZZ P (D) = f (x, y)dxdy (3.52) D AK integrali D bölgesi içindeki olası raslantısal olayların olasılığını verir. Buna göre (3.45)’den, birleşik dağılım fonksiyonu, Z x Z y F (x, y) = f (x, y)dxdy (3.53) −∞ −∞ yazılabilir. Ayrık durumda olduğu gibi, birleşik dağılımdan marjinal yoğunluk ve dağılım fonksiyonlarına geçiş, Z ∞ Z ∞ fX (x) = f (x, y)dy fY (y) = f (x, y)dx (3.54) −∞ −∞ Z x Z y FX (x) = fX (x)dx FY (y) = fY (y)dy (3.55) −∞ −∞ TA SL integral eşitlikleriyle sağlanır. Marjinal yoğunluk fonksiyonu hangi değişken için tanımlanmak isteniyorsa integralin diğer değişken için (−∞, ∞) aralığında uygulandığına dikkat edilmelidir. Bu işlem Çizelge 3.2’de satır veya sütun toplamlarına karşılıktır. İkiden fazla değişkenin olduğu multivaryat dağılımlarda (3.54) integrali, seçilenin dışındaki değişkenlerin hepsi için uygulanır. Birleşik yoğunluk ve dağılım fonksiyonları arasındaki ilişkiyi, f (x, y) = ∂F (x, y) ∂x∂y (3.56) diferansiyel eşitliği tanımlar. Benzer diferansiyel eşitlikler marjinal fonksiyonlar arasında da oluşturulabilir: fX (x) = ∂FX (x) ∂x , fY (x) = ∂FY (y) ∂y (3.57) Örnek 3.15 X ve Y rasgele değişkenin birleşik olasılık yoğunluk fonksiyonu ve tanım alanı, ( 2e−x e−2y 0 < x < ∞, 0 < y < ∞ f (x, y) = 0 Diğer olsun. Aşağıdaki olasılık değerlerini bulunuz (Ross, 1999, s. 99): a) P (X > 1, Y < 1) Olasılık ve İstatistik s.2014.02.21 47 Birleşik Rasgele Dağılımlar b) P (X < Y ) c) P (X < a) Çözüm: a) y=1 Z x=∞ y=0 = e−1 −1 =e P (X < Y ) = y=0 ∞ = Z Z0 ∞ e 2e−2y dy = e−1 1 − e−2 0 = 1 ∞ 2e−2y −e−x 1 dy 1 −e−2y 0 2e−x e−2y dxdy x=0 y 2e−2y −e−x 0 dy −2y 2e −y 1−e 0 = dxdy = Z 0 dy = TA SL = 1 y=∞ Z x=y Z 2e x=1 Z b) −x −2y AK P (X > 1, Y < 1) = Z ∞ −e−y 0 1 3 Z ∞ −2y 2e 0 dy − ∞ 2 2 + e−y 0 = 1 − 3 3 Z ∞ 2e−3y dy 0 c) P (X < a) = Z y=∞ Z x=a y=0 2e e dxdy = x=0 = 1 − e−a = 1 − e−a 3.5.3 −x −2y Z 0 ∞ Z ∞ 0 2e−2y dy = 1 − e−a a 2e−2y −e−x 0 dy ∞ −e−y 0 Bağımsız Rasgele Değişkenler Rasgele olayların bağımsızlığı, daha önce Bölüm 2.3.3’te açıklanmıştı. Bağımsızlık kavramı, küme elemanlarının gerçek sayılardan seçildiği X ve Y rasgele değişkenleri için de incelenebilir. A ∈ R ve B ∈ R, sırasıyla X ve Y rasgele değişkeni için gerçek sayılar kümesini belirtsin. X ve Y bağımsız rasgele değişkenler ise, (2.13)’e göre, P (X ∈ A ∩ Y ∈ B) = P (X ∈ A)P (Y ∈ B) (3.58) eşitliği geçerli olur. Olasılık yoğunluk fonksiyonları cinsinden yukarıdaki eşitlik, f (x, y) = fX (x)fY (y) Olasılık ve İstatistik (3.59) s.2014.02.21 48 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI biçiminde ifade edilir. Söz konusu ilişki, aynı anlamda marjinal dağılım fonksiyonları arasında da yazılabilir: F (x, y) = FX (x)FY (y) (3.60) Verilen eşitliklerden {X ≤ x} olaylarının {Y ≤ y} olaylarından (ya da tersi) etkilenmediği şeklinde algılanmalıdır. AK Örnek 3.16 Para (X) ve zar (Y ) atışı nasıl bağımsız olaylar ise bu olaylar için kullanılan rasgele değişkenlerin olası değerleri arasında da bir ilişki yoktur: fX (x = 0) = fX (x = 1) = 1 2 fY (y = 1) = fY (y = 2) = · · · = fY (y = 6) = 1 6 Herhangi bir xi (i = 1, 2) ve yj (j = 1, 2 . . . , 6) değeri, (3.59)’ye göre; 11 1 = 26 12 TA SL f (xi , yj ) = fX (x = xi )fY (y = yj ) = sonucunu verir. 3.5.4 Koşullu Olasılık Dağılımları (2.11) ve (2.12) koşullu olasılık ve ona bağlı olarak bağımsız olayları tanımlayan eşitliklerdir. A ve B olaylarına karşılık olarak X ve Y rasgele değişikenlerinin birbirlerine bağımlılığı koşullu olasılık dağılımları yardımıyla açıklanabilir. X ve Y rasgele değişkenleri için, f (y|x) = f (x, y) fX (x) , f (x|y) = f (x, y) fY (y) (3.61) eşitliklerinden elde edilen olasılık fonksiyonlarına koşullu olasılık fonksiyonları adı verilir. Bu eşitliklerde, örneğin f (y|x) bilinen X rasgele değişkeni için Y ’nin olasılığı diye okunur. (3.62)’te marjinal olasılık değerlerinin fX (x) > 0 ve fY (y) > 0 eşitsizliklerinin sağlanması gerektiği açıktır. Koşullu olasılık dağılımlarından söz edildiğinde, sürekli fonksiyonlar için, F (y|x) = Ry f (x, y)dy fX (x) −∞ , F (x|y) = Rx ∞ f (x, y)dx fY (y) (3.62) eşitlikleri yazılabilir (Koch, 1999, s. 91). Olasılık ve İstatistik s.2014.02.21 49 Birleşik Rasgele Dağılımlar 3.5.5 Kovaryans ve Korelasyon Olasılık yoğunluk fonksiyonu f (x, y) ile verilen birleşik dağılımda, X ve Y rasgele değişkenlerine bağımlı g(X, Y )’nin beklenen değeri, Z ∞Z ∞ E[g(X, Y )] = g(x, y)f (x, y)dxdy (3.63) −∞ −∞ AK genel eşitliği ile ifade edilir. g(X, Y ) için değişik fonksiyonlar öngörülebilir. Olasılık ve istatistik kuramında, bunlardan bazılarının önemi büyüktür. İlk olarak, g(X, Y ) = X ve g(X, Y ) = Y TA SL eşitliklerini ele alalım ve yukarıdaki genel eşitlikte yerine yazılım. (3.54) göz önüne alınırsa, Z ∞Z ∞ Z ∞Z ∞ E(X) = xf (x, y)dydx E(Y ) = yf (x, y)dxdy −∞ −∞ −∞ −∞ Z ∞ Z ∞ Z ∞ Z ∞ = x f (x, y)dydx = y f (x, y)dxdy −∞ −∞ −∞ −∞ Z ∞ Z ∞ µX = xfX (x)dx µY = yfY (y)dy (3.64) −∞ −∞ sonuçları çıkar. Benzer şekilde bu kez, g(X, Y ) = (X − µX )2 ve g(X, Y ) = (Y − µY )2 fonksiyonlarını inceleyelim: 2 σX = E[(X − µX )2 ] Z ∞Z ∞ = (x − µX )2 f (x, y)dydx −∞ Z−∞ ∞ = (x − µX )2 fX (x)dx −∞ σY2 = E[(Y − µY )2 ] Z ∞Z ∞ = (y − µY )2 f (x, y)dxdy −∞ Z−∞ ∞ = (y − µY )2 fY (y)dy (3.65) −∞ (3.64) ve (3.65) eşitlikleri X ve Y rasgele değişkenleri için µX , µY beklenen 2 değerleri ve σX , σY2 varyanslarının birleşik dağılımlardan da türetilebileceğini ortaya koymaktadır. Son olarak, rasgele değişkenlerin ortalama değerlerinden sapmalarının çarpımını, g(X, Y ) = (X − µX )(Y − µY ) (3.66) oluşturalım. Yazılan fonksiyon eşitliğinin beklenen değerini bulmak istediğimizde, σXY Cov(X, Y ) = E[(X − µX )(Y − µY )] Z ∞Z ∞ = Cov(X, Y ) = (x − µX )(y − µY )f (x, y)dxdy −∞ (3.67) −∞ eşitliği söz konusu olur. Olasılık ve İstatistik s.2014.02.21 50 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI Kovaryansın özellikleri: (3.66) eşitliğinin sağı için beklenen değer operatörü, Cov(X, Y ) = E[(X − µX )(Y − µY )] = E[XY − XµY − µX Y + µX µY ] = E(XY ) − µY E(X) − µX E(Y ) + µX µY = E(XY ) − E(X)E(Y ) (3.68) AK kovaryans değerinin farklı bir yoldan hesaplanabileceğini gösterir. (3.22) ve (3.68) karşılaştırıldığında, varyansın kovaryansın özel bir durumu, 2 σX = Var(X) = Cov(X, X) olduğu anlaşılır ve aralarındaki ilişki genellikle Cauchy-Schwarz eşitsizliği, p |Cov(X, Y )| ≤ Var(X)Var(Y ) ⇒ |σXY | ≤ σX σY (3.69) (3.70) ile açıklanır. Bu özelliklerin dışında, X ve Y rasgele değişkenler, a ve b sabit sayılar olmak üzere aşağıdaki eşitlikler geçerlidir: TA SL Cov(X, a) = 0 Cov(aX, bY ) = abCov(X, Y ) Var(X ± Y ) = Var(X) + Var(Y ) ± 2Cov(X, Y ) (3.71) (3.72) (3.73) Birleşik dağılımın varyansı olarak değerlendirilebilecek kovaryans σXY , X ve Y rasgele değişkenlerinin birbirlerinden nasıl etkilendiklerini, kısaca aralarındaki bağımlılık bilgisini verir. Deneysel uygulamalarda ölçülen bir büyüklük çoğu kez dış (çevresel) koşullardan etkilenir. Jeodezik ölçmelerde uzunluk ve doğrultu ölçmelerinin hemen hepsi gözlem ışınlarının içinden geçtiği atmosferin az ya da çok etkisi altındadır. Gözlem büyüklüğü (ölçü) ve atmosferik etki arasındaki bağımlılık deneysel yöntemler ile ortaya konulabilir. Genellikle eş zamanlı toplanmış, iki farklı rasgele değişkene (örneğin uzunluk ve atmosferik sıcaklığa) ait ölçüler kovaryans değerinin hesaplanmasına yeterlidir. Örneklem sayısının sonlu ya da sayılabilir nitelikte olduğu birleşik dağılımlarda beklenen değer, varyans ve kovaryans büyüklüklerinin hesabı için ayrık durum göz önünde alınmalıdır. Böylesi veri türünde kovaryans hesabı, XX XX µX = xf (x, y) µY = yf (x, y) x = X y xfX (x) = x 2 σX = x = x Olasılık ve İstatistik y yfY (y) (3.74) y XX X x X y (x − µX )2 f (x, y) 2 (x − µX ) fX (x) σY2 = XX x = X y y (y − µY )2 f (x, y) (y − µY )2 fY (y) (3.75) s.2014.02.21 51 Birleşik Rasgele Dağılımlar 0.8 0.4 0 -0.4 -0.8 -1 1 1 1 0 -1 -1 -1 0 0 0 0 0 0 0 AK 1 Şekil 3.10: X, Y rasgele değişkenleri bazı birleşik dağılım örnekleri ve dağılımın korelasyon değerleri (Wikipedia, 2011) σXY = XX x toplam eşitlikleriyle ifade edilir. y (x − µX )(y − µY )f (x, y) (3.76) TA SL 2 Varyans değerlerinin (σX , σY2 > 0) aksine, kovaryans değerleri −∞ < σXY < ∞ değer aralığındadır. Artı değerli kovaryans, X ve Y ’nin aynı yönlü, eksi değerli kovaryans zıt yönlü eğilimlerini açıklar. Kovaryans değerinin büyümesi değişkenler arasındaki bağımlılığın artması, sıfıra yaklaşması bağımlılığın azalması olarak yorumlanabilir. Ancak, bu konuda kesin bir yargıda bulunabilmek için σXY ’nin standartlaştırılması gerekir. X ve Y ’ye ilişkin standart sapma değerleri yardımıyla standartlaştırılan kovaryans değerine, σXY − 1 ≤ ρXY ≤ 1 (3.77) ρXY = σX σY korelasyon adı verilir. Bağımsız değişkenler arasındaki ilişkinin anlamlılığı, en iyi şekilde korelasyon değeriyle yorumlanabilir. Bire yakın korelasyon değişkenler arasındaki yüksek bağımlılığı; öte yandan, ρXY = σXY = 0 (3.78) sonucu bağımsız rasgele değişkenleri işaret eder. Kovaryans birimini, X · Y ile değişkenlerin birimi belirlerken; korelasyon değeri birimsizdir. Şekil 3.10 korelasyonun, iki boyutlu X ve Y değişkenlerinin dağılım özelliklerine göre hangi değerleri aldığını göstermektedir. Örnek 3.17 X ve Y rasgele değişkenleri için Örnek 3.14’de elde edilen yoğunluk çizelgesini kullanarak aşağıdaki soruları cevaplandırınız. a) X ve Y ’nin bağımlı değişkenler olduğunu gösteriniz. Olasılık ve İstatistik s.2014.02.21 52 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI b) µX , µY =? 2 , σ 2 =? c) σX Y d) σXY , ρXY =? Çözüm: a) X ve Y bağımsız değişkenler ise, AK P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ) eşitliği sağlanmalıdır. Örneğin i = 3, j = 1 ve i = j = 1 için 1 56 × 120 120 30 63 56 P (1, 1) = P (x = 1)P (y = 1) ⇒ 6= × 120 120 120 eşitsizlikleri sağlandığından X ve Y bağımlı değişkenlerdir. P (3, 1) = P (x = 3)P (y = 1) b) (3.74) eşitlikleri yardımıyla, 4 X xi fX (xi ) =0 µY = 0 6= 63 21 1 35 +1 +2 +3 120 120 120 120 = 108 120 56 56 8 +1 +2 120 120 120 = 72 120 i=1 3 X yi fY (yj ) =0 4 X x2i fX (xi ) = 02 63 21 1 35 + 12 + 22 + 32 120 120 120 120 = 156 120 yi2 fY (yj ) = 02 56 56 8 + 12 + 22 120 120 120 = 88 120 TA SL µX = ⇒ j=1 c) E(X 2 ) ve E(Y 2 ) 2 E(X ) = i=1 E(Y 2 ) = 3 X j=1 beklenen değerlerini kullanarak (3.22) eşitliği yardımıyla, 156 108 2 2 σX = E(X 2 ) − [E(X)]2 = − 120 120 72 2 88 − σY2 = E(Y 2 ) − [E(Y )]2 = 120 120 = 7056 14400 = 5376 14400 bulunur. d) (3.68)’den, E(XY ) = 4 X 3 X xi yi f (xi , yi ) i=1 j=1 20 5 30 10 +0·1 +0·2 +1·0 + 120 120 120 120 3 15 6 1 48 30 +1·2 +2·0 +2·1 +3·0 = +1·1 120 120 120 120 120 120 =0·0 Olasılık ve İstatistik s.2014.02.21 53 Birleşik Rasgele Dağılımlar kovaryans σXY = E(XY ) − E(X)E(Y ) = − 108 72 2016 48 − =− 120 120 120 14400 ve (3.77) yardımıyla korelasyon, ρXY = − 2016 3 σXY 2016 = q 14400 =− √ = −√ σX σY 7056 5376 7056 · 5376 2 21 TA SL çıkar. AK 14400 14400 Olasılık ve İstatistik s.2014.02.21 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI TA SL AK 54 Olasılık ve İstatistik s.2014.02.21 AK Bölüm 4 TA SL BAŞLICA OLASILIK DAĞILIMLARI Rasgele deneyin olası tüm sonuçları için tanımlı olasılık değerleri belirli bir olasılık yoğunluk ya da dağılım fonksiyonundan türetilen sayılardır. Rasgele değişkenin alacağı değerler gibi dağılım fonksiyonları da ayrık ve sürekli olarak sınıflandırılırlar. Olasılık kütle fonksiyonu ve olasılık yoğunluk fonksiyonu bu sınıflara ait türleri işaret eder. Değişken (parametre) sayısı bir başka sınıflandırma yöntemidir: tek değişkenli veya çok değişkenli dağılımlar. Literatürde yüzden fazla olasılık dağılımı biliniyor olmasına rağmen bunların çok azının uygulamada bir önemi vardır. Binom dağılımı, normal dağılım, t-öğrenci dağılımı, ki-kare dağılımı bunlardan bazılarıdır. 4.1 4.1.1 Ayrık Dağılımlar Bernaulli ve Binom Dağılımları Bir kez tekrar edilen deneyin olumlu/olumsuz, başarılı/başarısız veya evet/hayır’a benzer iki sonucu varsa Bernaulli dağılımından söz edilir. İsviçreli bilim adamı Jacob Bernaulli’nin kendi adıyla anılan deneylerine atfen dağılıma bu isim verilmiştir. Bernaulli deneylerinde, yeni doğan bebeğin kız ya da erkek olması, para atışı (bir kez), sonuçları arasında eşitlik olmayan spor türleri (örneğin basketbol), bir hastaya uygulanan ilaç tedavisinin sonucu gibi benzer olaylar ele alınır. Bu olayların olasılık değerleri Bernauli dağılımından elde edilir. X rasgele değişken değeri için öngörülen 56 BAŞLICA OLASILIK DAĞILIMLARI 1 (istenen) ve 0 değerlerine karşılık olasılık değerleri, f (x) = P (X = x) = ( p x = 1 için q = 1 − p x = 0 için (4.1) veya f (x) = px (1 − p)1−x x ∈ {1, 0} (4.2) AK eşitlikleriyle gösterilen olasılık (kütle) fonksiyonundan hesaplanır. Bernaulli dağılımının olasılık ve dağılım fonksiyonları Şekil 4.1’de gösterilmektedir. f (xi ) = P (X = xi ) F (xi ) +∞ 1 1 p 1−p 1−p −∞ TA SL xi −1 0 1 2 −1 0 1 2 xi Şekil 4.1: Bernaulli dağılımı Dağılımın beklenen değeri ve varyansı için µ = E(X) =p 2 2 σ = E[(X − µ) ] = pq = p(1 − p) eşitlikleri geçerlidir. Medyan ve modu ise 0 µ1/2 = 1/2 1 0 µ̂ = 0, 1 1 (4.3) (4.4) q > p için q = p için p > q için (4.5) q > p için q = p için p > q için (4.6) değerlerini alır. Bernaulli deneyi n kez yinelensin. Her biri bağımsız bu deneyler için p olasılıklı başarılı (Xi = 1) sonuçların sayısı, X= n X i=1 Olasılık ve İstatistik Xi ∼ Bin(n, p) (4.7) s.2014.02.21 57 Ayrık Dağılımlar AK Binom dağılımlıdır. X’in olası x = 0, 1, . . . , n değerleri için olasılık kütle fonksiyonu, n x p (1 − p)n−x f (x) = P (X = x) = x n! = px (1 − p)n−x (4.8) x!(n − x)! ile tanımlıdır. (4.8) (p+q)n ’ye uygulanan (2.23) binom açılımının terimlerini, nx ise bunların katsayılarını başka bir deyişle Paskal üçgeni elemanlarını temsil etmektedir. p + q = 1 nedeniyle dizi toplamının da bizi, n X n x n−x n p q =1 (4.9) (p + q) = x x=0 sonucuna götüreceği açıktır. Dağılımın beklenen değerini, n X n x n−x p q E(X) = x x x=0 (4.10) TA SL eşitliği verir. Sonucu bulmak için daha kolay bir yöntem, beklenen değeri (4.7) için açık yazmaktır: E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) (4.11) Bağımsız n sayıda Bernaulli deneyinin her biri için beklenen değer, (4.4)’den, p’ye eşit olduğuna göre Binom dağılımının beklenen değeri, µ = E(X) = E[Bin(n, p)] = np (4.12) çıkar. Benzer bir yaklaşımla varyans değeri, σ 2 = E[(X − µ)2 ] = npq (4.13) olarak bulunur. Örnek 4.1 Para atışının 5 kez yapıldığı bir şans oyununda X gelen turaların sayısı olmak üzere olasılık dağılımı, x n−x n 1 1 f (x) = , x = 0, 1, 2, 3, 4, 5 x 2 2 eşitliğinden aşağıdaki gibi elde edilir: x 0 1 2 3 4 5 f (x) 0.03125 0.15625 0.3125 0.3125 0.15625 0.03125 (3.15)’den veya (4.12)’den beklenen değer, µ= n=5 X xf (x) = np = 2.5 x=0 Olasılık ve İstatistik s.2014.02.21 58 BAŞLICA OLASILIK DAĞILIMLARI ve varyansı, n=5 X σ2 = x=0 (x − µ)2 f (x) = npq = 1.25 sonucunu verir. P (X = x) AK Daha yüksek deney sayıları için dağılımın nasıl bir görünüm alacağı Şekil (4.2)’de görülmektedir. Sırasıyla 25, 50 ve 75 ardışık atışın dağılımları iki olasılık değeri (p = 0.5 ve 0.8) için elde edilmiş ve beklenen değerleri şekilde kesik çizgilerle gösterilmiştir. p = 0.8 için bile, dağılımın simetrik görünüm sergilediği ve normal dağılıma çok yaklaştığı anlaşılmaktadır. P (X = x) b b b p = 0.5 b b b b n = 25 0.15 0.15 n = 50 b b p = 0.8 n = 25 b b b b n = 50 b b 0.10 b b b b b b b n = 75 b b b b b 0.10 n = 75 b b b b b b b TA SL b b b b b b b b b b b b b b b b b b b b b b b b b b 0 b 0 b b b b 10 b 20 b b b b b b b 40 b x 50 b b 0 b 10 b b b 20 b b b b b b b b b b b b 30 b b b b b b b b b 0.05 b b b b b b b 0.05 b b b 30 b b b b b 40 b b b b b 50 b 60 b b b b b b x 70 Şekil 4.2: Değişik deney ve olasılık sayıları altında Binom dağılımları 4.1.2 Ayrık Üniform Dağılım Ayrık üniform dağılım, rasgele değişken değerlerinin belirli bir aralıkta düzenli ve eşit olasılıkla gösterildiği parametrik olmayan bir dağılım türüdür. Olasılık kütle fonksiyonu, 1 f (x) = , x ∈ {x1 , x2 , . . . , xn } (4.14) n X’in tüm değerleri için eşittir. Örneğin {1, 2, 3, 4, 5, 6} değerlerine sahip hilesiz bir zarın tüm sonuçları aynı olasılıktadır ( 61 ). Beklenen değer, E(X) = n X i=1 n 1X 1 xi xi = n n i=1 (4.15) basit aritmetik ortalama ile gösterilir. Olasılık ve İstatistik s.2014.02.21 59 Ayrık Dağılımlar X zar örneğindeki gibi 1, 2, . . . , n sıralı tamsayı dizilerinden oluşuyorsa (4.15) kümülatif olasılık fonksiyonu, F (x) = P (X ≤ xi ) = xi n (4.16) ve beklenen değer, 1 n(n + 1) n+1 = n 2 2 eşitliğine dönüşür. Benzer yaklaşımla varyans için, E(X) = AK (4.17) σ 2 = E(X 2 ) − [E(X)]2 = bulunur. Örnek 4.2 n2 − 1 12 (4.18) Zar atışının beklenen değerini ve varyansını hesaplayalım: 7 n+1 = 2 2 σ2 = , n2 − 1 35 = 12 12 TA SL µ= 4.1.3 Poisson Dağılım Belirli bir zaman diliminde, belirli bir bölgede ya da miktarı belli yığın olaylar içerisinde bazı olayların gerçekleşme olasılığı Poisson dağılımı ile hesaplanır. Burada, olaylar dizisinin ardışık gerçekleşmeleri raslantısal olmalıdır. Örneğin, bir bölgedeki deprem olaylarının ya da bir kavşaktaki trafik kazalarının veya bir hastanedeki doğum sayılarının birim zaman içerisindeki sıklığı Poisson dağılımının konusudur. Binom ve üniform dağılımdan sonra en uygulamada sık kullanılan ayrık dağılım türüdür. λ artı değerli (λ > 0) gerçek sayı olmak üzere olasılık fonksiyonu, f (x) = λx −λ e x! , xi = 0, 1, 2, . . . (4.19) ile tanımlı X rasgele değişkeni Poisson dağılımlıdır. Dağılımın beklenen değeri ve varyansı λ, birim zamanda gerçekleşen olay sayısı olsun ve λt = λ = np eşitliği oluşturulsun. p = nλ olasılığı n → fonksiyonunda yerine yazılırsa, " x λ n lim 1− n→∞ x n Olasılık ve İstatistik (4.20) ∞ limit durumu için Binom olasılık λ n n−x # = λx −λ e x! (4.21) s.2014.02.21 60 BAŞLICA OLASILIK DAĞILIMLARI bulunur. (4.21)’den, Poisson dağılımının Binom dağılımının özel durumu (n → ∞) olduğu anlaşılır. Bu koşullar altında Poisson dağılımının, Binom dağılımına yaklaşmak için kullanılabileceği sonucu çıkar: Bin(x; n, p) ≈ λx −λ e x! (4.22) AK Şekil 4.3 beklenen değeri birim olay sayısı üzerinden beklenen değeri λ = 12.5 olan rasgele değişkenin dağılımını göstermektedir. Verilen örnek 25 para atışına ilişkin dağılıma (bkz. Şekil 4.2) karşılık gelmektedir. P (X = x) 0.15 λ = pn = 12.5 0.10 TA SL 0.05 x 0 0 5 10 15 20 25 Şekil 4.3: Poisson dağılımı Örnek 4.3 Yükseklik farklarını geometrik nivelman tekniği ile ölçen bir nivelman ekibinin her 100 ölçüsünden yaklaşık 6’sı kaba hatalı (uyuşumsuz) çıkmaktadır. 25 yükseklik farkının ölçüleceği bir nivelman ağında, söz konusu ekibin ağı (kaba) hatasız ölçme olasılığını hesaplayınız. Beş uyuşumsuz ölçüye kadar olasılıkları Poisson ve binom dağılımı için elde ediniz ve sonuçları karşılaştırınız. Çözüm: Değişik birimler (ölçü sayıları) özerinden uyuşumsuz oranları, 6 λ = 0.06 1.5 n = 100 ölçü için n = 1 ölçü için n = 25 ölçü için ile tanımlanabilir. Birim ölçü sayısı 25 olduğuna göre λ = 1.5 olur. Uygulamayı Bernaulli deneyleri ile açıklamak için birim ölçü sayısının 1’e indirgenmesi gerekir. Bu durumda para atışında olduğu gibi bir ölçü için iki seçenek vardır ve hatalı ölçü (aranan) oranı p = λ = 0.06’dır. X rasgele değişkeni 25 ölçüdeki kaba hatalı ölçü sayısı ise, nivelman Olasılık ve İstatistik s.2014.02.21 61 Sürekli Dağılımlar ağının hatasız ölçülmesi (x = 0) olasılığı, sırasıyla Poisson ve Binom dağılımlarından, λ0 −1.5 e = 0.22313 0! 25 Bin(0; 25, 0.06) = 0.060 (1 − 0.06)25 = 0.21291 0 f (x) = sonuçları ile bulunur. AK Ölçme ekibinin 25 ölçü arasında 5 ölçüye kadar uyuşumsuz ölçü yapma olasılıkları aşağıdaki çizelgede gösterilmiştir: x 0 1 2 3 4 5 f (x) 0.223130 0.334695 0.251021 0.125511 0.047067 0.014120 Bin(x; 25, 0.06) 0.212910 0.339750 0.260234 0.127349 0.044708 0.011985 Örnek 4.4 TA SL Türkiye’de her ay büyüklüğü 4’ten fazla ortalama 4 deprem olmaktadır. Önümüzdeki ay ülkemizde (büyüklüğü 4’ten fazla) deprem olmama olasılığını hesaplayınız. Çözüm: Birim zamanda gerçekleşen deprem sayısı X rasgele değişkeni ve onun dağılımın beklenen değeri, xi ∈ {0, 1, 2, ...} ⇒ λ = 4 olduğuna göre aynı sürede deprem olmama olasılığı, Pois(0; 4) = P (X = 0) = λ0 −4 e = 0.018316 0! en az bir deprem olma olasılığı, P (X ≥ 1) = 1 − P (X = 0) = 0.98168 sonucuna karşılık gelir. 4.2 4.2.1 Sürekli Dağılımlar Normal Dağılım Normal ya da Gauss dağılımı çan eğrisi adıyla bilinen fonksiyon, (x−µ)2 1 f (x) = √ e− 2σ2 σ 2π , −∞ < x < +∞ (4.23) ile tanımlıdır. İstatistik, bilim ve mühendislikte en sık kullanılan olasılık dağılımıdır. Uygulamada normal dağılımı bu kadar önemli kılan, çok sayıda tekrar Olasılık ve İstatistik s.2014.02.21 62 BAŞLICA OLASILIK DAĞILIMLARI içeren birbirinden bağımsız gözlemlerin veya onların hatalarının normal dağılım fonksiyonuna uyumlu olmasıdır. Gerçek değerli sürekli rasgele değişken X bir deneyin (ölçme) sonucu olarak normal dağılımlı ise X ∼ N(µ, σ 2 ) (4.24) AK biçiminde ifade edilir. µ ve σ 2 dağılımın parametreleridir; sırasıyla X rasgele değişkeninin beklenen değerini ve varyansını gösterir. Değişken değerlerinin belirli bir x değerinden küçük (ya da ona eşit) değerler alma olasılığını veren birikimli dağılım fonksiyonu için, Z x (x−µ)2 1 (4.25) F (x) = P (X < x) = √ e− 2σ2 dx σ 2π −∞ integral eşitliği geçerlidir. Şekil 4.4, µ ve σ 2 paremetreleri farklı X1 , X2 , X3 , X4 rasgele değişkenlerinin olasılık yoğunluk ve dağılım grafiklerini ortaya koymaktadır. Bu sonuçlara göre normal dağılım hakkında aşağıdaki saptamalarda bulunulabilir: f (x) Xi X1 X2 X3 X4 0.8 F (x) σi2 1 0.25 0.25 0.5625 1.00 TA SL 0.6 µi 0 0 1 −1.5 0.4 0.2 −3 −2 −1 0 1 2 3 x −3 −2 b 0.75 0.50 b b 0 1 0.25 −1 2 3 x Şekil 4.4: Değişik dağılım parametreleri altında normal dağılım eğrileri • µ’ye göre simetrik ve unimodal (tek modlu) dağılım özelliğine sahip olmasının sonucu olarak, dağılımın beklenen değeri, medyanı ve modu eşittir. • Dağılımın x ekseni üzerindeki konumunu µ belirler. X’in alacağı değerlerde artı yönlü sistematik değişim dağılımı sağa, eksi değerli değişim dağılımı sola kaydırır: µ4 < µ1 = µ2 < µ3 Ölçülerde başka bir deyişle deney sonuçlarında sistematik hatalar varsa, bu durum kendini µ’de belli eder. • Daha küçük varyans değerleri birbirine daha yakın (beklenen değerden daha az uzaklaşan, saçılan veya daha duyarlı) sonuçlar üretir: σ22 = σ32 < σ42 < σ12 • Normal dağılımdan çıktığı varsayılan gözlem hataları (µ = E(X) = 0) için, büyük hata yapma olasılığı küçük hata yapma olasığından daha düşüktür. Olasılık ve İstatistik s.2014.02.21 63 Sürekli Dağılımlar Dağılımın parametreleri X rasgele değişkenini standartlaştırmak için kullanılabilir: Z= X −µ σ , Z ∈ N(0, 1) (4.26) Normal ya da standartlaştırılmış rasgele değişkenin beklenen değeri 0, varyansı 1’e eşittir. Bu durumda Z’nin olasılık yoğunluk ve dağılım fonksiyonu daha basit eşitliklere, z2 1 f (z) = √ e− 2 2π Z z 1 z2 F (z) = √ e− 2 dz 2π −∞ AK (4.27) (4.28) dönüşür. (4.27) ve (4.28) normal dağılım için olasılık hesaplarını kolaylaştıran eşitliklerdir. (4.25) integralinde X = σZ + µ eşitliği göz önüne alınırsa, TA SL P (X < x) = P (σZ + µ < x) x−µ = P (Z < ) σ F (x) = P (Z < z) = F (z) (4.29) sonucu ortaya çıkar. Benzer biçimde rasgele değişkenin belirli [x1 , x2 ] aralığındaki olasılığı için, P (x1 < X < x2 ) = F (x2 ) − F (x1 ) x1 − µ x2 − µ ) − F( ) = F( σ σ = F (z2 ) − F (z1 ) (4.30) veya doğrudan standart dağılım üzerinden, 1 P (z1 < Z < z2 ) = √ 2π Z z2 z2 e− 2 dz (4.31) z1 integral eşitliği geçerli olur. Buradan dağılımın simetrik özelliği sayesinde, F (z) = 1 − F (−z) (4.32) yazılabilir. (4.28)-(4.32) eşitlikleri için aranan F (z) değerleri genellikle çizelgelerden ya da sınırlı yaklaşım sağlayan polinom eşitliklerinden sağlanır (Abramovitz ve Stegun, 1972; Koch, 1999). Örnek 4.5 X normal dağılımlı rasgele değişken olsun: X ∼ N (µ, σ 2 ). Aşağıdaki aralıklara karşılık gelen olasılık değerlerini hesaplayınız, sonuçları normal dağılım grafiği üzerinde irdeleyiniz. Olasılık ve İstatistik s.2014.02.21 64 BAŞLICA OLASILIK DAĞILIMLARI • P (X < µ + 0.75σ) • P (µ − σ < X < µ + σ) • P (µ − 2σ < X < µ + 2σ) • P (µ − 3σ < X < µ + 3σ) AK Çözüm: Z = X−µ σ doğrusal dönüşümünden sonra z’nin (4.29)’daki değerleri Çizelge ??’dan alınabilir. Buna göre x, z ve F (z), x µ − 3σ µ − 2σ µ − σ µ µ + 0.75σ µ + σ µ + 2σ µ + 3σ z −3 −2 −1 0 0.75 1 2 3 F (z) 0.0013 0.0228 0.1587 0.5000 0.7734 0.8413 0.9772 0.9987 değerlerini alır. Yukarıdaki çizelgeye göre P (X < µ + 0.75σ) olasılığı için, P (X < µ + 0.75σ) = P (Z < 0.75) TA SL F (z = 0.75) = 0.7734 sonucu çıkar. Elde edilen sonuç z’nin 0.75’den küçük değerlerinin toplam olasığını verir; geometrik anlamda Şekil 4.5’de eğri altında kalan alan ile açıklanır. f (z) 0.4 0.2 −3 −2 −1 0 z 1 2 3 z Şekil 4.5: z = 0.75 için birikimli olasılık: P (Z < 0.75) X rasgele değişkeninin belli aralıklardaki olasılık seviyelerine genel olarak 1 − α ile güven düzeyi ; bunu sınırlandıran x değerlerine de güven sınırları adı verilir. Çoğu zaman bu sınırlar arasındaki alana, sonucu istenmeyenlerden (yanılma) arta kalan olasılıklar gözüyle bakılır. Güven sınırlarının dışındaki olasılıklara ise α yanılma olasılığı denir. Normal dağılım için X = µ ± σ, µ ± 2σ, µ ± 3σ veya standart normal dağılım için bunlara karşılık gelen Z = ±1, ±2, ±3 sınırları kuramsal açıdan anlamlıdır. Yukarıda verilen çizelgeye göre bu aralıklardaki güven düzeyleri, P (µ − zσ < X < µ + zσ) = P (−z < Z < z) = F (z) − F (−z) Olasılık ve İstatistik s.2014.02.21 65 Sürekli Dağılımlar eşitliklerinden hesaplanabilir. z = 1, 2, 3 değerleri için, P (µ − σ < X < µ + σ) = F (1) − F (−1) = 0.6827 P (µ − 2σ < X < µ + 2σ) = F (2) − F (−2) = 0.9545 P (µ − 3σ < X < µ + 3σ) = F (3) − F (−3) = 0.9973 AK elde edilir. Şekil 4.6 ile bu sonuçların geometrik yorumu sunulmaktadır. Yüzdelik sayılar X’in alacağı değerlerin aralık veya tekrarlanma anlamında olasılığını temsil etmektedir. Örneğin, normal dağılımdan çıktığı bilinen bir gözlem dizisinde her 1000 ölçüden 997’sinin µ ± 3σ aralığında kalması beklenmelidir. f (z) %34.1 TA SL %34.1 %13.6 %13.6 %2.1 −3 µ − 3σ −2 µ − 2σ −1 µ−σ %2.1 0 µ 1 µ+σ 2 µ + 2σ 3 µ + 3σ z x %68.3 %95.4 %99.7 Şekil 4.6: Standart normal dağılım ve belli aralıklar için güven olasılığı düzeyleri 4.2.2 Chi-Kare Dağılımı Z1 , Z2 , . . . , Zν standart normal dağılımlı bağımsız rasgele değişkenler Zi ∈ N(0, 1) olsun. Karelerinin toplamından türetilen, X = Z12 + Z22 + · · · + Zν2 (4.33) rasgele değişkeni, ν serbestlik derecesiyle, χ2 (okunuşu: ki-kare) dağılımlıdır ve χ2ν biçiminde gösterilir. Dağılıma ilişkin olasılık yoğunluğu, f (x) = cν x fonksiyonu ile verilir. Burada, ν−2 2 x e− 2 , (4.34) ν 2− 2 cν = ν Γ( 2 ) Olasılık ve İstatistik x>0 (4.35) s.2014.02.21 66 BAŞLICA OLASILIK DAĞILIMLARI serbestlik derecesinin bir fonksiyonu olarak sabit katsayıdır. Gama fonksiyonunun pozitif tam ve yarı sayılı argümanlara karşılık gelen değerleri, Γ(ν) = (ν − 1)! √ (2ν)! 1 +ν = π ν Γ 2 4 ν! (4.36a) (4.36b) eşitliklerinden hesaplanır. AK (4.34) istatistikte önemli bazı dağımların kökeni Gama dağılımının özel durumudur. χ2ν dağılımının beklenen değeri ve varyansı, µ = E(χ2ν ) = ν σ 2 = Var(χ2ν ) = 2ν değerlerine eşit çıkar. f (x) 0.5 TA SL 0.4 (4.37a) (4.37b) 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 x Şekil 4.7: ν = 1, 2, . . . , 10 serbestlik derecelerine karşılık gelen χ2ν dağılımları (açıktan koyuya) χ2ν dağılımını standart normal dağılımdan ayıran en önemli özellik; rasgele değişkenin artı değerli başka bir deyişle, f (x)’in x > 0 bölgesi için tanımlı olmasıdır. Bunun dışında, serbestlik derecesinin düşük kaldığı durumlarda dağılım belirgin bir çarpıklık ve basıklığa sahiptir. ν arttıkça yoğunluk fonksiyonu daha basık, buna karşılık daha simetrik bir görünüm alır (Şekil 4.7). ν → ∞ için rasgele değişken X normal dağılımlıdır. Teorem 4.1 X1 , X2 , . . . , Xn rasgele değişkenleri ν1 , ν2 , . . . , νn serbestlik dereceleriyle bir dizi bağımsız deneyin Xi ∈ χ2 dağılımlı rasgele değişkenleri olsun. Söz konusu değişkenlerin toplamı da χ2 dağılımlıdır: X1 + X2 + · · · + Xn = Olasılık ve İstatistik n X i=1 Xi = V ⇒ V ∼ χ2v (4.38) s.2014.02.21 67 Sürekli Dağılımlar Burada v toplamın serbestlik derecesidir: v = ν1 + ν2 + · · · + νn χ2ν dağılım fonksiyonu, F (x) = cν Z x u ν−2 2 u e− 2 du , u>0 (4.39) 4.2.3 AK 0 t Dağılımı TA SL İngiliz istatistikçi William S. Gosset (1876–1937) çalıştığı bira fabrikasında bira üretim ve kalite ölçüm süreçlerinde kullanılmak üzere, görünümü ve özellikleri normal dağılıma çok benzeyen ancak küçük hacimli örneklem kümelerine dayalı bir dağılım türetti. Şirketin çalışanlarına koyduğu yasak nedeniyle öğrenci takma adıyla yayımlanan makalesinde Gosset, T rasgele değişkenli dağılımı serbestlik derecesinin bir fonksiyonu olarak tanımladı. Herhangi bir rasgele değişken için f = n − 1 serbestlik derecesine bağlı sonsuz sayıda t-dağılımı ortaya konulabilir. Dağılımın en önemli özelliği n ölçü sayısı ve buna bağlı serbestlik derecesi arttıkça standart normal dağılıma yaklaşmasıdır. Uygulamada normal dağılımın varyansına doğrudan ulaşmak olanaklı değildir; sınırlı sayıda veri ile tüm uzayın parametrelerine yaklaşılmaya çalışılır. X1 , X2 , . . . , Xn bağımsız, öte yandan aynı normal dağılım parametrelerine sahip rasgele değişkenler olsun: Xi ∈ N(µ, σ 2 ). Örneklem ortalaması, n 1X Xi X= n i=1 ve onun varyansı, (4.40) n 1 X S = (Xi − X)2 n − 1 i=1 2 (4.41) ile hesaplanır (yukarıdaki toplamın neden n − 1’e bölündüğü Bölüm ??’de açıklanacaktır). X ve S 2 , toplumun parametrelerine (µ, σ 2 ) yaklaşan deneysel (örneklem) parametrelerdir: µ = E(X) σ 2 = E(S 2 ) (4.42a) (4.42b) Örneklem ortalamasını standart normal değere dönüştüren, Z= X −µ √ σ/ n (4.43) eşitliğinde σ yerine yukarıdaki deneysel varyans kullanılırsa t-dağılımlı, T = Olasılık ve İstatistik X −µ √ S/ n (4.44) s.2014.02.21 68 BAŞLICA OLASILIK DAĞILIMLARI rasgele değişken ortaya çıkar. Dağılımın olasılık yoğunluk fonksiyonunu f serbestlik derecesi belirler: − f +1 2 t2 −∞<t<∞, f >0 (4.45) f (t) = cf 1 + f Burada cf katsayısı Γ(·) gama fonksiyonu üzerinden, f +1 1 Γ 2 cf = √ f π Γ f2 AK (4.46) eşitliğiyle tanımlanabilir. f ’nin tek ve çift sayı durumuna göre (4.46), ( 4·2 1 f tek ise 1 (f − 1)(f − 3) π cf = √ · · · 5·3 5·3 1 f (f − 2)(f − 4) f çift ise 4·2 2 değerlerini alır. (4.47) f (x) N (0, 1) 0.4 T (f = 4) TA SL 0.3 T (f = 1) 0.2 0.1 −4 −3 −2 −1 0 1 2 3 4 x Şekil 4.8: Standart normal dağılım ve f = 1, 4 için t-yoğunluk dağılımı Şekil 4.8’den görüldüğü gibi µ = 0 göre simetrik dağılımının varyansı, σ 2 = Var(T ) = f f −2 f ≥3 (4.48) her zaman 1’den büyüktür. Bu olasılık yoğunluğun, normal dağılıma kıyasla kuyruklara daha fazla yayıldığı anlamına gelir (Şekil 4.8). Serbestlik derecesi arttıkça yoğunluk fonksiyonu standart normal dağılıma yaklaşır; limit durum f → ∞ için varyansı 1’e eşitlenir. Çizelge 4.1 değişik serbestlik dereceleri altında tdağılımlarının standart normal dağılım N(0, 1) ile ilişkisini göstermektedir. f > 30 için normal ve t yoğunluk değerleri arasındaki fark 10−2 ’den küçüktür. t-dağılımının kullanım biçimi standart normal dağılıma benzerdir. Dağılımın α yanılma olasılığı ve f serbestlik derecesine bağlı tek yanlı güven sınırları (tf,1−α ) Ek ??’de verilmektedir. 4.2.4 Fisher Dağılımı Olasılık ve İstatistik s.2014.02.21 69 AK Sürekli Dağılımlar Çizelge 4.1: Standart normal dağılıma karşılık değişik serbestlik dereceleri için tdağılımı yoğunluk değerleri N (x; 0, 1) 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 0.39894 0.35207 0.24197 0.12952 0.05399 0.01753 0.00443 0.00087 0.00013 t-dağılımı: T (x; f ) f = 10 f = 30 0.38911 0.39563 0.33970 0.34788 0.23036 0.23799 0.12744 0.12896 0.06115 0.05685 0.02694 0.02106 0.01140 0.00678 0.00478 0.00196 0.00203 0.00052 TA SL x Olasılık ve İstatistik f =1 0.31831 0.25465 0.15915 0.09794 0.06366 0.04390 0.03183 0.02402 0.01872 f =5 0.37961 0.32792 0.21968 0.12452 0.06509 0.03333 0.01729 0.00924 0.00512 f = 100 0.39795 0.35080 0.24077 0.12937 0.05491 0.01863 0.00513 0.00116 0.00022 f = 1000 0.39884 0.35194 0.24185 0.12950 0.05409 0.01764 0.00450 0.00090 0.00014 s.2014.02.21 70 TA SL AK BAŞLICA OLASILIK DAĞILIMLARI Olasılık ve İstatistik s.2014.02.21 AK Kaynaklar Abramovitz, M. ve Stegun, I. A. (1972). Handbook of Mathematical Functions with Formulas, Graphs and Mathematical Tables. Dover Publications, New York. TA SL Koch, K. R. (1999). Parameter Estimation and Hypothesis Testing in Linear Models. Springer, 9th edition. Papoulis, A. (1984). Probability, Random Variables, and Stochastic Processes. McGraw Hill, New York, 2nd edition. Ross, S. M. (1999). Introduction to Probability and Statistics for Engineers and Scientists. Academic Press, 2nd edition. Speigel, M. R., Schiller, J., ve Srinivasan, R. A. (2009). Probability and Statistics. McGraw Hill, New York, 3rd edition. Wikipedia (2011). Pearson product-moment correlation coefficient — Wikipedia, the free encyclopedia. http://http://en.wikipedia.org/wiki/Pearson_coefficient [Erişim: 06.04.2012].
Benzer belgeler
Ali Nesin Okura Not: Henüz bitmemis ve gözden geçirilmemis kitap
Analiz ise mesafelerle, yani sayılarla yapılır. Sayılarda da toplama, çıkarma,
çarpma, bölme gibi işlemler vardır. İşte cebirin başlangıcı bu işlemlerdir. Cebir
sayılarla başlar, ama sayıl...
Pazar Sepet Analizi için Örneklem Oluşturulması ve - CEUR
Bankacılık veritabanlarının çok büyük olması nedeniyle birliktelik işlemi zaman ve bellek tüketimi açısından çok maliyetli bir süreç haline gelmiştir. Zaman ve bellek performansını artıra...
˙Ingilizce – Türkçe Sözlük
softmax (function)
sort
spam
span
sparse
spatial
specific
specificity
spectral
spectrum
spline
split
Buradan - Matematik Olimpiyat Okulu • Ana sayfa
sırayla tayin edildiği bir işlem olarak düşünülebilir. Her adım için m farklı yol bulunduğundan, tüm fonksiyonların sayısı mn olarak elde edilir.
Çembersel Permütasyonların Sayısı.
Elimi...