1. Yazım Hatalarını Düzeltme - Prof. Dr. Eşref Adalı`nın Bireysel Sayfası
Transkript
1. Yazım Hatalarını Düzeltme - Prof. Dr. Eşref Adalı`nın Bireysel Sayfası
1. Yazým Hatalarýný Düzeltme Prof. Dr. Eþref ADALI Günümüzde, kitaplar, dergiler ve raporlar bilgisayar ortamýnda hazýrlanmaktadýr. 19. yüzyýlýn sonunda önemli bir buluþ olarak kabul gören daktilolar artýk kullaným dýþýdýr. Yazýlan her yazýda yazým hatasý olabileceði bir gerçektir. Ýnsanlar yazmýþ olduklarý yazýnýn yazým kurallarýna uygun olmasýný isterler. Geçmiþ dönemlerde yanlýþlarý bulan ve düzelten insanlarýn olduðu ve bunlarýn basýn kuruluþlarýnda musahhih unvanýyla çalýþtýklarý bilinmektedir. Geçmiþte musahhihler tarafýndan yapýlan iþi bugün bilgisayarlara yaptýrmak için çalýþmalar oldukça ileri düzeydedir. Yazma iþleminin bilgisayar ortamýna geçmesiyle birlikte bilgisayar ortamýnda bulunan bir metnin yazým hatalarýný bulmak ve düzeltmek biliþimciler için ilginç bir araþtýrma alaný olmuþtur. Bir metindeki yazým hatalarýný bulmak için deðiþik yöntemler kullanýlabilir. Yöntemlerden biri, metnin yazýldýðý dilin sözlüðünü bilgisayarda bir veri tabanýna yerleþtirmek olabilir. Bu yöntem bitiþken olmayan diller için uygulanabilir bir yöntemdir. Türkçe gibi bitiþken diller için bu yöntem ilk seçenek olmamalýdýr. Türkçe gibi kurallý bir dilde yazýlmýþ bir metin içindeki yazým hatalarýný bulmak ve düzeltmek için; • Ses uyum kurallarý • Hece yapýsý • Eklerin uyumu özellikleri kullanýlabilir. Bir sözcüðü hecelere ayýrma ve satýr sonunda hece bölmesi iþlemi için Ýngilizcede sözlüðe bakma zorunluluðu vardýr. Buna karþýn Türkçede bir sözcüðün hecelere ayrýlmasý kurallýdýr ve sözlüðe bakýlmadan yapýlabilir. 1.1 Yazým Hatalarýný Giderme Üzerine Çalýþmalar Türkçe metinlerde yazým hatalarýný bulmak için deðiþik yöntemler kullanýlabilir. Bu yöntemler sözcük temelli olabileceði gibi kural tabanlý da olabilir. Türkçe metinlerde yazým hatalarýný bulmak için gerçekleþtirilmiþ çalýþmalardan bazýlarý bu kýsýmda tanýtýlmýþtýr. A. Solak ve K. Oflazer tarafýndan hazýrlanmýþ olan [7,9] çalýþma sözcük temelli bir çalýþmadýr ve 23.000 sözcüðü olan bir sözlüðe sahiptir. Sözlükteki her bir kök sözcük sözcüðü tanýmlayan bayraklarla iþaretlenmiþtir. Sözlükteki herhangi bir sözcük 64 farklý bayrak ile Prof. Dr. Eþref Adalý iþaretlenebilmesine karþýn geliþtirilen yazýlýmda bu bayraklarýn 41 tanesi kullanýlmýþtýr. Kök sözcük bulma algoritmasýnýn temeli sözlükte arama yapma iþlemine dayanmaktadýr. Bu algoritmaya göre sözcük sözlükte aranýr ve bulunursa hiç ek almamýþ demektir. Dolayýsýyla çözümlemeye gerek yoktur. Sözcüðün sözlükte bulunamamasý durumunda sözcüðün saðýndan bir harf çýkarýlýr ve sözcüðün kalan kýsmý sözlükte aranýr. Bu iþlem sözcük sözlükte bulunana kadar devam eder. Eðer sözcüðün ilk harfine gelinmiþ ancak kök sözlükte bulunamamýþsa sözcük yanlýþ yazýlmýþ demektir. Harf çýkarýlarak sözlükte bulunan en uzun sözcük her zaman aranan kök olmayabilir. Bu durumda en son sözlükte bulunan kök üzerinden devam edilerek yeni kök sözlükte aranýr. Örneðin, “yapýldýn” sözcüðü için ilk olarak “yapý” ad soylu kökü bulunur. Ancak sözcüðün kalanýna bakýldýðýnda eklerin ad soylu sözcüklere eklenebilecek ekler olmadýðý görülür ve dolayýsýyla “yapý” sözcüðünden bir harf daha çýkarýlarak sözlükte arama yapýlýr ve “yap” eylem soylu kökü bulunur. Kök bulma iþlemi kök sözcük deðiþime uðradýðý durumlarda sorunlara yol açmaktadýr. Örneðin “oðlumuz” sözcüðü için kök “oðul” dur ve köke birinci çoðul þahýs eki ulandýðýnda kök sözcük deðiþime uðrayarak “oðl” hâline dönüþmektedir. Ancak “oðl” sözlükte bulunamayacaðý için bir denetleme iþlemi gerekir. Son iki harf ünsüz ve ilk harf ünlü olduðu için kök sözcüðün deðiþime uðramýþ olma olasýlýðý yüksektir. “ð” ile “l” harfleri arasýna ünlü uyumuna uyacak þekilde “ý” ve “u” harfleri getirilerek yeni aday kökler oluþturulur ve sözlükte aranýr. “oðul” kökü sözlükte bulunur ve bu kökün ünlü düþmesi bayraðýna sahip olup olmadýðýna bakýlýr. Kök ünlü düþmesi bayraðýna sahip olduðu için aranan kök bulunmuþ demektir. Kök sözcüðün deðiþmesi durumu için bir baþka örnek ise ünsüz yumuþamasý durumudur. Örneðin; “tabaðým” sözcüðü için sözlükte aranan kök “tabað” olacaktýr. Ancak bu sözcük sözlükte bulunmadýðý için bir deðerlendirme gerekir. Ek, ünlü harf ile baþladýðý için ve son harf (ð) b, c, d, g, ð harflerinden biri olduðu için ünsüz yumuþamasý durumu olasýdýr. Sözcük “-loð” eki ile bitmediði için son harften bir önceki harf “n” harfi olmadýðý için “ð” harfinin yerine “k” harfi konur ve “tabak” sözcüðü sözlükte bulunur. Sözcük ünsüz yumuþamasý bayraðýna sahip olduðundan dolayý aranan kök bulunmuþ demektir. Oflazer ve Solak’ýn bu çalýþmalarýnda ünlü uyumu ile ilgili denetimler de yer almaktadýr. Ayrýca ekler sýnýflandýrýlmýþ ve bu sayede çözümlemenin daha kolay hâle gelmesi saðlanmýþtýr. Diðer yazým denetimi araçlarýnda olduðu gibi, geliþtirilen bu yazýlýmda da sözcük bazýnda denetleme yapýlmýþ; cümle bazýnda denetleme yapýlmamýþtýr. Ayrýca yanlýþ yazýlmýþ olan sözcükler için öneri yapma sistemi mevcut deðildir [7,9]. Türkçede yazým hatalarýnýn düzeltilmesi ile ilgili diðer bir çalýþma K. Oflazer ve C. Güzey tarafýndan yapýlmýþtýr. Bu çalýþma iki seviyeli bir biçim bilimsel çözümleyici ve dinamik programlama tabanlý bir arama algoritmasýna dayanmaktadýr. Yazým hatalarýnýn düzeltilmesi ile ilgili olarak yapýlan bu çalýþmada, sorun iki ayrý ana baþlýk altýnda deðerlendirilmiþtir. Ýlk olarak yapýlan iþlem, yanlýþ yazýlmýþ sözcük için sözlükten tüm aday köklerin bulunmasýdýr. Burada Yazým Hatalarýný Düzeltme zor olan nokta, köklerin yanlýþ yazýlma sonucunda mý yoksa ses deðiþimlerine uðrayarak mý deðiþmiþ olduðuna karar vermektir. Ýkinci adým ise sorunun esas kýsmýný oluþturmaktadýr; bu da bulunan tüm aday köklerden olasý tüm sözcüklerin türetilmesidir. Bunu gerçekleþtirmek için de "edit distance metric" olarak bilinen iki sözcük arasýndaki uzaklýðý bulma yollarýndan yararlanýlmýþtýr. Bu çalýþmada iki sözcüðün birbirine ne kadar benzer olduðunu bulmak için “q gram” yöntemi kullanýlmýþtýr. Yapýlan sýnama sonuçlarýna göre yanlýþ yazýlmýþ olan bir sözcüðün düzeltilmesi %95 baþarýyla gerçekleþtirilmektedir [6,8]. Türkçede yanlýþ yazýlmýþ sözcüklerin bulunmasý ile ilgili bir baþka çalýþma R. Aþliyan, K. Günel ve T. Yakhno tarafýndan gerçekleþtirilmiþtir. Bu çalýþmanýn amacý bir Türkçe metindeki sözcüklerin doðru yazýlýp yazýlmadýðýna karar vermektir. Sistem Türkçe metindeki sözcükleri giriþ olarak almakta ve “n-gram frequency” yöntemini kullanarak olasýlýk daðýlýmý hesabý yapmaktadýr. Eðer bir sözcüðün olasýlýk daðýlýmý sýfýr ise o sözcüðün yanlýþ yazýlmýþ olduðuna karar verilmektedir. Sistemi sýnamak için ayný sözcükleri içeren metinlerden oluþan iki farklý veri tabaný hazýrlanmýþtýr. Bunlardan birincisi 685 tane yanlýþ yazýlmýþ; diðeri ise 685 tane doðru yazýlmýþ sözcük içermektedir. Sistemin yanlýþ yazýlmýþ olan sözcükleri bulma baþarýmý %97 olarak verilmiþtir. Türkçe metinlerdeki yazým hatalarýný bulma konusunda yapýlmýþ bir diðer çalýþma A. Delibaþ ve E. Adalý tarafýndan gerçekleþtirilmiþtir. Bu çalýþmanýn hedefi; • • • • • Türkçe metinlerdeki yazým hatalarýnýn denetlenmesi, Türkçe metinlerdeki yabancý sözcüklerin bulunmasý, Bulunan yabancý sözcükler için Türkçe karþýlýklarýnýn önerilmesi, Yanlýþ yazýlmýþ sözcükler için sözcük önerilmesi, Bulunan yazým hatalarýnýn düzeltilmesi olarak belirlenmiþtir. Türkçe metinlerdeki yazým hatalarýnýn denetlenmesi ve yabancý sözcüklerin bulunmasý için yapýlan çalýþmalarda sözcüklerin Türkçe ses bilimi ve biçim bilimi kurallarýna uygun olup olmadýðýnýn sýnamasý yapýlmýþtýr. Bu sýnamanýn yapýlabilmesi için ilk olarak heceleme algoritmasý yardýmýyla sözcüklerin hecelenebilir olup olmadýðý denetlenmiþtir. Bu denetimi geçemeyen sözcükler Türkçe hece yapýsýna uygun olmadýklarý için doðrudan elenmektedir. Türkçe metinlerdeki yabancý sözcüklerin ortaya çýkarýlabilmesi için sözcüklerin Türkçe ses bilgisi ve hece yapýsý kurallarýna uygunluklarýnýn denetlenmesi yeterlidir. Ancak yazým yanlýþlarýnýn bulunabilmesi için biçim bilimsel çözümleme gereklidir. Bu çalýþma kapsamýnda gerçekleþtirilen biçim bilimsel çözümleyici kullanýlarak sözcükler kök ve eklerine ayrýldýktan sonra hatanýn kökte mi yoksa eklerde mi olduðu araþtýrýlmýþ, ardýndan hatalý kýsým düzeltilmiþtir. Bu çalýþmayla ilgili ayrýntýlý bilgiler Bölüm-2'de bulunmaktadýr. Prof. Dr. Eþref Adalý Türkçe metinlerdeki yazým hatalarýnýn giderilmesi için sesbilim ve biçim bilim kurallarý kullanýlarak gerçekleþtirilen yöntemlerin yeterli olmasý beklenemez. Metinlerin anlamsal açýdan da denetlenmesi gerekir. Örneðin; "Ali dün okuldan gelecek" tümcesi sesbilim ve biçim bilimsel kurallar açýsýndan denetlendiðinde hatasýzdýr. Ancak, anlam bilimi açýsýndan denetlendiðinde yanlýþtýr. 1.2 Yetkin Hata Bulma ve Düzeltme Türkçe metinlerde yazým hatalarýnýn bulunmasý ve düzeltilmesi konusunda yapýlmýþ olan çalýþmalar özet biçiminde bir önceki kýsýmda tanýtýlmýþtýr. Bu kýsýmda, A. Delibaþ ve E. Adalý tarafýndan gerçekleþtirilmiþ olan çalýþma ayrýntýlý biçimde tanýtýlacaktýr. Bu çalýþma kapsamýnda gerçekleþtirilmiþ olan çalýþmalar sýrasýyla þöyledir: • Sözcük daðarcýðý oluþturma • Heceleyici • Kök bulucu • Biçim bilimsel çözümleyici • Türkçe metin denetleyici • Ses bilimi açýsýndan sözcük denetimi • Sözcük önerme 1.2.1 Sözcük Daðarcýðý Oluþturma Oluþturulan sözcük daðarcýðý güncel TDK sözlüðünde yer alan sözcüklerin yaný sýra özel isimleri de içeren bir metin dosyasýdýr. Bu dosyada sözcükler kök hâlinde bulunmaktadýr. Türkçe kurallý bir dil olmasýna karþýn kural dýþý durumlarý da olan bir dildir. Ancak bu kural dýþý durumlarýn da uymak zorunda olduðu kurallar bulunmaktadýr. Bu nedenle oluþturulan sözlük daðarcýðýnda kural dýþý durumlarýn oluþturacaðý hatalarý ortadan kaldýrmak için sözcüklerin etiketlenmesi yoluna gidilmiþtir. Aþaðýdaki sözcük kümeleri etiketlenmiþtir: • Özel isimler • Yumuþama kuralýna göre deðiþime uðrayan sözcükler • Ses düþmesinin söz konusu olduðu sözcükler Sözlük daðarcýðýnda bulunan kök sözcük yukarýda belirtilen özel durumlardan hangisine uyuyorsa kök sözcüðün yanýna bu özel durum yazýlmýþ; böylece sözcük etiketlenmiþtir. Sözcük daðarcýðý oluþturulurken yumuþama ve ses düþmesi kurallarýný göz önüne alarak sözcükleri kümeleyebilecek bir algoritmanýn tasarlanýp tasarlanamayacaðý araþtýrýlmýþtýr. Bu araþtýrmanýn sonunda aþaðýdaki sonuçlara varýlmýþtýr: Yazým Hatalarýný Düzeltme Ünsüz yumuþamasý kuralý göz önüne alýndýðýnda, “k” harfi ile biten sözcüklere ünlü ile baþlayan bir ek getirildiðinde “k” harfinin yerine “g”, “ð” veya “kk” harfleri gelmektedir. Örneðin ismin “-i” durum eki "aþk" sözcüðüne ulanýnca "aþký", "sokak" sözcüðüne ulanýnca "sokaðý", ahenk sözcüðüne ulanýnca "ahengi", "hak" sözcüðüne ulanýnca "hakký" sözcükleri oluþmaktadýr. Bu örneklerden görüldüðü gibi “k” harfi için üç farklý durum söz konusudur. Benzer durum “t” harfi için de geçerlidir. Bu aykýrý durumlarýn kaynaðý araþtýrýldýðýnda þu sonuca varýlmaktadýr: · Kökeni Doðu dillerine dayanan sözcüklerde genellikle yumuþama olurken Batý dillerinden Türkçeye girmiþ olan sözcüklerde yumuþamaya daha az rastlanmaktadýr. Örneðin, “kitap” sözcüðünün kökeni Arapçadýr ve özgün hâli “kitab” þeklindedir. Bu sözcüðe ünlü ile baþlayan ek ulandýðýnda sözcük özgün hâline geri dönmekte ve ek özgün hâline ulanmaktadýr. Benzer þekilde Arapça kökenli olan "hak" ve "cet" sözcükleri de ünlü ile baþlayan ek aldýðýnda özgün hâlleri olan "hakk" ve "cedd" hâllerine geri dönmektedirler. Bunun yaný sýra "ýslahat", "sefahat", "tatbikat" gibi Arapça kökenli sözcüklerin özgün hâlleri de þu an kullanýlan hâlleriyle ayný olduðu için bu sözcükler herhangi bir deðiþime uðramamaktadýrlar. Dolayýsýyla buradan da görüleceði gibi doðu kökenli dillerden Türkçeye geçmiþ olan sözcüklerin pek çoðunda sözcük, ünsüz yumuþamasý kuralýna uymak için özgün hâline geri dönmektedir. · Batý kaynaklý dillerden Türkçeye girmiþ olan sözcükler üzerinde de benzer çalýþma yapýlmýþtýr. Örneðin Fransýzcadan dilimize girmiþ olan "akrobat", "bürokrat", "demokrat" sözcükleri ünlü ile baþlayan bir ek aldýðýnda deðiþime uðramazken yine Fransýzcadan dilimize girmiþ olan "piramit" sözcüðü ünlü ile baþlayan bir ek aldýðýnda deðiþime uðramakta ve sözcük sonundaki “t” harfinin yerini “d” harfi almaktadýr. Benzer þekilde Fransýzca kökenli olan "bank" sözcüðünde yumuþama söz konusu deðilken "müzik" sözcüðünde yumuþama olmaktadýr. Batý dillerinden Türkçeye girmiþ olan sözcüklerin bir kýsmýnda yumuþama gerçekleþmekte bir kýsmýnda gerçekleþmemektedir. Bu deðerlendirmelerin sonunda Doðu kökenli sözcükler için bir kural oluþturulabilir gibi görünse de Batý kökenli sözcükler için yumuþama kuralý oluþturulamamaktadýr. Dolayýsýyla yazým yanlýþlarýný bulma ve düzeltmedeki hata oranýný en aza indirgemek açýsýndan sözcük daðarcýðýndaki sözcükler yumuþama kuralý açýsýndan etiketlenmeleri gerekmiþtir. Ses düþmeleri açýsýndan TDK sözlüðündeki sözcükler incelendiðinde ses düþmesi kuralýnýn ünsüz yumuþamasý kuralýna göre daha kurallý bir yapýya sahip olduðu söylenebilir. Ancak ses düþmesinde de kural dýþý durumlar söz konusudur. Örneðin, “beniz” sözcüðü ünlü ile baþlayan bir ek aldýðýnda ikinci hecedeki “i” ünlüsü düþmekte ve "benzi" hâline dönüþmektedir. Ancak “deniz” sözcüðüne bakýlacak olursa iki sözcük arasýndaki farkýn sözcük baþýndaki harf olmasýna karþýn bu sözcükte ses düþmesi söz konusu deðildir. Dolayýsýyla sözlük daðarcýðýndaki sözlüklerin ses düþmesi açýsýndan etiketlenmesi gerektiði sonucuna varýlmýþtýr. Prof. Dr. Eþref Adalý Sözlük daðarcýðýna yeni sözcükler eklenebilmektedir. Eklenecek sözcük yabancý bir sözcük ise bu sözcüðe karþýlýk düþen bir Türkçe sözcük önerilmektedir. Örneðin "arkeoloji" sözcüðü yerine “kazý bilimi” veya "agresif" sözcüðü yerine “saldýrgan” sözcüðü önerilebilir. Sözcük daðarcýðýna eklenmek istenen sözcük yabancý sözcük olmasýna karþýn eklenmek isteniyorsa eklenebilir. 1.2.2 Heceleyici Biçim bilimsel çözümleyiciyi gerçekleþtirebilmek bir heceleyici gerekli olmuþtur. Türkçede ekler ve kökler arasýndaki ses olaylarý hece boyutunda gerçekleþtiði için hecelemenin önemi oldukça büyüktür. Türkçede altý temel hece yapýsý bulunmaktadýr. Ses kurallarý sadece bu hece yapýlarýna izin vermektedir. Bu kurallara göre Türkçe bir hecenin içinde en az bir, en fazla dört ses bulunabilir. Türkçedeki bu hece kalýplarý sayesinde hecelemenin yapýsal olarak modellenmesi ve yazýlým ile gerçekleþtirilmesi olanaklýdýr. Bazý yabancý sözcüklerde heceleme kuralý dýþýna çýkýldýðý görülmektedir. Gerçekleþtirilen heceleme algoritmasýnýn temeli Türkçe hece modelleri temeline dayanmaktadýr. Algoritmada sözcük sondan baþa doðru incelenmekte ve hecelenmektedir. Heceleme algoritmasýnýn adýmlarý aþaðýda verilmiþtir: 1. Aþama Sözcüðün sonundaki harf okunur ve bu harfin ünlü mü yoksa ünsüz mü olduðu belirlenir. Eðer son harf ünsüz ise sözcük uzunluðu denetlenir. Sözcük uzunluðu bir harf ise bu hata durumudur; çünkü Türkçede heceler sadece bir ünsüz harften oluþamazlar. 2. Aþama Sözcük ilk aþamadan geçerse sondan bir önceki harf ele alýnýr. Eðer sondan bir önceki harf ünlü ise bu durumda sözcük denetlenir. Eðer sözcük uzunluðu iki ise (örneðin: al) veya sondan iki önceki harf ünlü ise (örneðin; saat, zaaf) hece bulunmuþ demektir. Eðer sözcük uzunluðu üç (örneðin; yat, kat) ise veya sondan üç önceki harf ünlü ise (örneðin; kitap, kalem) hece bulunmuþ demektir. Bu koþullar saðlanmýyorsa sondan dört önceki harfe bakýlýr ve bu harf ünlü ise (örneðin, kezzap) hece bulunmuþ demektir. Bu koþullarýn dýþýndaki durumlarda hata oluþturulur. 3. Aþama Ýlk iki aþama sondan bir önceki harfin ünlü olmasý durumunda izlenecek yolu göstermektedir. Sondan bir önceki harf de son harf gibi ünsüz ise ve bu harf “l, r, y, p, n, s” harflerinden biriyse bu durumda hece Türkçe hece modellerinden SZZ veya ZSZZ kalýplarýndan birine uymaktadýr. Sözcük uzunluðu iki ise veya sondan iki önceki harf de ünsüz ise hata oluþturulur. Çünkü Türkçe hece kalýplarýna göre bir hece iki ünsüz (ZZ) veya üç ünsüzden (ZZZ) oluþamaz. Bu denetim sayesinde yabancý dillerden dilimize girmiþ olan ve sözcük baþýnda veya ortasýnda birden fazla ünsüz harfi yan yana bulunduran sözcüklerin hecelenmesine izin verilmez. Sözcük uzunluðu Yazým Hatalarýný Düzeltme üçten büyük ve sondan üç önceki harf ünsüz ise (örneðin; kalp, Türk, ebeveyn) hece bulunmuþ demektir. 4. Aþama Son harfin ünlü olmasý durumunda ise uygulanan yöntem þu þekildedir: Sözcük uzunluðu bir ise (örneðin; o) hece bulunmuþ demektir. Sondan bir önceki harf ünsüz ise ve sözcük uzunluðu iki ise (örneðin; ye, ya) hece bulunmuþ demektir. Sondan iki önceki harf ünsüz ve sözcük uzunluðu üç ise hece bulunmuþ demektir. Tüm bu denetimlerin dýþýnda kalan durumlar için hata üretilir ve heceleme yapýlamaz. Yukarýda da belirtildiði gibi heceleme sözcük sonundan baþýna doðru yapýlmaktadýr. Dolayýsýyla ilk hece bulunduktan sonra bulunan hece sözcükten çýkarýlmakta ve anlatýlan denetimlerin hepsi sözcükte kalan diðer heceler için de aynen gerçekleþtirilmektedir. Her hece bulunduðunda bulunan hece dýþýnda sözcükte kalan diðer heceler için ayný iþlemler tekrarlanmaktadýr ve bu iþlem sözcük uzunluðu sýfýrlanana kadar devam etmektedir. Böylece sözcükteki tüm heceler bulunabilmektedir. Þekil-1.1 heceleme algoritmasýna iliþkin akýþ diyagramýný göstermektedir. 1.2.3 Kök Bulucu Kullanýlan kök bulma algoritmasý aðaç veri yapýsý ile oluþturulmuþtur. Sözlükten okunan tüm kökler bu aðaca yerleþtirilir. Kök aðacý Yönlü Döngüsüz Sözcük Çizgesi (YDSÇ) DAWG) yapýsýndadýr. Aþaðýda Kök Aðacý Yönlü Döngüsüz Sözcük Çizgesi hakkýnda bilgi verilmiþtir. 1.2.3.1 Yönlü Döngüsüz Sözcük Çizgesi Yapýsý YDSÇ hýzlý sözcük aramalarýna olanak tanýyan bir veri yapýsýdýr. Çizgeye giriþ noktasý aranan sözcüðün baþlangýç harfidir. Her düðüm bir harfi temsil eder. Çizgede ilerlerken karþýlaþýlan harf ile aranan harfin ayný olmamasý durumunda bir düðümden diðer düðümlere geçiþ yapýlabilir. Çizgenin yönlü bir çizge olmasýnýn nedeni herhangi iki düðüm arasýnda sadece özel ve belirli bir yolda ilerlenilebilmesidir. Diðer bir deyiþle, A düðümünden B düðümüne gidilebilir; ancak B düðümünden A düðümüne gidilemez. Döngüsüz olmasýnýn nedeni ise çizge üzerinde herhangi bir yolun baþlangýç ve bitiþ düðümünün ayný olmamasýndan kaynaklanmaktadýr. Bir baþka deyiþle çizge üzerinde A ® B ® C ® A þeklinde bir yol bulunmasý söz konusu deðildir. Þekil-1.2'de “BAL”, “BAS” sözcüklerinin YDSÇ içindeki yerleþimi gösterilmiþtir. Þekil-1.2'deki ÇD : Çocuk Düðüm, SD : Sonraki Düðüm ve SS : Sözcük Sonu anlamýna gelmektedir. Þekil-1.2'deki YDSÇ'de "BAS" sözcüðünün aranmasý durumunda giriþ noktasýndan (B harfi) arama baþlayacaktýr. "B" harfi aradýðýmýz sözcüðün ilk harfi olduðundan dolayý bundan sonra yapýlacak iþlem "B" harfinin çocuk düðümüne gitmektir." BAS" sözcüðü için aradýðýmýz ikinci harf "A" harfidir ve bu harf çizge üzerinde "B" harfinin çocuk düðümü olan "A" harfi ile ayný olduðundan bu kez de "A" harfinin çocuk düðümüne bakýlacaktýr. "BAS" Prof. Dr. Eþref Adalý Baþla Sözcüðün son harfini oku E H Ünlü harf mi? Sözcük uzunluðunu hesapla E H Sondan bir önceki harf ünlü mü? H Sözcük uzunluðu =1 mi? Sözcük uzunluðunu hesapla E Sözcük uzunluðu =1 mi? H Sondan bir önceki harf ünlü mü? E E H E Sözcük uzunluðu =2 mi? E E H H Sözcük uzunluðu =3 mü? H E H E E Sondan iki önceki harf ünlü mü? Sözcük uzunluðu =2 mi? Sondan iki önceki harf ünsüz mü? Sözcük uzunluðu =3 mü? Sondan üç önceki harf ünlü mü? H Sözcük uzunluðu >3 mü? E Sözcük uzunluðu =4 mü? H Sondan üç önceki harf ünsüz mü? E Hece bulundu Uzunluðu = 3 Hece bulundu Uzunluðu = 2 E H H H E H H E H E H E Sondan iki önceki harf ünsüz mü? Harf l,r,p,y,n,s den biri mi? Sözcük uzunluðu =2 mi? E Hece bulundu Uzunluðu = 1 Hece bulundu Uzunluðu = 4 Hata Bulunan heceyi sözcükten çýkar H Sözcük uzunluðu=0 mý? E Þekil-1.1: Türkçe sözcükleri heceleme algoritmasý SON Yazým Hatalarýný Düzeltme B ÇD A ÇD L(SS) SD S(SS) Þekil-1.2: “BAL” ve “BAS”sözcükleri için YDSÇ sözcüðü için aranýlmasý gereken sýradaki harf "S" harfidir. Ancak bu harf, çizge üzerinde "A" harfinin çocuk düðümü olan "L" harfinden farklý olduðu için " L" harfinin çocuk düðümüne bakýlmayacak ve bir sonraki düðüme (S) geçilecektir. Bu düðüm aranýlan harf olan S harfini göstermektedir. Aranýlan sözcük içindeki tüm harfler bulunduðuna göre bundan sonra yapýlmasý gereken sözcük sonuna gelinip gelinmediðinin denetlenmesidir. YDSÇ'de ayný harfle biten sözcüklerin ayný düðümde sonlanmasý iþlemi gerçekleþtirilebilir. Þekil-1.3'deki “BOL” ve “KOL” sözcüklerinin YDSÇ'deki yerleþimi bu duruma örnek olarak gösterilebilir. 1.2.3.2 Yönlü Döngüsüz Sözcük Çizgesi Oluþturma YDSÇ oluþturmak için ilk olarak aðaç oluþturulur. Aðaçtaki yapraklardan biri sözcük sonunu temsil eder. Aðaçta birbirinin ayný olan çok sayýda yaprak bulunabilir. Þekil-1.4'te “BAL” ve “SAL” sözcüklerinin aðaçtaki diziliþi görülmektedir. B SD ÇD O ÇD L(SS) ÇD K Þekil-1.3: “BOL” ve “KOL”sözcükleri için YDSÇ Þekil-1.4'te görülen aðaca balta sözcüðü eklenmek istendiðinde, L harfine gelene kadar aðaç üzerinde arama yapýlýr. L harfine gelindiðinde bu düðümün çocuðu olmadýðý görülür ve T düðümü son düðüm olan L düðümüne, A düðümü de son eklenen T düðümüne eklenir. Sonuçta oluþan durum Þeki-5'teki gibidir. Þekil-1.5'ten de görüleceði gibi aðaca bu þekilde sözcük eklemek sözcüklerin baþlangýçlarý için ortak düðümler olmasýný saðlarken sözcük sonlarý her sözcük için farklý olmaktadýr. Çizgenin boyutunu daha sý"nýrlý hâle getirmek için sözcük sonlarýnýn ortak olan kýsýmlarý bulunmalý ve birleþtirilmelidir. Bunu gerçekleþtirmek için yaprak düðümden yola çýkýlýr. Ýki yaprak düðüm ayný ise bunlar birleþtirilebilir. Ýki yaprak düðümün ayný olmasý için bu düðümlerin ayný harfi Prof. Dr. Eþref Adalý B ÇD A ÇD L(SS) ÇD A ÇD L(SS) SD S Þekil-1.4: “BAL” ve “SAL”sözcükleri için aðaç oluþumu B ÇD A ÇD L(SS) ÇD A ÇD L(SS) ÇD T ÇD A(SS) SD S Þekil-1.5: “BALTA” sözcüðünün aðaca yerleþtirilmesi taþýmalarý tek baþýna yeterli deðildir; bir sonraki düðümleri veya çocuk düðümleri varsa bunlarýn da ayný olmasý gereklidir. Þekil-1.6'da görülen çizge bu duruma örnek olarak verilebilir. 1.2.3.3 Aðaç Üzerinde Kök Bulma Aðaç üzerinde bir kökü bulmak için aðacýn baþýndan itibaren kökü oluþturan harfleri temsil eden düðümleri izlemek gerekir. Þekil-1.7'de görülen aðaç üzerinde örneðin "balo" kökü bulunmak B ÇD E SD ÇD ÇD ÇD N ÇD Ý ÇD Z(SS) D G Þekil-1.6: Sözcük sonlarýnýn ortak düðümlere baðlanmasý istendiðinde ilk olarak "B" baþlangýç düðümünden "A" düðümüne, "A" düðümünden "L" düðümüne ve oradan da "O" düðümüne geçmek gerekir. Yazým Hatalarýný Düzeltme B A C A I K L O T E A N Þekil-1.7 Aðaç üzerinde kök bulma Aðaç üzerinde kök bulma iþlemi bir veri yapýsý olan aðacýn düðümlerinin üzerinde gezilmesi ve aranan düðümle üzerinde bulunulan düðümün karþýlaþtýrýlmasý þeklinde gerçekleþtirilmektedir. Dolayýsýyla kök bulma algoritmasýnýn özü aðaca yerleþtirilmiþ olan kökler üzerinde yapýlan aðaç iþlemleridir. Girilen sözcüðün ilk harfinden baþlanarak aðaç üzerinde ilerlenilir. Ýlerlenecek yer kalmayana veya sözcük bitene kadar aðaç üzerinde ilerlemeye devam edilir. Aðaç üzerinde ilerlerken karþýlaþýlan tüm kökler aday olarak toplanýr. Örneðin; "BALON" sözcüðü için aðaç üzerinde yürürken karþýlaþýlan "BAL", "BALE" ve "BALON" köklerinin üçü de aday kökler olarak bulunur. Ses deðiþimleri (ünsüz yumuþamasý, ses düþmesi vb.) nedeniyle deðiþime uðrayan sözcüklerin aðaca eklenmesi sýrasýnda hem sözcüðün özgün hâli hem de deðiþime uðrayan hâli aðaca eklendiði için kök bulma iþlemi sýrasýnda herhangi bir sorunla karþýlaþýlmaz. Örneðin, "þarap" sözcüðü hem "þarap" hem de "þarab" olarak aðaca eklenmektedir; ancak bu iki düðümün de iþaret ettiði kök aynýdýr ve bu kök "þarap" köküdür. Böylece ünsüz yumuþamasýna uðramýþ olarak aranan sözcüðün kökünün de aðaçta bulunmasý saðlanmýþ olur. 1.2.4 Sözcüðün Biçim Bilimsel Çözümlenmesi Türkçenin ek zengini olduðu bir gerçektir. Bu nedenle sözcüklerin biçim bilimsel çözümlenmesi önemli bir çalýþma olarak deðerlendirilir. 1.2.4.1 Ekler Ekler ve eklerin sözcük kök veya gövdelerine ulanýþlarýnda oluþturduklarý desenlerin incelenmesi biçim bilimsel çözümleme açýsýndan oldukça önemlidir. Eklerin sýnýflandýrýlmasýnda en önemli aþama yapým ve çekim eklerinin hangi sýralarla birbirlerini izlediklerini belirleyebilmektir. Türkçe dil bilgisi kurallarýna göre çekim ekleri yapým Prof. Dr. Eþref Adalý eklerinden sonra gelir. Dolayýsýyla bir kez çekim eki alan sözcük, daha sonra sadece çekim eki alabilir. Çekim eklerinin birbirlerini hangi sýrayla takip edecekleri de kurallara baðlýdýr. Yapým ekleri için bu þekilde oluþturulmuþ kesin kurallarýn varlýðýndan bahsetmek olanaklý deðildir. Tüm Türk dillerinde ekler dilin en önemli bileþenini oluþtururlar ve bu nedenle eklerin yapýsýnýn anlaþýlmasý biçim bilimsel inceleme açýsýndan oldukça önemlidir. Türkçede eklerin isimlendirilmesinde ve gösterilmesinde kullanýlan benimsenmiþ bir yöntem mevcut olmamakla beraber bu bölümde verilecek olan örnekler sýkça kullanýlan yöntemler temel alýnarak verilmiþtir. Örneðin çoðul eki olan “-lar” ekinin gösterilimi “-lAr” þeklindedir. Bu gösterimde küçük harfle yazýlmýþ olan “l” ve “r” harfleri eke doðrudan eklenileceðini gösterirken, büyük harfle yazýlmýþ olan “A” harfi ekleneceði sözcüðün son ünlüsüne göre deðiþebileceðini ifade etmektedir. Ekin ulanacaðý sözcüðün son ünlüsü kalýn ünlü ise bu harf “a”, ince ünlü ise “e” hâlini alacaktýr. Türkçede ekler için özel bazý durumlar söz konusudur. Örneðin Türkçede þimdiki zaman eki olan “-(I)yor” eki ulandýðý eylemin son harfi ünlü harf ise bu harfin düþmesine neden olur. Örneðin; “ara-“ eylem köküne þimdiki zaman eki ulandýðýnda oluþan eylem “ara-yor” þeklinde deðil, “ar-ýyor” þeklindedir. Benzer þekilde eylemleri edilgen yapan ekler de ulanacaklarý eylemlerin son ünsüzlerine baðlý olarak deðiþebilmektedirler. Örneðin; “gel-“ eylemine edilgenlik eki ulandýðýnda eylem “gel-in-mek” hâlini alýrken “kes-“ eylemi “kes-il-mek” hâline dönüþmektedir. Kullanýlan ek dosyasý içinde ekler kümelere ayrýlarak sýnýflandýrýlmýþtýr. Örneðin, ismin hâl ekleri için bir küme oluþturulmuþ ve bu kümeye dâhil olan tüm ekler (-i, -e, -de, -den) bu kümenin içine konulmuþtur. Ayrýca çekim eklerinin birbirlerini hangi sýrayla izleyebilecekleri ile ilgili kurallar göz önüne alýnarak ekler arasýnda iliþkilendirme yapýlmýþtýr. Bir ekten sonra gelebilecek tüm olasý ekler, ilgili ekle iliþkilendirilmiþ ve bu sayede eklerin ayrýþtýrýlmasý daha kolay çözümlenebilir hâle getirilmiþtir. Bunun yaný sýra yukarýda da belirtildiði gibi bazý eklerin özel durumlara sahip olmasý nedeniyle bu eklerle ilgili özel durumlarý belirten etiketler verilmiþtir. 1.2.4.2 Ayrýþtýrma Algoritmasý Biçim bilimsel çözümlemede kullanýlan ayrýþtýrma algoritmasý girilen bir sözcüðe ait olasý tüm kök ve ek çözümlerini bulmak için kullanýlýr. Girilen bir sözcüðün biçim bilimsel çözümlemesinin yapýlmasýnda ilk adým, girilen sözcüðü noktalama iþaretleri, kýsa çizgi iþareti gibi harf dýþýndaki elemanlardan ayrýþtýrmaktýr. Bu sayede geriye sadece kök ve ekler kalýr. Harf dýþýndaki elemanlarýn ayýklanmasýndan sonra yapýlan iþlem, olasý tüm köklerin kök aðacý üzerinde gezilerek bulunmasýdýr. Kök bulma algoritmasý Bölüm-2.3'te anlatýlmýþtýr. Olasý tüm kökler bulunduktan sonra eklerin bulunmasý iþlemi baþlar. Bunun için kök sözcüðün almýþ olduðu ilk eke bakýlýr. Bölüm-2.4.1'de belirtildiði gibi ilk ek kendinden sonra gelebilecek eklerle ilgili bilgi verdiði için sýrayla bu ekler ele alýnýr ve ekin kök sözcük üzerinde özel bir durum oluþturup oluþturmadýðýna bakýlýr. Örneðin ek ünlü ile baþlýyorsa ve kök sözcük ünlü Yazým Hatalarýný Düzeltme düþmesi özel durumuna sahipse bu durumda ek, kök sözcük üzerinde özel bir durum oluþturur. Eklerin kök sözcük üzerinde özel durumlarýn oluþmasýna neden olmasý durumda, kök sözcük özel duruma uygun þekle dönüþtürülür. Kök sözcük uygun þekle dönüþtürüldükten sonra sýra ekin köke ulanmasýna gelir. Burada ekin özelliðine göre köke ulama iþlemi gerçekleþtirilir. Örneðin; kök sözcük "elma" ise ve ulanacak ek “-lAr” eki ise ilk olarak sözcüðe “l” harfi eklenir. Daha sonra sözcüðün son ünlüsünün kalýn mý ince mi olduðuna bakýlýr. "Elma" kök sözcüðü için son ünlü kalýn olduðundan ulanacak ek kalýn olacak þekilde biçimlendirilir. Bu durumda kök sözcük “elmala” hâlini alýr. Son olarak da “r” harfi sözcüðe ulanýr ve böylece “-lAr” ekinin sözcüðe ulanmasý iþlemi bitmiþ olur. Ýlk ek sözcüðe ulandýktan sonra girilen sözcük ile oluþturulan sözcüðün ayný olup olmadýðý denetlenir. Sözcükler ayný ise ulanacak ek kalmamýþ demektir. Ayný deðilse girilen sözcük daha fazla sayýda ek içeriyor demektir; bu durumda oluþturulan sözcük bir yýðýnda saklanýr ve ek ulama iþlemine devam edilir. Bir sonraki eki bulmak için önceki ekle iliþkilendirilmiþ olan eklere bakýlýr. Bu noktada çekim eklerinin hangi sýrayla birbirlerini takip edebileceði kurallarýnýn var olmasý oldukça iþe yaramaktadýr. Bir önceki örnekten devam edilecek olursa girilen sözcük “elmalarým” sözcüðü olmak üzere ilk ek “-lAr” eki sözcüðe eklendikten sonra geride kalan “-ým” eki için “-lAr” ekinden sonra gelebilecek ekler arasýnda arama yapýlýr ve bu ekin birinci tekil þahýs iyelik eki olduðu arama sonucunda ortaya çýkar. Bu ek de sözcüðe ulandýktan sonra giriþ sözcüðü ile oluþturulan sözcüðün ayný olup olmadýðýna bakýlýr ve sözcükler ayný olacaðý için çözümleme iþlemi gerçekleþtirilmiþ olur. Þekil-1.8 ayrýþtýrma algoritmasýna iliþkin akýþ diyagramýný göstermektedir. 1.2.5 Türkçe Metin Denetleyici Sözcük için Türkçe denetimi yapýlmasýnda amaç, girilen sözcüðün Türkçe bir sözcük olup olmadýðýný denetlemektir. Bunu gerçekleþtirebilmek için öncelikle sözcüðün hecelenebilir olup olmadýðýnýn denetlenmesi gerekir. Eðer girilen sözcük hecelenemiyorsa Türkçe olmadýðý kararýna varýlýr. Hecelenebilen sözcüklerin, Türkçe sözcüklerin saðlamasý gereken ve aþaðýda sýralanan kurallarý saðlayýp saðlamadýðýna bakýlýr. • Sözcük baþý ünsüz denetimi • Sözcük sonu ünsüz denetimi • Sözcük içi ünsüz denetimi • Ünlü uyumlarý • Ünsüz uyumu • Ses bilimi açýsýndan sözcük denetimi • Ünsüz yumuþamasý denetimi • Ünlü düþmesi denetimi Prof. Dr. Eþref Adalý Baþla Sözcüðü harf dýþýndaki elemanlardan arýndýr Olasý tüm kökleri bul Ýlk aday kökü al Ýlk eki bul Sýradaki eki bul E Ek kök üzerinde özel durum oluþturur mu ? H Kökü özel durumuna göre biçimlendir Eki kuralýna göre sözcüðe ekle E Girilen sözcükteki ek ulanan ekle ayný mý ? H Sözcüðün oluþturulan halini sakla E Girilen sözcük ilk oluþturulan ile ayný mý ? H Sözcük çözümleme için ilk aday oluþturuldu Sýradaki kök adayýný al Þekil-1.8: Ayrýþtýrma algoritmasýnýn akýþ diyagramý Yazým Hatalarýný Düzeltme Bu kurallardan en az bir tanesini saðlamayan sözcük Türkçe bir sözcük deðildir veya dilimize yabancý dillerden girmiþ bir sözcüktür. Þekil-1.9 Türkçe sözcük denetimine iliþkin genel akýþ diyagramýný göstermektedir. Baþla Sözcükteki hece sayýsýný bul H Hece sayýsý sýfýr mý? E Sözcük baþý ünsüz harf denetimini uygula Sözcük denetimi baþarýlý mý ? H E Sözcük sonu ünsüz harf denetimini uygula Sözcük denetimi baþarýlý mý ? H E Sözcük kökünü bul Sözcük içi ünsüz harf denetimini uygula Sözcük denetimi baþarýlý mý ? H E Sözcük ünlü uyumuna uygun mu? H E Sözcük ünsüz uyumuna uygun mu? H Sözcük Türkçe deðilidir ya da yanlýþ yazýlmýþtýr E Sözcük Türkçedir Sözcük yabancý ise Türkçe karþýlýk sözcük öner SON Þekil 1.9 Türkçe denetimi akýþ diyagramý Prof. Dr. Eþref Adalý 1.2.5.1 Sözcük Baþý Ünsüz Denetimi Türkçe bir sözcüðün baþýnda birden fazla ünsüz harf bulunamaz. Dolayýsýyla ilk olarak yapýlan denetim sözcük baþýndaki ünsüz harf sayýsýný bulma amacýna yöneliktir. Bu aþamada yapýlan iþ sözcük baþýndaki ünsüz sayýsýnýn birden fazla olup olmadýðýnýn bulunmasýdýr. Eðer bu sayý birden fazla ise sözcüðün Türkçe olmadýðýna karar verilir. Örneðin "strateji", "tren" gibi sözcükler dilimize yabancý dillerden girmiþ olan sözcüklerdir ve yapýlan bu denetim ile bu sözcüklerin Türkçe olmadýðý kolay bir þekilde ortaya çýkarýlýr. Aslýnda bu yabancý sözcükleri seslendirirken iki ünsüz arasýna bir ünlü koyduðumuz da bir gerçektir. Örneðin "tren" sözcüðünü "tiren" biçiminde seslendiririz. Ancak her nedense yabancý dildeki biçiminde yazmaya devam ederiz. Þekil-1.10 sözcük baþýndaki ünsüz harf sayýsýnýn denetimine iliþkin akýþ diyagramýný göstermektedir. Baþla Ýlk harfi oku E H Ünlü harf mi ? Ýkinci harfi oku E Ünlü harf mi? H Sözcük Türkçe Deðilidir SON Þekil-1.10: Sözcük baþý ünsüz harf sayýsý denetimi için akýþ diyagramý Yazým Hatalarýný Düzeltme 1.2.5.2 Sözcük Sonu Ünsüz Denetimi Sözcük sonundaki ünsüz harflerle ilgili Türkçede bulunan kurallar þu þekilde özetlenebilir: • Türkçe sözcüklerin sonunda b, c, d, g harfleri bulunamaz. • Türkçe bir sözcüðün sonunda ikiden fazla sayýda ünsüz harf bulunamaz. • Türkçe bir sözcük sonunda çift ünsüz bulunabilir. Bu durum için kurallar þu þekildedir: • Son harfi “ç, k, p, t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “l” harfi olabilir. Örneðin, ölç, "cýlk" gibi. • Son harfi “ç, k, t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “n” harfi olabilir. Örneðin; "kýskanç", "iðrenç" gibi. • Son harfi “ç, k, p, s, t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “r” olabilir. Örneðin; "bark", "Türk" gibi. • Son harfi “t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “s” olabilir. Örneðin; "üst" gibi. • Son harfi “t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “þ” olabilir. Örneðin; "hiþt" gibi. Yukarýda sýralanan kurallardan yola çýkýlarak sözcük sonundaki ünsüz harf denetlenir. Eðer bu harf b, c, d, g harflerinden biri ise sözcüðün Türkçe olmadýðýna karar verilir. Eðer sözcük bu kuralý saðlýyorsa bu durumda sözcük sonundaki ünsüz harf sayýsýna bakýlýr. Sözcük sonundaki ünsüz harf sayýsý ikiden büyük ise sözcüðün Türkçe olmadýðýna karar verilir. Sözcük sonundaki ünsüz harf sayýsý iki ise sondan bir önceki harfe bakýlýr. Bu harf “l” ise ve son harf “ç, k, p, t” harflerinden biri deðilse sözcük Türkçe deðildir. Benzer þekilde sondan bir önceki harf “n” ise ve son harf “ç, k, t” harflerinden biri deðilse sözcük Türkçe deðildir. Sondan bir önceki harf “r” ise ve son harf “ç, k, p, t, s” harflerinden biri deðilse sözcük Türkçe deðildir. Sondan bir önceki harf “s” veya “þ” ise ve son harf “t” deðilse sözcük Türkçe deðildir. Þekil-1.11 sözcük sonundaki ünsüz harf sayýsýnýn denetimine iliþkin akýþ diyagramýný göstermektedir. 1.2.5.3 Sözcük Ýçi Ünsüz Denetimi Türkçe bir sözcüðün içinde üç veya daha fazla sayýda ünsüz harf yan yana bulunamaz. Bu kuraldan yola çýkýlarak sözcük içinde yan yana bulunan ünsüz harf sayýsýnýn denetimi yapýlýr. Bunun için girilen sözcük ilk harfinden son harfine kadar taranýr ve sözcük içindeki yan yana bulunan ünsüz harf sayýsý hesaplanýr. Eðer bu sayý üçe eþit veya üçten büyük ise sözcük Türkçe deðildir. Þekil-1.12 sözcük içinde yan yana gelebilecek ünsüz sayýsýnýn denetimine iliþkin akýþ diyagramýný göstermektedir. Prof. Dr. Eþref Adalý Baþla Son harfi oku E Ünlü harf mi ? H E H Ünlü harf mi? Türkçe sözcüklerin sonunda b, c, d, g harfleri bulunamaz Önceki harfi oku E H Ünlü harf mi ? H SON E H H H Önceki harf “s ya da þ” mi? Önceki harf “ r ” mi? Önceki harf “l” mi? H Önceki harf “ n ” mi? Önceki harf “ç, k, t ” den biri mi? E Son harf “ ç, k, p, s, t “ den biri mi? E E Son harf “ç, k, p, t” den biri mi ? E E H E H H Son harf “ t “ mi? E Sözcük sonundaki çift ünsüz kuralýna uygun deðil SON Þekil-1.11: Sözcük sonu ünsüz harf sayýsý denetimi için akýþ diyagramý 1.2.5.4 Ünlü Uyumlarý Türkçe kelimelerde uyulmasý gereken en önemli özelliklerden biri de ünlü uyumu kuralýdýr. Öncelikle sözcük heceleme algoritmasý ile hecelerine ayrýlýr. Bundan amaç sözcük içindeki ünlü harf sayýsýný bulmaktýr. Türkçenin hece kalýplarýna göre Türkçe bir hecede mutlaka bir ünlü harf bulunmak zorundadýr. Dolayýsýyla Türkçe bir sözcükteki hece sayýsý ayný zamanda sözcük içindeki ünlü harf sayýsýný da verir. Ünlü uyumu algoritmasýnda izlenen yol þu þekildedir: Hece dizinlerinden yararlanýlarak sözcük içindeki ünlü harflerin dizinlerine eriþilir ve ilk ünlü harf okunur. Ýlk harf kalýn ünlü ise sonraki hecelerdeki tüm ünlü harflerin de kalýn ünlü olup olmadýðý denetlenir. Benzer þekilde ilk harf Yazým Hatalarýný Düzeltme Baþla Sözcükteki ünsüz harf sayýsýný bul E Ünsüz harf sayýsý >2 mi ? H Sözcükteki ünsüz harflerin sýra numarasýný dizide tut L= dizi sonu E Dizi(i-1)=Dizi(i-2)+1 mi ? Dizi(i)=Dizi(i-1)+1 mi ? H H L yi bir azalt E Sözcük içindeki ünsüz sayýsý ve ünsüzlerin diziliþi uygun deðildir E L = 0 mý ? H Sözcük içindeki ünsüz sayýsý ve ünsüzlerin diziliþi uygundur SON Þekil-1.12: Sözcük içindeki ünsüz harf sayýsý denetimi için akýþ diyagramý ince ünlü ise sonraki hecelerdeki tüm ünlü harflerin ince ünlü olup olmadýðý denetlenir. Eðer sözcük bu kurala uymuyorsa Türkçe deðildir veya dilimize yabancý dillerden girmiþtir. Sözcük bu kurallara uygunsa sözcüðün küçük ünlü uyumuna uyup uymadýðý denetlenir. Sözcüðün ilk ünlü harfi düz ünlülerden biri ise sonraki hecelerdeki ünlü harfler de düz ünlü olmalýdýr. Sözcüðün ilk ünlü harfi yuvarlak ünlülerden biri ise sonraki hecelerdeki ünlü harfler ya dar yuvarlak ya da düz geniþ olmalýdýr. Bu kurala uymayan sözcükler Türkçe deðildir veya dilimize yabancý dillerden girmiþlerdir. Prof. Dr. Eþref Adalý Þekil-1.13 büyük ünlü uyumu için, Þekil-1.14 ise küçük ünlü uyumu için akýþ diyagramýný göstermektedir. Baþla Sözcükteki hece sayýsýný bul E Hece sayýsý =1 mi ? H alrýfýs ýralçayaS SON Sözcükteki ilk harfi oku H H Sözcük sonuna gelindi mi ? E E Okunan harf ünlü harf mi ? H Kalýn ünlü sayacýný bir artýr E Ýnce ünlü mü ? Kalýn ünlü sayacý = 0 mý? E Ýnce ünlü sayacýný bir artýr Ýnce ünlü sayacý = 0 mý? H E E Hata H Sayaç deðeri hece sayýsýndan farklý mý? H Sözcük büyük ünlü uyumuna uygundur Sözcük büyük ünlü uyumuna uygun deðildir Sýradaki harfi oku SON Þekil-1.13 Büyük ünlü uyumu akýþ diyagramý 1.2.5.5 Ünsüz Uyumu Türkçe sözcüklerde ünsüzler açýsýndan da bir uyum söz konusudur. Bu kurala uygun olarak geliþtirilen algoritma sözcük içindeki ünsüz harfler sýrasýyla taranmakta ve ele alýnan ünsüz harfin bir sonraki ünsüz harf ile uyumlu olup olmadýðýnýn denetimi yapýlmaktadýr. Buna göre ele alýnan ünsüz harf sert ünsüzlerden biriyse ve bir sonraki ünsüz harf de sert ünsüz harflerden veya sert karþýlýðý bulunmayan yumuþak ünsüz harflerden biri deðilse sözcük Türkçe deðildir veya yabancý kökenli bir sözcüktür. Ele alýnan ünsüz harf sert karþýlýðý bulunan yumuþak ünsüzlerden biri ise ve bir sonraki ünsüz harf sert ünsüz ise sözcük Türkçe deðildir veya yabancý dillerden dilimize girmiþ bir sözcüktür. Þekil-1.15 ünsüz uyumu için akýþ diyagramýný göstermektedir. Yazým Hatalarýný Düzeltme Baþla Sözcüðü hecelere ayýr E Hece sayýsý =1 mi ? H Ýlk hecedeki ünlü harfi oku SON E Düz ünlü mü ? H Sonraki hecedeki ünlü harfi oku E H Tüm heceler okundu mu? E Sözcük küçük ünlü uyumuna uymaktadýr Düz ünlü mü? Ýlk hecedeki ünlü harfi oku E H Geniþ ünlü mü ? H Düz ünlü mü ? E E E H Dar ünlü mü ? H Tüm heceler okundu mu? H Sözcük küçük ünlü uyumuna uymuyor SON Þekil-1.14: Küçük ünlü uyumu akýþ diyagramý 1.2.5.6 Ses Bilimi Açýsýndan Sözcük Denetimi Ses bililimi açýsýndan Türkçe metin denetimi için yapýlmasý gereken denetimlerin dýþýnda kalan denetimler sözcük denetleme bölümünde ele alýnmaktadýr. Bunlar ünsüz yumuþamasý ve ünlü düþmesi durumlarý için yapýlan denetimlerden oluþur. Prof. Dr. Eþref Adalý Baþla Sözcükteki ilk ünsüz harfi oku E Sert ünsüz mü ? Sýradaki ünsüz harfi oku E Sert ünsüz mü ? H Tüm ünsüz harfler okundu mu ? Sert karþýlýðý bulunan yumuþak ünsüz mü? E Sonraki ünsüz harfi oku H E H H Sert karþýlýðý bulnmayan yumuþak ünsüz mü? H E H Sert karþýlýðý bulnmayan yumuþak ünsüz mü? Sert karþýlýðý bulunan yumuþak ünsüz mü? E E H Tüm ünsüz harfler okundu mu ? H E Sözcük ünsüz uyumuna uymaktadýr Sözcük ünsüz uyumuna uymuyor SON Þekil-1.15: Ünsüz uyumu akýþ diyagramý 1.2.5.6.1 Ünsüz Yumuþamasý Denetimi Bu bölümde yapýlan denetim ünlü ile baþlayan bir ek aldýðýnda ünsüz yumuþamasýna uðramasý gereken bir sözcüðün bu deðiþime uðrayýp uðramadýðýnýn denetlenmesi þeklindedir. Daha önce belirtildiði gibi sözlük içerisinde sözcükler etiketlendiði için bu denetimin yapýlmasýnda sözlükte bulunan etiketlerden yararlanýlmaktadýr. • Ünsüz yumuþamasý denetimi için geliþtirilen algoritma þu þekilde çalýþmaktadýr: • Girilen sözcüðün ilk olarak kökü bulunur ve bulunan kök sözlükte aranýr. • Sözlükte bu kök sözcüðe ait etiketlenmiþ özel bir durum olup olmadýðýnýn denetimi yapýlýr. Yazým Hatalarýný Düzeltme • Eðer sözcük için özel durum olarak yumuþama etiketi bulunmuyorsa bu sözcük için ünsüz yumuþamasý durumu söz konusu deðildir. Aksi durumda ise sözcük ünsüz yumuþamasýna uðrayan özelliðe sahip olduðundan dolayý sözcüðün almýþ olduðu eke bakýlýr. • Sözcük birden fazla ek almýþ olabilir ancak ünsüz yumuþamasý için bakýlmasý gereken ek sözcüðün almýþ olduðu ilk ektir. Ýlk ek ünlü harf ile baþlayan bir ek deðilse denetlenmesi gereken durum oluþmamýþ demektir. Ancak ilk ek ünlü harf ile baþlayan bir ek ise bu durumda sözcüðün ünsüz yumuþamasý kurallarýna uygun bir þekilde yumuþamaya uðrayýp uðramadýðýnýn denetimi yapýlýr. • Bu denetim sonucuna göre eðer yumuþama Türkçe ses bilgisi kurallarýna uygun olarak gerçekleþtirilmiþse hata durumu oluþmamýþtýr. • Hata durumunun oluþtuðu durumda ise Türkçe ses bilgisi kurallarýna uygun olarak ünsüz yumuþamasý iþlemi gerçekleþtirilir ve böylece yanlýþ yazýlmýþ olan sözcük düzeltilmiþ olur. Ünsüz yumuþamasý algoritmasýnýn iþleyiþi þu örnekle daha iyi açýklanabilir: • Girilen sözcük “kitapýmdakiler” sözcüðü olmak üzere yukarýda anlatýlmýþ olan iþlemler adým adým yürütülür. Öncelikle sözcüðün kökü olan “kitap” sözcüðü bulunur. Bu kök sözlükte aranýr ve yumuþama etiketine sahip olduðu bulunur. • Yumuþama özel durumuna sahip olduðundan dolayý sözcüðe eklenen ilk ekin ünlü harf ile baþlayýp baþlamadýðý denetlenir. Bu ek (-ým) ünlü harf ile baþladýðýndan dolayý sözcük sonundaki "p" harfinin Türkçe ses bilgisi kurallarý gereðince ünsüz yumuþamasýna uðramasý gerekmektedir. Ancak girilen sözcüðün bu kurala uymadýðý için sözcüðün yanlýþ yazýlmýþ olduðuna karar verilir ve sözcük sonundaki “p” harfinin yerine “b” harfi getirilerek sözcüðün ünsüz yumuþamasý kuralýna uygun olarak doðru yazýlmasý saðlanýr. Þekil-1.16 ünsüz yumuþamasý denetimi için akýþ diyagramýný göstermektedir. 1.2.5.6.2 Ünlü Düþmesi Denetimi Bu bölümde yapýlan denetim ünlü ile baþlayan bir ek aldýðýnda ünlü düþmesine uðramasý gereken bir sözcüðün bu deðiþime uðrayýp uðramadýðýnýn denetlenmesi þeklindedir. Türkçede ünlü düþmesi iki heceli sözcüklerde görülen bir ses deðiþimi olduðu için bu denetim için gerçeklenen algoritmada ilk olarak sözcük içindeki hece sayýsý bulunur. Hece sayýsý iki ise ilk ve ikinci hecelerin açýk veya kapalý hece olup olmadýðýnýn denetimi yapýlýr. Eðer ilk hece açýk, ikince hece kapalý hece ise sözcükte ses düþmesi durumu olabilir. Türkçede ünlü düþmesi ikinci hecesinde dar ünlü bulunan sözcüklerde olduðu için bundan sonraki aþamada ikinci hecedeki ünlü harfin dar ünlü olup olmadýðýnýn denetimi yapýlýr. Eðer ikinci hecedeki ünlü harf dar ünlü ise sözcük kökü alýnýr ve sözlükte ünlü düþmesi etiketine sahip olup olmadýðýnýn Prof. Dr. Eþref Adalý Baþla Sözcük kökünü bul Kökü sözlükte ara H Kök sözlükte var mý ? Sözcük öner E E E Özel durum yumuþama mý? Sözlüðün özel durumu var mý? H H Sözcüðün aldýðý ilk eki bul E H Sözcük yumuþamaya uðramýþ mý? Ek ünlü harf ile mi baþlýyor ? H E Yumuþama kuralýna göre sözcüðün yazýmýný düzelt SON Þekil-1.16: ünsüz yumuþamasý algoritmasý akýþ diyagramý denetimi yapýlýr. Bu denetimin yapýlmasýndaki amaç sözcüðün ünlü düþmesine kesin olarak uðrayýp uðramayacaðýný belirleyebilmektir. Bundan önceki adýmlarda yapýlan denetimler sözcüðün çok büyük bir oranla ünlü düþmesine uðrayabileceðini gösterir ancak aykýrý durumlar söz konusu olduðundan dolayý kesin olarak söyleyemez. Örneðin, “beniz” sözcüðü iki heceli ve ikinci hecesinde dar ünlü bulunduran bir sözcüktür ve ünlü ile baþlayan bir ek aldýðýnda ikinci hecedeki ünlü harf düþer. Oysaki “deniz” Yazým Hatalarýný Düzeltme sözcüðünde durum farklýdýr. Bu sözcük de iki heceli olmasýna ve ikinci hecesinde dar ünlü barýndýrmasýna raðmen ünlü düþmesi kuralýndan etkilenmez. Dolayýsýyla bunun gibi aykýrý durumlarda oluþabilecek sorunlarý ortadan kaldýrmak için sözcük kökünün sözlükteki etiketine bakýlmasý yoluna baþvurulur. Sözlükte aranan kök sözcüðe ait ünlü düþmesi etiketi varsa sözcüðün bu kurala uygun olarak yazýlýp yazýlmadýðý denetlenir. Kurala uygun olarak yazýlmayan sözcüklerin ikinci hecesindeki ünlü harf silinir ve böylece yanlýþ yazýlmýþ olan sözcük Türkçe ünlü düþmesi kuralýna uygun olarak düzeltilmiþ olur. Þekil-1.17 ünlü düþmesi denetimine iliþkin akýþ diyagramýný göstermektedir. Baþla Sözcük kökünü bul Kök sözcükteki hece sayýsýný bul H E E E E Özel durum ses düþmesi mi? Kök sözcükte özel durum var mý? Ýkinci hecedeki ünlü harf dar ünlü mü? Ýkinci hece kapalý hece mi ? Ýlk hece açýk hece mi? Hece sayýsý = 2 mi? E H H H H H E Sözcüðün aldýðý ilk eki bul E H Sözcükte ünlü düþmesi olmuþ mu? Ek ünli harf ile mi baþlýyor ? H E Sözcüðü ünlü düþmesi kuralýna göre düzenle SON Þekil-1.-17: Ünlü düþmesi algoritmasý akýþ diyagramý Prof. Dr. Eþref Adalý 1.2.6 Sözcük Önerme Bu çalýþmada sözcük önerme iþlemi iki farklý durum için yapýlmaktadýr: • Sözlükte bulunan sözcükler için önerme • Sözlükte bulunamayan sözcükler için önerme Þekil-1.18 sözcük önerme durumunÞekila iliþkin genel akýþ diyagramýný göstermektedir. Baþla Sözcüðe Türkçe denetimi uygula H Sözcük denetimden geçti mi? E Türkçe karþýlýk dosyasýnda sözcüðü ara E E Türkçe karþýlýðýný öner Sözcüðün Türkçe karþýlýðý var mý? Sözcük bulundu mu? H Sözcük yanlýþ yazýlmýþ ya da yabancý sözcük H Öneri yok Sözcük için öneri yap Sözcüðü ünlü düþmesi kuralýna göre düzenle SON Þekil-1.18: Sözcük önerme algoritmasý akýþ diyagramý 1.2.6.1 Sözlükte Bulunan Sözcükler Ýçin Önerme Sözlükte bulunan sözcükler için önerme iþlemi, Türkçeye yabancý dillerden girmiþ sözcükler için gerçekleþtirilen bir iþlevdir. Bu sözcükler TDK güncel sözlüðü temel alýnarak oluþturulan ve bu çalýþma kapsamýnda kullanýlan sözlük içerisinde bulunmaktadýr. Bu sözcüklerin Türkçede karþýlýklarý bulunduðundan dolayý sözcük önerme iþlevi çalýþmaya katýlmýþtýr. Amaç dilimize özellikle Batý dillerinden girmiþ olan sözcüklerin yerine var olan Türkçe karþýlýklarýnýn Yazým Hatalarýný Düzeltme kullanýlmasýný teþvik etmek ve bu sayede Türkçe karþýlýklarý bulunan yabancý sözcüklerin özellikle gündelik hayatta kullanýmýnýn azaltýlarak dilimize yerleþmesinin önlenmesine yardýmcý olmaktýr. Bu amaçla oluþturulan “Türkçe Karþýlýk” sözlüðünde Türkçe karþýlýðý bulunan sözcüklerin yanýna “-” iþareti konulduktan sonra var olan Türkçe karþýlýklarý yazýlmýþtýr. Örneðin "agresif" sözcüðünün sözlükteki görünümü “agresif – saldýrgan” þeklindedir. Önerme iþleminin yapýlabilmesi için öncelikle girilen sözcüðün Türkçe olmadýðýnýn veya Türkçeye yabancý dillerden girmiþ bir sözcük olduðunun saptanmasý gerekir. Bunun için de Bölüm-2.5'te anlatýlan Türkçe denetimi yapýlýr. Sözcük bu kapsamdaki denetimlerden en az birine uymuyorsa sözcük kökü Türkçe Karþýlýk sözlüðünde aranýr ve bulunduðunda “-” iþaretinin yanýnda yazan sözcük okunur ve kullanýcýya öneri olarak sunulur. Aranan sözcük bulunamazsa öneri yapýlmaz. Önerme iþleminde amaç, ilk paragrafta da belirtildiði gibi Türkçeye baþka dillerden girmiþ olup Türkçe karþýlýðý bulunan sözcükler için öneri yapmaktýr. Örneðin; “analiz” sözcüðü dilimize Fransýzcadan girmiþ bir sözcüktür ve bu sözcüðün yerine “çözümleme” sözcüðü önerilebilir. Ancak “kitap” sözcüðü için durum farklýdýr. Dilimize Arapçadan girmiþ olan bu sözcük Türkçe denetimi esnasýnda ünlü uyumuna uygun olmadýðýndan dolayý Türkçe Karþýlýk sözlüðünde aranýr; fakat bu sözcük dilimize yerleþmiþ bir sözcük olduðundan ve bu sözcüðün yerini tutan baþka bir sözcük dilimizde bulunmadýðýndan dolayý “kitap” sözcüðü için öneri yapýlmaz. Dolayýsýyla bu örneklerden de anlaþýlacaðý üzere Türkçe denetimini geçemeyen her sözcük için öneri yapýlmasý söz konusu deðildir; sadece Türkçe karþýlýðý bulunanlar için öneri yapýlýr. 1.2.6.2 Sözlükte Bulunmayan Sözcükler Ýçin Önerme Sözlükte bulunmayan sözcükler için önerme iþlemi kullanýcýnýn sözcüðü yanlýþ yazmýþ olma olasýlýðý göz önüne alýnarak gerçekleþtirilmiþtir. Ancak sözcük doðru yazýlmýþ ise ve sözlükte yer almýyor ise bu sözcüðün Türkçe bir sözcük olmadýðý anlamýna gelir. Bunun için ilk olarak girilen sözcüðün Türkçe harfler dýþýnda bir harf içerip içermediði denetlenir. Örneðin "x ve w" karakterlerini içeren sözcükler Türkçe olamayacaðý için bu sözcükler için öneri yapýlmaz ve uyarý verilir. Bu karakterleri içermeyen ve sözlükte bulunmayan sözcükler için öneri yapýlýr. Sözcük önermede kullanýlan kök bulma algoritmasý Bölüm-2.3'te anlatýlan kök bulma algoritmasýna oldukça benzerdir. Bu kök bulma algoritmasýnda aðaç üzerinde ilerlerken karþýlaþýlan tüm aday kökler toplanýr. Giriþ sözcüðü ile aðaç üzerinde ilerlerken oluþturulan kök sözcükler arasýnda harf uyuþmamasý durumu yoktur. Ancak sözcük önerme amacýyla kullanýlan kök bulma algoritmasýnýn temeli, girilen sözcük ile aðaç üzerinde ilerlerken oluþturulan sözcük arasýndaki farklý harf sayýsýnýn en az olmasýna dayanýr. Dolayýsýyla burada hata mesafesinin (farklý harf sayýsýnýn) tanýmlanan deðerden az olmasý durumunu saðlayan tüm aday kökler aðaç üzerinde ilerlerken toplanýr. Örneðin hata mesafesi bir olacak þekilde tanýmlanmýþ ise girilen sözcük ile aðaç üzerinde ilerlerken oluþturulan sözcük arasýndaki farklý harf sayýsý bir olan tüm sözcükler aday olarak alýnýr ve kullanýcýya önerilir. Bunu gerçeklemek amacýyla kullanýlan algoritma “Damerau-Levenshtein Edit Distance” algoritmasýdýr. Prof. Dr. Eþref Adalý Damerau-Levenshtein Edit Distance algoritmasý Damerau ve Levenshtein’in yazým hatalarý üzerinde çalýþýrken oluþturduklarý bir algoritmadýr. Bu algoritmanýn yaygýn olarak kullanýldýðý alanlar, yazým hatalarýnýn denetimi, konuþma tanýma ve DNA çözümlemesi alanlarýdýr. Damerau-Levenshtein uzaklýðý algoritmasý bir katarý diðer bir katara çevirebilmek için gerekli olan iþlem sayýsýný hesaplayan bir yöntemdir. Burada iþlemden kastedilen bir harf ekleme, bir harf çýkarma, bir harfin yerine baþka bir harf koyma veya yan yana olan iki harfin sýrasýný deðiþtirmektir. Bir katarý diðerine çevirebilmek için bu dört iþlem arasýnda çeþitli sayýda çözümlemeler olabilir. En az sayýda iþlem yaparak oluþturulan çözüm iki sözcük arasýndaki uzaklýðý verir [5]. Buradan hareketle x ve y karþýlaþtýrýlacak iki katar olmak üzere, Damerau-Levenshtein uzaklýðý þu þekilde formülleþtirilebilir: DLD(x,y) = min(i) (#E(i) + #Ç(i) + #S(i) + #T(i) ) Bu formülde #E(i) harf ekleme sayýsýný, #Ç(i) harf çýkarma sayýsýný, #S(i) bir harfin yerine baþka bir harf koyma sayýsýný ve #T(i) yan yana olan iki harfin sýrasýný deðiþtirme sayýsýný göstermektedir. Þekil-1.19'da Damerau-Levenshtein Edit Distance algoritmasýnýn sözde kod ile gösterilimi görülmektedir. Burada "str1" ve "str2" aralarýndaki DLD uzaklýðý bulunacak katarlarý ve "lenStr1" ve "lenStr2" bu katarlarýn uzunluklarýný göstermektedir. DLD algoritmasýnýn kullanýmýný bir örnekle açýklamak yararlý olacaktýr. str1 = “OT” ve str2 = “OST” olmak üzere bu iki katar arasýndaki DLD uzaklýðý; DLD (str1, str2) = 1'dir. Çünkü str1 katarýnýn str2 katarýna dönüþmesi için gereken iþlem bir karakter çýkarma iþlemidir. str1 = “OST” ve str2 = “TO” olmak üzere bu iki katar arasýndaki DLD uzaklýðý; Þekil-1.19: DLD algoritmasýnýn sözde kod ile gösterilimi Yazým Hatalarýný Düzeltme DLD (str1 , str2) = 3'tür. Çünkü str1 katarýndan str2 katarýný elde etmek için bir çýkarma iþlemi yapýlmalýdýr ve buna ek olarak yan yana olan iki harfin sýrasý deðiþtirilmelidir. Örneklerden de görüldüðü gibi katarlar arasýndaki farklýlýklar çoðaldýkça DLD uzaklýðý artar. 1.2.7 Baþarým Bu çalýþmanýn baþarýmýný ölçmek amacýyla yapýlan sýnama iþleminde kaynak olarak E. Adalý’nýn “Mikroiþlemciler Mikrobilgisayarlar” kitabý kullanýlmýþtýr. Sýnama verisi olarak bu kaynaðýn kullanýlmasýnýn nedeni kaynaðýn Türkçe açýsýndan doðruluðuna güvenilebilir bir kaynak olmasýdýr. Ayrýca kaynak Ýngilizce terimler de içermektedir ve bu da sýnama verisi olarak yeðlenmesinin bir baþka nedenidir. 1.2.7.1 Sýnama Verisinin Hazýrlanmasý Sistem, sýnama verisi olarak metin hâlindeki dosyalarý giriþ olarak kabul etmektedir. Bu nedenle ilk olarak sýnama verisi olan kaynak "txt" uzantýlý dosya þekline dönüþtürülmüþtür. Bundan sonraki aþama ise sýnama verisi üzerinde hatalar oluþturmaktýr. Oluþturulan hatalar; • Kök sözcüðün yanlýþ yazýlmasý • Eklerin kök sözcüðe yanlýþ ulanmasý • Sözcüklerdeki Türkçe ses kurallarýna uygunluðun bozulmasý þeklinde oluþturulmuþtur. Oluþturulan hatalara örnek olarak, “buyrukun”, “gerekmektirmaktaydý”, “uclarýna”, “bilgsayarlarda” sözcükleri verilebilir. Bu þekilde oluþturulan hatalarý içeren sýnama verisi sisteme girdi olarak verilmiþ ve sistemin baþarýmý ölçülmüþtür. 1.2.7.2 Sýnama Sonuçlarý ve Sistemin Baþarýmý Sýnama verisi üzerinde toplam 304 tane sözcükte hata oluþturulmuþtur. Oluþturulan hatalara iliþkin sayýsal veriler Çizelge-1.1'de verilmiþtir. Tablodan da görüleceði gibi 304 sözcük üzerinde oluþturulan hatalarýn 281 tanesi sistem tarafýndan algýlanmýþtýr. Sistem hatalý olduðunu algýladýðý 281 sözcüðün 268 tanesi için öneri üretebilmiþtir. Sistemin üretmiþ olduðu 268 önerinin 253 tanesi gerçekte yazýlmak istenen sözcüðü de içermektedir. Çizelge-1.1 Yazýlým Sýnama Sonuçlarý Sözcük sayýsý Oluþturulan hata sayýsý algýlanabilen hata sayýsý Öneri üretilen hatalý sözcük sayýsý Üretilen önerilerin gerçek sözcüðü içeren miktarý 304 281 268 253 Prof. Dr. Eþref Adalý Çizelgeden elde edilen verilerle sistemin hatalý sözcükleri bulmada %92, hatalý sözcükler için öneri yapmada %95, yapýlan önerilerin gerçek sözcüðü içermesinde %94 baþarýma sahip olduðu söylenebilir. Sistem bilerek oluþturulan 304 hatanýn dýþýnda 309 sözcüðü daha hatalý olarak yorumlamýþtýr. Bu 309 sözcükten 166'sý gerçekten yanlýþ yazýlmýþ sözcüklerdir. 107 tanesi Ýngilizce sözcüktür. Kalan 36 sözcüðün 20 tanesi TDK sözlüðünde yer almamaktadýr (bipolar, osilatör, diyot vb). 16 sözcük ise sistemin biçim bilimsel çözümleme hatalarýndan kaynaklanarak bulmuþ olduðu hatalý sözcükleri kapsamaktadýr. KAYNAKLAR [1] Adalý, E ve Büyükkuþçu, Ý., 2006. Heceleme Yöntemiyle Kök Sözcük Üretme, Türkiye Biliþim Vakfý Bilgisayar Bilimleri ve Mühendisliði Dergisi, 02, 25-29. [2] Dembitz, S., Knezevich, P. and Sokele, M., 2004. Developing A Spell Checker As An Expert System, Journal Of Computing And Information Technology, 04, 285-291. [3] Dembitz, S., Knezevich, P. and Sokele, M., 1998. Hascheck – the Croatian Academic Spelling Checker, In th Proceedings of 18 Annual International Conference of The British Computer Society Specialist Group on Expert System, Cambridge, UK, December 1998, p. 184-198. [4] Dhanabalan, T., Parthasarathi, R and Geetha, T. V., 2003. Tamil Spell Checker, Tamil Internet 2003, Chennai, Tamilnadu, India. [5] Gregory, V. B., 2007. Spelling-Error Tolerant, Order-Independent Pass-Phrases via The Damerau-Levenshtein String-Edit Distance, 2007 Australasian Information Security Workshop Privacy Enhancing Technologies, Ballarat, Australia. [6] Güzey, C. ve Oflazer, K., 1994. Spelling Correction in Agglutinative Languages, Bilkent University Department Of Computer Engineering and Information Systems Technical Report, BU-CEIS-94-01, Ankara, Turkey. [7] Oflazer, K. ve Solak, A., 1992. Parsing Agglutinative Word Structures And Its Application to Spelling Checking th for Turkish, In Proceedings of the 15 International Conference On Computational Linguistics, Nantes, France, August 23-28, p. 39-45. [8] Oflazer, K., 1993. Two-level Description Of Turkish Morphology, In Proceedings of the Sixth Conference Of The Europen Chapter Of The Assotiation For Computational Linguistics, Utrecht, Netherlands, April 1993. [9] Ankara. Solak, A., 1991. Design And Implementation of A Spelling Checker For Turkish, M.S. Thesis, Bilkent University, 2. Bul ve Deðiþtir Prof. Dr. Eþref ADALI Bul ve deðiþtir iþlevleri çoðunlukla birlikte kullanýlan iþlevlerdir. Bul iþlevi sadece aranan metin içindeki bir sözcük veya harf dizisini bulma amaçlý tek baþýna kullanýlabilirken deðiþtir iþlevi bulunan sözcüðün yerine baþka sözcüðü yerleþtirir. Günümüzde yaygýn olarak kullanýlan yazým programlarý içinde bulunan "Bul ve Deðiþtir" iþlevleri genellikle bükümlü diller için geliþtirilmiþ olduðundan Türkçe gibi bitiþken diller için yeterli deðildir. Ek zengini olan Türkçede bul ve deðiþtir dediðimiz, aslýnda sözcüðün kökü ve ekleridir. Ekler, Türkçenin dil bilgisi kurallarýna göre þekillendiðinden deðiþtirme iþlemi yaparken eklerin yeni köke uygun olarak biçimlenmesi gerekir. Bu kurallarýn en önde gelenleri büyük ve küçük ünlü uyumlarýdýr. Bul ve deðiþtir iþlevi sýrasýnda karþýlaþýlan bir baþka sorun sözcük sonundaki ünsüzlerin deðiþmesidir. Özellikle Arapçadan dilimize girmiþ olan sözcüklerde bu sorunla karþýlaþýlýr. Örneðin; ilkel bul ve deðiþtir programlarý kullanýldýðýnda, metin içerisinde “kitap” sözcüðü aranýp yerine “defter” sözcüðü konulmak istendiðinde, metindeki “kitaplarýmýzdan” sözcüðü “defterlarýmýzdan” hâlini alacaktýr. Oysaki defter sözcüðü kurallý bir sözcükken “defterlarýmýzdan” sözcüðü ne anlamca ne yapýca doðru bir sözcük deðildir. Bu ve bunun gibi dilin kurallarýna aykýrý sorunlarý çözebilmek için Türkçe için özel bir bul ve deðiþtir iþlevine gereksinim duyulmaktadýr. Kurallara göre “kitap”“defter” deðiþikliði “kitaplarýmýzdan” yerine “defterlerimizden” seklinde olmalýdýr. Türkçe bul ve deðiþtir iþlevi için karþýlaþýlan sorunlar aþaðýda açýklanmýþtýr. 2.1 Türkçe için Bul Ýþlevinde Karþýlaþýlan Sorunlar Türkçenin ses özellikleri nedeniyle bazý sözcükler aldýklarý eklere göre deðiþikliðe uðrar: • Sonu “p, ç, t, k” sert süreksiz ünsüzleri ile biten sözcükler ünlü bir harf ile baþlayan ek aldýklarýnda “b, c, d, g” ve “ð” harflerine dönüþürler. “kitap” sözcüðü “-ým” 1. kiþi iyelik eki aldýðýnda “kitabým” hâlini alýr. Bul ve deðiþtir iþlevi bul aþamasýnda “kitap” sözcüðünü aradýðýndan “kitabým” sözcüðünün içindeki ayný anlama sahip kýsmý bulamamaktadýr. Bu gibi durumlardan kurtulabilmek için “kitap” sözcüðü aranýrken “kitab”, “aðaç” sözcüðü aranýrken “aðac”, “kepenk” sözcüðü aranýrken “kepeng” sözcüðünün de aranmasý saðlanmalýdýr. Prof. Dr. Eþref Adalý • Bazý Türkçe sözcükler ek aldýklarýnda ünlü düþmesine uðrarlar. Bu tür sözcükler için “oðul”, “gönül”, “burun”, “asýr” sözcükleri örnek verilebilir. Bu sözcükler ünlü ile baþlayan ekler aldýklarýnda “oðul”+"um"à “oðluma”, "gönül"+"ümden"à “gönlümden”, “burun”+"um"à“burnum”, “asýr”+"a"à“asra” hallerini almaktadýr. Dolayýsýyla bu sözcüklerin ek almadan önceki hâlleri arandýðýnda deðiþikliðe uðramýþ hâlleri bulunamaz. Deðiþmiþ hâlleri de arama aþamasýnda göz önüne alýnmalýdýr. Yani “oðul” ve “oðl”, “gönül” ve “gönl”, “burun” ve “burn", “asýr” ve “asr” ikilileri aramaya dâhil edilmelidir. • Bazý eylem köklü sözcüklere “yor” eki eklendiðinde eylem soylu sözcükte deðiþimler olur. “anla” eylem soylu sözcüðüne “yor” eki eklendiðinde “anla+yor” yerine “anlýyor” hâline dönüþ olur. Bir sözcükte düz - geniþ ünlülerden (a, e) sonra “yor” eki gelirse, bu ünlüler darlaþarak (ý, i, u, ü) ünlülerine dönüþür. Bu olaya ünlü daralmasý denir. Bulunmak istenen sözcüðün “anla” olmasý durumunda “anlýyor” sözcüðü yakalanamayýp yanlýþ sonuca neden olunur. Aramaya bu durum eklenmelidir. 2.2 Türkçe için Deðiþtir Ýþlevinde Karþýlaþýlan Sorunlar Deðiþtir iþlevinde Türkçenin sondan eklemeli bir dil olmasýndan kaynaklanan bazý bazý sorunlarla karþýlaþýlmaktadýr. • Sözcük köklerinin aldýðý ekler kökün sahip olduðu bazý ses özelliklerine göre deðiþiklik göstermektedir. Örneðin : “kedi” sözcüðüne çoðul anlam katmak için “-ler” eki kullanýlýrken ; “tavþan” sözcüðüne “-lar” eki kullanýlýr. “kedi” sözcüðüne 1. tekil iyelik anlamý katmak için “-m” eki kullanýlýrken ; “tavþan” sözcüðüne “-ým” eki kullanýlýr. Bu eklerin deðiþimi eklendikleri sözcüðün son harfinin ünlü – ünsüz oluþuna, sözcüðün son ünlü harfinin kalýn – ince oluþuna göre düzenlenir. “kedi” sözcüðü son harfinin ünlü olmasý ve son ünlüsünün ince olmasý nedeniyle 1. tekil iyelik ekini “m” olarak , “tavþan” sözcüðü son harfinin ünsüz olmasý ve son ünlüsünün kalýn olmasý nedeniyle 1. tekil iyelik ekini “ým” olarak alýr. Bu deðiþiklikler göz ardý edildiðinde ilkel Bul ve Deðiþtir iþlevi aþaðýdaki gibi yanlýþ sonuçlar vermektedir. “Ahmet bugün yeni kedisini parkta kedilerle oynamaya götürdü.” “Ahmet bugün yeni tavþansini parkta tavþanlerle oynamaya götürdü.” Bul ve Deðiþtir Bu deðiþiklikler göz önüne alýnýp bir çözümleme yapýldýðýnda Bul ve Deðiþtir iþlevi aþaðýdaki gibi doðru sonuçlanmaktadýr. “Ahmet bugün yeni tavþanýný parkta tavþanlarla oynamaya götürdü.” • Bul iþlevinde de deðindiðimiz p,ç,t,k sert süreksiz ünsüzler ile biten sözcükler Deðiþtir iþlevinde de sorunlara neden olmaktadýr. Özellikle sözcük ünlü ile baþlayan bir ek de almýþ ise sorunla karþýlaþýlmaktadýr. Örneðin; “defterimden” sözcüðünde “defter” sözcüðü yerine “kitap” konulmasý gerektiðinde “kitap-imden” çözümlemesi yanlýþtýr. Ünlü harflerin kalýn olmasý göz önüne alýndýðýnda “kitap-ýmdan” çözümlemesi yapýlmaktadýr, fakat “kitap” sözcüðünün son harfinin “p,ç,t,k” sert süreksiz ünsüzlerinden biri olmasý sebebiyle sadece ince – kalýn ünlü kontrolü yeterli olamamaktadýr. Ünlü ile baþlayan ek almasý göz önüne alýnarak “kitap-ýmdan” yerine “kitab-ýmdan” çözümlemesi yapýldýðýnda doðru sonuç alýnabilmektedir. • Bul iþlevinde üzerinde durmuþ olduðumuz ünlü daralmasý konusu ayný zamanda Deðiþtir iþlevinde de sorunlara sebep olmaktadýr. “geliyoruz” sözcüðünde “gel” sözcüðünün yerine “anla” sözcüðü konulmak istendiðinde “anla+yoruz” yerine “anlý+yoruz” çözümlemesi doðru sonucu vermektedir. Ünlü daralmasý yaþayacak sözcükler için özel bir çözüm yapýlandýrýlmasý doðru olacaktýr. • p, ç, t, k, f, h, s, þ” sert ünsüzlerinden sonra “c, d, g” ünsüzleri ile baþlayan ek geldiðinde, eklerin ilk harflerinde “càç”, “dàt”, “gàk” deðiþiklikleri olur. Deðiþtir iþlevi “dönerci” sözcüðünde “döner” sözcüðünü bulup yerine “kebap” konulmasý iþlemini yapmaya kalktýðýnda “kebap+ci” çözümlemesi yanlýþ olacaktýr. “kebap” sözcüðünün son harfi “p, ç, t, k, f, h, s, þ” sert ünsüzlerinden biri olmasý sebebiyle “c” ile baþlayan ekin ilk harfi “ç” olacaktýr. Bu durumda “kebapçý” doðru çözümlemesi yapýlabilmiþ olacaktýr. 2.3 Yakýn Çalýþmalar Türkçe dýþýndaki bazý dillerde Bul ve Deðiþtir iþlevi doðru sonuç verebilmektedir. Örneðin; Ýngilizce için sayýsý beþi aþmayan bazý özel durumlar dýþýnda Bul ve Deðiþtir iþlevi doðru olarak yapýlabilmektedir. Orhan Bilgin, Özlem Çetinoðlu ve Kemal Oflazer tarafýndan Türkçe için hazýrlanmýþ ancak yayýmlanmamýþ olan “Efficient Find and Replace in Agglutinative Languages: The Case of Turkish” çalýþmasý yakýn bir çalýþma olarak bilinmektedir. Bu çalýþma bulunacak olan sözcüðü biçim bilimsel çözümleyicide iþleyerek, elde edilecek sonucu kullanarak yerine konulacak sözcüðü yapýlandýrmayý hedeflemektedir. Bu çalýþmada “dolabýný” sözcüðündeki “dolap” yerine “masa” sözcüðü konulmak istendiðinde ilk olarak “dolabýný” sözcüðü biçim bilimsel çözümleyicide çözümlenmektedir. biçim bilimsel çözümleyici þöyle iki sonuç üretmektedir: “dolap+Noun+A3sg+P2sg+Acc” ve “dolap+Noun+A3sg+P3sg+Acc” . Her iki Prof. Dr. Eþref Adalý çözümden elde edilen ekler “masa” sözcüðüne eklenerek “masa+Noun+A3sg+P2sg+Acc” à “masaný” ve “masa+Noun+A3sg+P3sg+Acc” à”masasýný” gibi iki ayrý sonuç bulunur. Böylece Bul ve Deðiþtir iþlevi gerçekleþtirilebileceði önerilmiþtir. Þekil-2.1'de “akýllýlýk” sözcüðü yerine “zekâ” sözcüðünün konulmasý ve geçilen aþamalar gösterilmiþtir. [4] akýllýlýktan Biçimbilimsel çözümleyici akýllýlýk + Dan (Abl) Biçimsel sözdizim eþleþtirici zekadan Biçimbilimsel üretici zeka + Dan (Abl) Þekil-2.1: “akýllýlýk” sözcüðünün “zeka” sözcüðü ile deðiþtirilmesinin aþamalarý 2.4 Yetkin Bul ve Deðiþtir Türkçe için gerekli olan Bul ve Deðiþtir çalýþmalarýndan biri F. Þentürk ve E. Adalý tarafýndan gerçekleþtirilmiþtir. Bu çalýþmanýn amacý "Türkçe Bul ve Deðiþtir" iþlevinin baþarýmýný en üst düzeye çýkarabilecek bir yöntem geliþtirmektir. Bu amaçla; • Verilen ölçütler doðrultusunda arama yapýlarak bul iþlevinin yapýlmasý, • Bul iþlevinin sonuç olarak verdiði verilerin kullanýlmasýyla bulunan sözcüðün yerine konulacak sözcüðün yapýlandýrýlmasý, • Baþarýlý bir þekilde bul ve deðiþtir iþlevinin yapýlmasý için çözüm bulunmaya çalýþýlmýþtýr. Bu amaçlar doðrultusunda bul ve deðiþtir iþlevi sýrasýnda karþýlaþýlmasý olasý sorunlar için çözümler bulunmuþtur. Türkçe sözcükler için oluþturulan ayrý sonlu durum makinelerinin birlikte çalýþarak hem eylem hem de ad soylu sözcükler için sonuca varabilmesi saðlanmýþtýr. Bilindiði gibi yapým eki içeren sözcüklerde deðiþtirme iþlemi yanlýþ sonuçlar üretmektedir. Bu nedenle sonlu durum makinelerinde bazý yapým eklerine yer verilmemiþtir. Bu eklerle kurulmuþ tüm sözcükler için biçim bilimsel çözüm bulunmuþtur. Bu çözümlerin sonuçlarýndan yararlanarak bul ve deðiþtir iþlevi gerçekleþtirilmiþtir. Bulunan sözcüðün ardýndaki ekler, eylem ve ad soylu sözcüklerin alabileceði ek kurallarýna göre çözümlenmiþtir. Türkçenin bitiþken bir dil olmasý nedeniyle bul ve deðiþtir iþlemi Türkçenin biçim bilimsel özellikleri göz önüne alýnarak gerçekleþtirilmiþtir. Bu nedenle, çalýþma kapsamýnda tüm çekim Bul ve Deðiþtir eklerinin ve bazý yapým eklerinin de aralarýnda bulunduðu bir ek kümesi için sonlu durum makineleri oluþturulmuþ ve bu sonlu durum makineleri kullanýlarak deðiþtir iþlevinin doðru çalýþabilmesi için zemin hazýrlanmýþtýr. Ad soylu sözcüklerin çekim ekleri ve ek eylem ekleri, eylem soylu sözcüklerin çekim ve zaman ekleri ve bunlara bazý yapým ekleri de eklenerek tüm sözcükler için sonlu durum makineleri oluþturulmuþtur. Tüm bu sonlu durum makinelerinin sanki tek bir parça gibi hareket edebilmesi için çözüm bulunmuþtur. Ýncelenen ek sayýsý toplamý 115'tir. Bu eklerin hangi tür sözcükler ile nasýl hareket ettikleri aþaðýda açýklanmýþtýr. 2.4.1 Ad Çekim Ekleri Ad çekim ekleri ad soylu sözcüklere eklenerek onlara tümcede görev ve anlam kazandýran eklerdir. Çoðul, iyelik, ilgi ve durum ekleri ad çekim eki olarak bilinir. Örneðin: "çocuklarýnki" sözcüðünde “çocuk” sözcüðü sýrasýyla “lar” çoðul, “ýn” iyelik ve "ki” ilgi eki almýþtýr. Þekil-2.2'de Ad çekim eklerinin ad köküne nasýl eklendiklerinin kurallarý -lHK,-cH,cHk 1 Ad kökü -lH,-sHz -lH,-sHz 2 Eylem kökü -lAr,0 -lArI Çoðul -(s)H -(H)m,-(H)n,-(H)mHz,-(H)nHz,0 Çýkýþ -lAS,-lA,lAn -nH,-(n)cA -n(y)H,-(n)cA 3 4 Ýyelik -(y)A,-DA,-DAn, -(n)Hn,-(y)lA,0 Ýyelik (3) -nA,-nDA,-nDAn, -(n)Hn,-(y)lA,0 5 0 Durum 1 0 -DA,(n)Hn 6 Durum 2 -ki -NA,-nDA,-nDAn -(n)Hn,-(y)lA,0 -lAr 7 ilgi -nDA,(n)Hn -nDA,(n)Hn Eylem kökü Þekil-2.2 : Ad çekim ekleri soldan saða sonlu durum makinesi [2], [4] Çýkýþ Çýkýþ Prof. Dr. Eþref Adalý görülmektedir. Bu þekle baðlý kalarak ad çekim ekleri için sonlu durum makinesi tasarlanmýþtýr. Çalýþma kapsamýnda ad köküne eklenen ekler soldan saða doðru olmak üzere incelenmiþtir. Bu sonlu durum makinesinde herhangi ad soylu bir sözcüðü kök ve eklerine ayýrabilmemiz mümkündür. Ad soylu sözcüklere eklenen ve ad çekim eki olarak tanýmlanan 19 ek ve 6 yapým eki için Þekil-2.3`teki sonlu durum makinesi çözüm saðlamaktadýr. Bu þekli daha matematiksel bir hâle dönüþtürerek bilgisayar sistemlerinin anlayabileceði bir þekle getirilmesi gerekmektedir. Bunun için öncelikle bu 19 ad çekim ekinin numaralandýrmasý ve ona göre þeklin yeniden yorumlanmasý saðlanmýþtýr. “0” numaralý geçiþler boþ geçiþleri ifade etmektedir. Þekil-2.3`te, Çizelge-2.1`deki ek katarlarýnýn yerine ek numaralarýnýn geliþi gösterilmiþtir (Yapým ekleri katar hâlinde gösterilmiþtir). Çizelge-2.1: Ad Çekim Eklerinin Numaralandýrýlmasý [2] Ek No: Ek Açýklama Örnek 1 –lAr Çoðul kedi-ler 2 –(H)m 1. tekil kiþi iyelik kedi-m 3 –(H)mHz 1. çoðul kiþi iyelik kedi-miz 4 –(H)n 2. tekil kiþi iyelik kedi-n 5 –(H)nHz 2. çoðul kiþi iyelik kedi-niz 6 –(s)H 3. tekil kiþi iyelik kedi-si 7 –lArI 1. çoðul kiþi iyelik kedi-leri 8 –(y)H -i hali kedi-yi 9 –nH -i hali (3.t.k. iyelikten sonra) kedi-ni 10 –(n)Hn Tamlama kedi-nin 11 –(y)A -e hali kedi-ye 12 –nA -e hali (3.t.k. iyelikten sonra) kedi-ne 13 –DA -de hali kedi-de 14 –nDA -de hali (3.t.k. iyelikten sonra) kedi-nde 15 –Dan -den hali kedi-den 16 –nDAn -den hali (3.t.k. iyelikten sonra) kedi-nden 17 –(y)lA birliktelik kedi-yle 18 –ki Ýlgi kedi-de-ki 19 –(n)cA Görelik kedi-ce Bul ve Deðiþtir 0 Eylem kökü 0,10,12 14,16,17 3 Ýyelik (3) -lAS -lA -lAn 9,19 5 Durum 1 0 6 Durum 2 0,10,12 14,15,17 0,7 1 Ad Kökü Ek eylem Çýkýþ 10,13 0,10,11 13,15,17 6 10,14 18 8 -lHk,-cH,-cHk 8,19 0,1 0,2,3,4,5 2 Çoðul 4 Ýyelik 7 Ýlgi 1 -lH,-sHz Þekil-2.3: Numaralandýrýlmýþ ad çekim ekleri soldan saða sonlu durum makinesi 2.4.2 Ek Eylem Ekleri Týpký eylemlerde olduðu gibi adlara da ek eylem ekleri ile zaman ve kiþi anlamlarý yüklenebilmektedir. Bu nedenle bu eklerin de incelenmesine gerek duyulmuþtur. Ek eylem eklerinin ad soylu sözcüklere eklenme kurallarý Þekil-2.4`te gösterilmiþtir. 5 Durum 1 0 -(y)DH,(y)sA -(y)mHþ 8 Ek eylem 1 -m,-n,0 -k,nHz,-lAr 9 Ek eylem 2 -(Y)Hm -sHn,0 -yHz þHnHz lAr -Hm,-sHn,0 -Hz,sHnHz,-lAr -DHr -(y)ken 11Ek eylem 3 -lAr,0 10 Ek eylem 2 kiþi -DHz,0 Çýkýþ Çýkýþ -cAsInA Çýkýþ Çýkýþ Çýkýþ Çýkýþ Þekil-2.4: Ek Eylem Ekleri soldan saða sonlu durum makinesi [2][4] Prof. Dr. Eþref Adalý Ad çekim eklerinde yapýldýðý gibi ek eylem ekleri için numaralandýrýlmýþ sonlu durum makinesi Çizelge-2.2`deki ek numaralarý yardýmýyla Þekil-2.5`te oluþturulmuþtur. Çizelge-2.2: Ek Eylem Eklerinin Numaralandýrýlmasý [2] Ek No: Ek Açýklama Örnek 1 –(y)Hm 1. tekil kiþi evde-yim 2 –sHn 2. tekil kiþi evde-sin 3 –(y)Hz 1. çoðul kiþi evde-yiz 4 –sHnHz 2. çoðul kiþi evde-siniz 5 –lAr 3. çoðul kiþi evde-ler 6 –m 1. tekil kiþi ((y)DH ve (y)sA eklerinden sonra ) evdeyse-m 7 –n 2. tekil kiþi ((y)DH ve (y)sA eklerinden sonra ) evdeyse-n 8 –k 1. çoðul kiþi ((y)DH ve (y)sA eklerinden sonra ) evdeyse-k 9 –nHz 2. çoðul kiþi ((y)DH ve (y)sA eklerinden sonra ) evdeyse-niz 10 –DHr çevrik kip evde-dir 11 –cAsInA tarz zarfý ev-cesine 12 –(y)DH di’li geçmiþ zaman evde-ydi 13 –(y)sA dilek-þart kipi evde-yse 14 –(y)mHþ miþ’li geçmiþ zaman evde-ymiþ 15 –(y)ken zaman zarfý evde-yken 12,13 5 14 10 0,5,6,7,8,9 8 0,1,2,3,4,5 9 10 11 0,10,11 Çýkýþ 0,5 0,1,2,3,4,5,15 Þekil-2.5: Numaralandýrýlmýþ Ek Eylem Ekleri soldan saða sonlu durum makinesi Bul ve Deðiþtir 2.4.3 Eylem Zaman Ekleri Eylem soylu sözcüklere zaman ve kiþi anlamlarý katan eklere eylem zaman ekleri denir. Þekil-2.6`da eylem zaman eklerinin eylem soylu bir sözcüðe hangi kurallara göre eklenebileceði görülmektedir. 1 Eylem kökü Olumsuz -mIþ,-(y)acak -(H)r,-Ar,(H)yor -mAktA,-mAlI -(y)A 2 Zaman tip II -lAr,0 -lAr 6 Kiþi I -cAsInA -(y)ken Çýkýþ 3 Zaman tip III -(y)Hm,-sHn,0 -yHz,-sHnHz,lAr 7 Kiþi II -DH,-sA 0 4 Zaman tip IV -(y)Hm,-sHn,0 -lIm,-sHnHz,lAr Çýkýþ 5 Zaman tip I 0,sHn,-(y)HnHz -(y)Hn,-sHnlAr Çýkýþ -M,-n,0,-k -nHz,lAr Çýkýþ -DHr,0 Çýkýþ -cAsInA -(y)DH -(y)sA 8 Bileþik z. I -(y)DH -(y)sA Çýkýþ 9 Bileþik z. II -(y)mHþ 10 Bileþik z. III -(y)mHþ 11 Zarf -m,-n,0,k -nHz,-lAr -(y)Hm,-Hn,0 -yHz,-sHnHz,lAr -cAsInA,0 Çýkýþ Çýkýþ Þekil-2.6: Eylem zaman ekleri soldan saða sonlu durum makinesi [2][4] Çizelge-2.3`teki eklerin numaralarý yardýmýyla eylem zaman ekleri için de týpký önceki 2 ek grubunda yapýldýðý gibi oluþturulmuþ numaralandýrýlmýþ solda saða sonlu durum makinesi Þekil-2.7`de görülmektedir. Prof. Dr. Eþref Adalý Çizelge-2.3 Eylem Zaman Eklerinin numaralandýrýlmasý [2] Ek No: Ek Açýklama Örnek 1 –(y)Hm 1. tekil kiþi gel-iyor-um 2 –sHn 2. tekil kiþi gel-iyor-sun 3 –(y)Hz 1. çoðul kiþi gel-iyor-uz 4 –sHnHz 2. çoðul kiþi gel-iyor-sunuz 5 –lAr 3. çoðul kiþi gel-iyor-lar 6 –mHþ miþ’li geçmiþ zaman gel-miþ 7 –(y)AcAk gelecek zaman gel-ecek 8 –(H)r geniþ zaman gel-ir 9 –Ar geniþ zaman gid-er 10 –(H)yor þimdiki zaman gel-iyor 11 –mAktA sürerlilik gel-mekte 12 –mAlI gereklilik gel-meli 13 –m 1. tekil kiþi gel-di-m 14 –n 2. tekil kiþi gel-di-n 15 –k 1. çoðul kiþi gel-di-k 16 –nHz 2. çoðul kiþi gel- di-niz 17 –DH di’li geçmiþ zaman gel-di 18 –sA dilek-þart kipi gel-se 19 –lIm 1. çoðul kiþi gel-e-lim 20 –(y)A istek kipi gel-e 21 –(y)HnHz 2. çoðul kiþi gel-iniz 22 –(y)Hn 2. tekil kiþi gel-in 23 –sHnlAr 3. çoðul kiþi gel-sinler 24 –DHr çevrik kip gel-miþ-ler-dir 25 –(y)DH hikaye bileþik zaman gel-miþ-ti 26 –(y)sA þart bileþik zaman gel-miþ-se 27 –(y)mHþ rivayet bileþik zaman gel-meli-ymiþ 28 –cAsInA tarz zarfý gel-miþ-cesine 29 –(y)ken zaman zarfý gel-miþ-ken Bul ve Deðiþtir 0,5 6 28,29 0,1,2,3,4,5 2 7 5 0,24 0,1,2,3,4,5,19 6,7,8,9 10,11,12 8 25,26 20 25,26 3 25,26 9 27 25,26 1 11 27 17,18 0 4 27 0,28 10 27 27 0,2,21,22,23 5 Olumsuz Çýkýþ 0,5,13,14,15,16 Þekil-2.7: Numaralandýrýlmýþ eylem zaman ekleri soldan saða SDM 2.4.4 Eylem Çekim Ekleri Eylem zaman ekleri bölümünde eylem soylu sözcüklere eklenen kiþi ve zaman ekleri açýklanmýþtýr. Bu eklerin dýþýnda da eylem soylu sözcüklere eklenen çekim ekleri vardýr. Bu bölümde eylem çekim ekleri olarak adlandýrdýðýmýz ekler tanýtýlacaktýr. Þekil-2.8`de eylem çekim eklerinin eylem soylu bir sözcüðe hangi kurallara göre eklenebileceði görülmektedir. Çizelge-2.4'te eylem çekim eklerinin numaralanmýþ hâli verilmiþtir. Prof. Dr. Eþref Adalý 0 1 Eylem kökü -(H)t -(H)n,0 Edilgen/ dönüþlü I 2 -(H)þ -(H)l,0 3 -DHr -DHr -DHr Ettirgen/ oldurgan 4 -(H)t -(H)l,0 -(H)l,0 Ettirgen/ oldurgan 5 Ýþteþ -(H)l,0 Edilgen/ dönüþlü II 6 -(H)n,0 Edilgen/ dönüþlü III 7 -mA -(y)Adur,-(y)Hver,-(y)Agel,-(y)Agör -(y)Abil,-(y)Ayaz,-(y)Akal,-(y)Akoy,0 -(y)AmA 8 Olumsuzluk I -m,-zsIn,-z,-yIz Çýkýþ -z -(y)Adur -(y)Hver -(y)Agel -(y)Agör 9 Olumsuzluk II 10 Karmaþýk eylem I -z -zsInIz,-IAr 0 -mAksIzIn -mAdAn -(y)Abil,0 11 Olumsuzluk Karmaþýk eylem II -mAk 12 -(y)ArAk -(y)HncA 14 13 Zarf I -DAn,0 -(y)Hp -(y)AlI -DHkçA Zarf II Mastar -DAn,-DA -(y)IA,-(y)A Çýkýþ -(y)HcH -mAzlHk -ma -(y)Hþ -(y)An -(y)AcAk Dhk -(y)AsH mHþ Ek Eylem -yA,0 Çýkýþ Þekil-2.8: Eylem Çekim Ekleri Soldan Saða Sonlu Durum Makinesi [2][4] Ýsim kökü Bul ve Deðiþtir Çizelge-2.4: Eylem Çekim Eklerinin numaralandýrýlmasý [2] Ek No: Ek Açýklama Örnek 1 –m 1. tekil kiþi gel-me-m 2 –zsIn 2. tekil kiþi gel-me-zsin 3 –z 3. tekil kiþi gel-me-z 4 –yIz 1. çoðul kiþi gel-me-yiz 5 –zsInIz 2. çoðul kiþi gel-me-zsiniz 6 –zlAr 3. çoðul kiþi gel-me-zler 7 –mA Olumsuzluk gel-me 8 –(y)AmA Olumsuzluk gel-eme 9 –(y)Adur sürerlik bileþik eylem kipi gel-edur 10 –(y)Hver tezlik bileþik eylem kipi gel-iver 11 –(y)Agel sürerlik bileþik eylem kipi ol-agel 12 –(y)Agör sürerlik bileþik eylem kipi gel-egör 13 –(y)Abil yeterlik bileþik eylem kipi gel-ebil 14 –(y)Ayaz yaklaþma bileþik eylem kipi gel-eyaz 15 –(y)Akal sürerlik bileþik eylem kipi don-akal 16 –(y)Akoy sürerlik bileþik eylem kipi al-ýkoy 17 –mAk Mastar gel-mek 18 –(y)HcH görev eki gör-ücü 19 –(y)Hp zarf eki gel-ip 20 –(y)AlI zarf eki gel-eli 21 –DHkçA zarf eki gel-dikçe 22 –(y)ArAk zarf eki gel-erek 23 –(y)HncA zarf eki gel-ince 24 –DAn zarf eki gör-erek-ten 25 –yA zarf eki gel-ince-ye 26 –(y)An sýfat fiil gel-en 27 –(y)AcAk fiilden isim yapma eki gel-ecek 28 –(y)AsI sýfat fiil gel-esi 29 –DHk sýfat fiil görül-dük 30 –mHþ sýfat fiil gel-miþ 31 –mAzlIk fiilden isim yapma eki gel-mezlik 32 –mA mastar eki gel-me 33 –(y)Hþ fiilden isim yapma eki gel-iþ Prof. Dr. Eþref Adalý 34 –DAn -den hali gel-me-den 35 –DA -de hali gel-me-de 36 –(y)lA Birliktelik gel-me-yle 37 –(y)A -e hali gel-me-ye 38 –mAksIzIn zarf eki gel-meksizin 39 –mAdAn zarf eki gel-meden 40 –(H)n Edilgen dönüþlü gör-ün 41 –(H)þ Ýþteþ gör-üþ 42 –(H)l Edilgen dönüþlü gör-ül 43 –DHr Oldurgan ol-dur 44 -(H)t Ettirgen oku-t Çizelge-3.4`teki eklerin numaralarý yardýmýyla eylem çekim ekleri için de týpký önceki 3 ek grubunda yapýldýðý gibi oluþturulmuþ numaralandýrýlmýþ solda saða sonlu durum makinesi Þekil-2.9`da görülmektedir. 34,35,36,37 Ek eylem 0,42 3 6 41 0,9,10,11,12 13,14,15 16 0,44 0,42 43 12 18 10 Ad kökü 17 0 26,27,28 29,30,31 32,33 38,39 1 0 7 0,40 0,42 2 44 43 0,42 5 8 9 3 0,13 0,9,10 11,12 Olumsuz 44 4 19,20,21 7 3 43 11 1,2,3 4,5,6 8 23 22 Çýkýþ 1,2,3,4,5,6 0,25 13 14 0,24 Þekil-2.9: Numaralandýrýlmýþ eylem çekim ekleri soldan saða sonlu durum makinesi Bul ve Deðiþtir 2.4.5 Tüm SDM'lerinin Ortak SDM'de Toplanmasý Þekil-2.3, Þekil-2.5, Þekil-2.7 ve Þekil-2.9 soldan saða doðru numaralandýrýlmýþ sonlu durum makinelerinin tümünde birbirlerine geçiþler mevcuttur. Örneðin: Þekil-2.2 Ad kökü sonlu durum makinesinin 5 numaralý durumunda Ek Eylem makinesine geçiþ vardýr. Benzer þekilde Þekil-2.9 eylem çekim ekleri makinesinde 8 ve 9 numaralý durumlardan eylem zaman ekleri sonlu durum makinesinin OLUMSUZ durumuna, 10 ve 11 numaralý durumlardan ad kökü sonlu durum makinesine ve 12 numaralý durumdan da ek eylem sonlu durum makinesine geçiþler vardýr. Tüm bu geçiþlerin tek bir sonlu durum makinesinde bir araya alýnmasýnýn ardýndan, 0 (sýfýr) boþ geçiþlerin elenmesi gerekmektedir. Tüm eklerin bir arada kullanýlabilmesi amacýyla her bir ek grubunda 1`den baþlanarak numaralandýrýlan ekler için tekliði saðlamak amacýyla 1 ile 115 arasýnda numaralar verilmiþtir. Ortak olarak oluþturulmuþ sonlu durum makinesinin boyutu büyük olduðundan gösterilmemiþtir. Ayrýca boþ geçiþlerin de nasýl elendiðini küçük bir örnek kümesi ile göstermekte fayda vardýr. Bu sayede son oluþturulan büyük sonlu durum makinesinde boþ geçiþlerin nasýl elendiði ile ilgili fikir sahibi olunabilir. 2.4.5.1 Boþ Geçiþlerin Elenmesi Þekil-2.10 ve Çizelge-3.2 yardýmýyla Þekil-2.11 oluþturulmuþtur. Þekil-2.11 de 0 (sýfýr) boþ geçiþlerin elenmesi için birkaç iþlem yapýlacaktýr. Tüm iþlemler aþaðýda adým adým Durum 1 ee-5 -(Y)DH,-(y)sA -(Y)mHþ Ek eylem 1 ee-8 Ek eylem 2 ee-9 -m,n 0,-k -nHz -lAr -Hm,sHn,0 -Hz,-sHnHz,-lAr Ek eylem 2 kiþi ee-10 -(Y)mHm -sHn,0 -yHz -sHnHz -lAr Çýkýþ -DHr Ek eylem 3 kiþi ee-11 -(Y)ken Çýkýþ -lAr,0 Çýkýþ Çýkýþ -DHr,0 -cAsInA Çýkýþ Çýkýþ Þekil-2.10: Ek eylem ekleri soldan saða sonlu durum makinesi [2][4] Prof. Dr. Eþref Adalý gösterilmiþtir. Ýlk olarak hangi durumlara hiçbir iþlem yapmadan ulaþýlabilir ona bakýlýr ve A kümesine bu durumlar eklenir. Þekil-2.11’de A kümesinde ee5 durumu bulunmaktadýr. A kümesinde hangi ekler ile hangi kümelere gidileceðini gösteren aþaðýdaki iþlemler yapýlmýþtýr. Ee-5 ee-8 13,12 14 Ee-9 0,1,2 3,4,5 Ee-10 0,10,11 0,5,6 7,8,9 10 Ee-11 0,1,2,3,4,5,15 0,5 Çýkýþ Þekil-2.11: Numaralandýrýlmýþ ek eylem ekleri soldan saða SDM A={ee5} ————————————————— ee5 durumunda çýkan ekler 1,2,3,4,5,10,12,13,14,15 1 eki ile Çýkýþ 2 eki ile Çýkýþ 3 eki ile Çýkýþ 4 eki ile Çýkýþ 5 eki ile Çýkýþ 10 eki ile {ee11}à{ee11,Çýkýþ}=B 12 eki ile {ee8}à{ee8,Çýkýþ}=C 13 eki ile C 14 eki ile {ee9}à{ee9,ee10,Çýkýþ}=D 15 eki ile Çýkýþ ————————————————— B={ee11,Çýkýþ} ————————————————— ee11 durumunda çýkan ekler 5 5 eki ile Çýkýþ ————————————————— Bul ve Deðiþtir C={ee5,Çýkýþ} ————————————————— ee8 durumunda çýkan ekler 5,6,7,8,9 5 eki ile Çýkýþ 6 eki ile Çýkýþ 7 eki ile Çýkýþ 8 eki ile Çýkýþ 9 eki ile Çýkýþ ————————————————— D={ee9,ee10,Çýkýþ} ————————————————— ee9 durumunda çýkan ekler 1,2,3,4,5 1 eki ile {ee10}à{ee10,Çýkýþ}=E 2 eki ile E 3 eki ile E 4 eki ile E 5 eki ile E ————————————————— ee10 durumunda çýkan ekler 10,11 10 eki ile Çýkýþ 11 eki ile Çýkýþ ————————————————— E={ee10,Çýkýþ} ————————————————— ee10 durumunda çýkan ekler 10,11 10 eki ile Çýkýþ 11 eki ile Çýkýþ ————————————————— Tüm bu iþlemlerin sonucunda aþaðýdaki 6 küme oluþmaktadýr. A={ee5} B={ee11,Çýkýþ} C={ee8,Çýkýþ} D={ee9,ee10,Çýkýþ} E={ee10,Çýkýþ} Çýkýþ Yukarýda örneklendirdiðimiz boþ geçiþlerin elenmesi tüm sonlu durum makinelerinin bir arada olduðu sonlu durum makinesi için yapýldýðýnda 36 kümeden oluþan bir yapýya ulaþýlmaktadýr. Durumlarýn kolay anlaþýlmasý için bazý kýsaltmalara baþvurulmuþtur. Bunlar ; ez: eylem zaman, ik: ad (isim) kökü ve ee: ek eylem dir. Prof. Dr. Eþref Adalý A={1,2,6,7,10,11,ez4} B={2,6,7,10,11,ez4} C={3,6,7,10,11,ez4} D={5,6,7,10,11,ez4} E={4,6,7,10,11,ez4} F={6,7,10,11,ez4} G={7,10,11,ez4} H={8,11,ez4} I={9,11,ez4} J={10,11,ez4} K={ik1,ik2,ik3,ik4,ik5,ee} L={ez2,ez7,ez6,OLUMSUZ,ARA} M={ez3, ARA} MA={ez5, ARA} N={14} O={13} P={12} R={OLUMSUZ,ARA} S={11,ez4} T={ik2,ik3,ik5,ee} U={ik4,ik5,ee} V={ik3,ik5,ee} Y={ik5,ee} Z={ik5,ik6,ee} A1={ee8} B1={ee9,ee10} C1={ee11} D1={ez6,ez7,ez8} E1={ez7} F1={ez8} G1={ez9} H1={ez10} I1={ee} J1={ik7,ik5,ee} K1={ee10} CIKIS={} A kümesi baþlangýç kümesi iken ÇIKIÞ kümesi sonlanmayý ifade etmektedir. Eklerin çözümlenmesi aþamasýnda tüm durumlarda sonlanma olabilmektedir. Ek katarýnýn parçalanmasý hangi durumda biterse orada ek çözümlemesi sonlanmýþ demektir. Bu bilgiler ýþýðýnda yazýlýmda kullanýlan geçiþ kümeleri oluþturulmuþtur. Bul ve Deðiþtir 2.5 Bulma Ýþlevinde Karþýlaþýlan Sorunlar Türkçe için karþýlaþýlan birçok bulma ve deðiþtirme sorunu vardýr. Bu sorunlarýn bazýlarýna ve çözümlerine aþaðýda deðinilmiþtir. • Bazý sözcüklerde ünlü düþmesi yaþanýr. Örneðin: “Ayþe oðlunu gezmeye götürdü.” tümcesinde “oðul” sözcüðü arandýðýnda mevcut bul iþlevleri “oðlunu” sözcüðünü bulamamaktadýr. Bu nedenle ünlü düþmesi yaþayan sözcükler bir dosyada tutularak bul denen sözcük bu dosyada var ise ünlü düþmesi yaþamýþ hâlinin de aramaya katýlmasý saðlanmýþtýr. • Son harfi “p, ç, t, k” sert süreksiz ünsüzü olan sözcükler ünsüz yumuþamasýna uðradýklarýnda deðiþirler. Aramaya hem deðiþmemiþ hem de deðiþmiþ hallerinin katýlmasý saðlanmýþtýr. Örneðin: “Kemal kitabýný kitaplýktan aldý.” tümcesinde “kitap” sözcüðü arandýðýnda sözcüðün yumuþamaya uðradýðý “kitab” sözcüðü de aramaya katýlarak, hem “kitap” hem de “kitab” aranmalýdýr. Böylece hem “kitabýný” hem de “kitaplýktan” sözcükleri yakalanarak bulunmalýdýr. • Son harfi “p, ç, t, k” sert süreksiz ünsüzü olduðu hâlde ünsüz yumuþamasýna uðramayan sözcükler de vardýr. Bu özelliðe sahip sözcükler bir dosyada tutularak yumuþamaya uðratmadan olduðu gibi aranmasý saðlanmýþtýr. Örneðin: “aþk” sözcüðü ünsüz yumuþamasý kurallarýna göre ünlü bir harf ile baþlayan ek aldýðýnda sondaki “k” ünsüzünün “g” ünsüzüne dönüþmesi beklenir, fakat deðiþme olmaz. Bu nedenle bu özelliðe sahip sözcükler bir dosyada tutularak bu örnek için hem “aþk” hem de “aþg” katarlarýnýn aramaya katýlýp verimin azalmasý engellenmiþtir. • Bazý eylem köklü sözcüklere “yor” eki eklendiðinde eylem soylu sözcükte deðiþimler olur. Bu deðiþimler göz önüne alýnarak bir arama yapýlmasý saðlanmýþtýr. Örneðin: “anla” eylem soylu sözcüðüne “yor” eki eklendiðinde “anla+yor” yerine “anlýyor” hâline dönüþ olur. “Kenan her söyleneni anlýyor.” tümcesinde “anla” sözcüðü arandýðýnda bulunamýyor. Bu nedenle bu þartlarý saðlayan eylem soylu sözcükler için özel bir çözümleme yapýlmýþtýr. • “de” ve “ye” eylem soylu sözcüklerinde “ecek” eki eklendiðinde eylem soylu sözcükte deðiþimler olur. Bu deðiþimler göz önüne alýnarak bir arama yapýlmasý saðlanmýþtýr. Örneðin: “de + ecek” à “diyecek” Prof. Dr. Eþref Adalý “ye + ecek” à “yiyecek” Þekil-2.12`de görüldüðü üzere bul iþlevinde aranan sözcük bulunmadan önce sorun yaratan durumlarýn denetimlerinin yapýldýðý, denetimlerden geçildikten sonra bulunan sözcüðün ardýndaki ek katarý bir çözümleyiciden geçirilerek her bir ek katarý için ek numaralarýndan oluþan bir dizi oluþturulur. Bulunacak sözcük Bulunacak sözcük ses düþmesi denetiminden geçirilir Bulunacak sözcük ses yumuþamasý denetiminden geçirilir Bulunacak sözcük veya sözcük kümesi metin içinde aranýr Her satýrda bulunan sözcük ve eklerinin indisleri bir diziye deðer olarak atanýr Þekil-2.12: Bul iþlevinin adýmlarý 2.6 Deðiþtirme Ýþlevinde Karþýlaþýlan Sorunlar Deðiþtir iþlevinde de týpký bul iþlevinde olduðu gibi dile özgü sorunlarla karþýlaþýlmaktadýr. Bu sorunlarýn baþlýca nedenleri Türkçenin sondan eklemeli bir dil olmasýndan ve eklerinin neyin ardýna eklendiðine göre deðiþmesinden kaynaklanmaktadýr. Bul ve Deðiþtir Örneðin: “Özkan aldýðý kitaplarýndan bazýlarýný yenileriyle deðiþtirdi.” tümcesinde “kitap” sözcüðü bulunup yerine “defter” sözcüðü konulmaya çalýþýldýðýnda tümce “Özkan aldýðý defterlarýndan bazýlarýný yenileriyle deðiþtirdi.” hâlini almaktadýr. “defterlarýndan” sözcüðü Türkçede anlamlý bir sözcük deðildir. Bunun yerine “defterlerinden” sözcüðü olmalýdýr. Bu ve benzeri sorunlarý çözebilmek için yazýlýmda çözümler üretilmiþtir. Deðiþtir iþlevinde karþýlaþýlan sorunlar ve çözümleri þöyledir. Türkçede sözcükler ve ekleri arasýnda nasýl bir iliþki olduðu tanýmlanmýþ ve buna göre eklerin yapýlandýrýlmasý saðlanmýþtýr. Örneðin: “kedilerimizden” sözcüðünde “kedi” sözcüðü yerine “tavþan” deðiþikliði yapýlmaya çalýþýldýðýnda “kedi” sözcüðünün ardýnda hangi ekler olduðuna bakýlarak “ler” çoðul, “imiz” 1.çoðul iyelik ve “den” ayrýlma durum eki çözümlemesi yapýlmasý saðlanmýþtýr. Bu çözümlemenin ardýndan “tavþan” sözcüðüne ilgili ekler “tavþan” sözcüðünün sahip olduðu ses özelliklerine göre eklenmiþ ve “tavþanlarýmýzdan” son sözcüðünün yapýlandýrýlmasý saðlanmýþtýr. • Eðer Bul iþlevinde deðinilen ünlü düþmesi olan sözcüklerden biri bulunmuþ sözcüðün yerine konacak sözcük olarak seçildiyse olasý deðiþiklikler göz önüne alýnarak deðiþtir iþlevinin yapýlmasý saðlanmýþtýr. Örneðin: “Ahmet Bey kýzýnýn okuluna hiç gitmedi.” tümcesinde “kýz” yerine “oðul” deðiþikliði yapýlmaya çalýþýldýðýnda, “oðul” sözcüðünün ses düþmesi yaþayan sözcüler dosyasýnda olduðu ve ne durumlarda ses düþmesi yaþadýðý bilgileri ýþýðýnda deðiþiklik yapýlarak tümcenin “Ahmet Bey oðlunun okuluna hiç gitmedi.” halini almasý saðlanmýþtýr. • Son harfi “p, ç, t, k” ünsüzlerinden biri olan sözcük bulunan sözcük yerine konacak sözcük olarak seçildiyse ardýna eklenen eklerin bazý özelliklerine göre bu sözcüklerde oluþabilecek deðiþiklikler göz önüne alýnarak çözümleme yapýlmasý saðlanmýþtýr. Örneðin: “Özge defterini Selim`in defteriyle karýþtýrýnca olanlar oldu.” Tümcesinde “defter” yerine “kitap” konulmaya çalýþýldýðýnda “kitap” sözcüðünün son harfinin “p, ç, t, k” harflerinden biri olmasý ve ek alýrken aldýðý ekin ünlü ile baþlamasý nedeniyle sözcüðün son ünsüzü yumuþamaya uðrar. Bu nedenle tümcenin “Özge kitabýný Selim`in kitabýyla karýþtýrýnca olanlar oldu.” hâlini almasý saðlanmýþtýr. Þekil-2.13`te görüldüðü üzere bulunacak sözcüðün ardýndaki ek katarlarý çözümlendikten sonra yerine konacak sözcüðün ardýna ek yapýlandýrýlmasý akýþ þemasýndaki adýmlarý takip ederek yapýlmaktadýr. Prof. Dr. Eþref Adalý Hem deðiþtir hem de bul iþlevlerinin nasýl çalýþtýðý Þekil-2.12 ve Þekil-2.13`te görülmektedir. Bulma iþlevinin ardýndan ek katarýnýn çözümlenmesi ve ek dizisinin oluþturulmasý da önemli bir adýmdýr. Bu adýmýn akýþ þemasý da Þekil-2.14`te verilmiþtir. Þekil-2.14`teki akýþ þemasýnýn oluþturduðu ek dizileri kullanýlarak yerine konacak sözcüðün ek Yerine konacak sözcük ve ek indisleri dizisi H Ek indisleri dizisinde sýrada eleman var mý? E Sonlandýrma H Ek indisleri dizisinde sýradaki eleman boþ mu? E Yerine konacak sözcüðü sýradaki ek indisleri dizisi elemaný ile ek yapýlandýrmaya gönder Ek indisleri dizisinde bir adým ilerle Þekil-2.13: Deðiþtir iþlevinin adýmlarý kýsýmlarý yapýlandýrýlýr. Bu yapýlandýrmanýn adýmlarý da Þekil-2.15'de gösterilmiþtir. Giriþ Metni Osmanlý devleti nedensiz bir þekilde Osman beyin ölümü ile osmanlýlaþma yolunda osmanlýsýzlaþtýrýlmaya çalýþýlmaktadýr. Osman beyin yerine osmancýk aðasý getirilecektir. Ve osmanlýlaþtýramadýklarýmýzdan olma durumu ortaya çýkacaktýr. “osman” sözcüðü yerine “sipahi” sözcüðü konulmak istendiðinde aþaðýdaki çýkýþ metni elde edilmektedir.. Bul ve Deðiþtir Bir sonraki durum << Baþlangýç durumu Eski durum << Baþlangýç durumu H E Ek katarý var mý? Baþarýlý sonlandýrma E Bu ek ile gidilen kurallý bir durum var mý? Eski durum, þu anki durum yapýlýr. Þu anki durum, bu ek ile gidilen durum yapýlýr H Þu anki durum, eski durum yapýlýr Çözüm dizisinden son eleman çýkarýlýr ve alternatif geçiþlere bakýlabilmesi için bu elamanýn sonraki adýmda çözüm dizisine eklenmesi engellenir. Ek’in numarasý çözüm dizisine eklenir Ek katarýnýn baþýna, çýkarýlan ek eklenir Ek katarýnýn baþýndan bu numaralý ek kýsmý çýkarýlýr Þekil-2.14: Ek dizisi aramanýn akýþý Çýkýþ Metni Sipahili devleti nedensiz bir þekilde Sipahi beyin ölümü ile sipahilileþme yolunda sipahilisizleþtirilmeye çalýþýlmaktadýr. Sipahi beyin yerine sipahicik aðasý getirilecektir. Ve sipahilileþtiremediklerimizden olma durumu ortaya çýkacaktýr. Programý daha büyük dosyalarda da çalýþtýrarak baþarým saðlanmýþtýr. Bunun sonucunda dosyanýn büyüklüðünün programýn çalýþmasýnda yavaþlamaya neden olmadýðý görülmüþtür. Metnin içerisine bulunacak olan sözcüðün hem çözümlenebilen hem de çözümlenemeyen þekilleri de konarak programýn nasýl bir sonuç vereceði sýnanmýþtýr. Çözümleyicide Prof. Dr. Eþref Adalý Yeni sözcük ve ek dizisi Ýþlenen sözcük << Yeni sözcük Ýþlenen dizi << ek dizisi E Ýþlenen dizisi boþ mu? Ek yapýlandýrmasý bitti sonlandýrmasý H Ýþlenen sözcüðe, iþlenen dizinin ilk elemaný ek olarak alýnýr Ýþlenen sözcük << iþlenen sözcük + Ek Ýþlenen dizi << Ýþlenen dizinin ilk elemaný çýkarýlarak oluþan dizi Þekil-2.15: Ek yapýlandýrma iþlevi akýþ þemasý çözümlenebilen ekleri olan tüm bulunmuþ sözcükler çözümlenerek yerine konacak sözcüðün ardýna yapýlandýrýlmýþtýr ve baþarýlý bir þekilde kural tabanlý bul ve deðiþtir saðlanmýþtýr. Kaynakça [1] Delibaþ, A., 2008. Doðal Dil Ýþleme Ýle Türkçe Yazým Hatalarýnýn Denetlenmesi, Yüksek Lisans Tezi, Ý.T.Ü. Fen Bilimleri Enstitüsü,Ýstanbul. [2] Eryiðit, G., 2002. Sözlüksüz Köke Ulaþma Yöntemi, Yüksek Lisans Tezi, Ý.T.Ü. Fen Bilimleri Enstitüsü, Ýstanbul. [3] Bilgin, O., Çetinoðlu Ö., Oflazer K., 2005. Efficient Find and Replace in Agglutinative Languages: The Case of Turkish, 1 Mayýs 2008 tarihinde http://www.hlst.sabanciuniv.edu/archive/patras.pdf kaynaðýndan alýnmýþtýr. [4] Oflazer K., 1994. Two-level Description of Turkish Morphology, Literary and Linguistic Computing, Vol.9, Number 2. 3. Bilgisayarlý Çeviri Prof. Dr. Eþref ADALI Doðal dil iþlemenin en ilgi çekici alanlarýndan biri diller arasý çeviridir. Diller arasý çeviri denildiðinde insanýn aklýna farklý dillerde konuþan iki insanýn arada çevirmen olmadan birbirini anlayabileceði çözümler gelmektedir. Daha açýk bir anlatýmla bir Türk Türkçe konuþacak karþýsýndaki Japon bu konuþmayý Japonca dinleyecektir. Japon'un konuþmasýný da Türk Türkçe olarak dinleyecektir. Ýnsanlarýn ve araþtýrmacýlarýn düþleri bu yönde olmakla beraber günümüzdeki biliþim olanaklarý bu kadar yetenekli çeviri dizgelerini saðlayamamaktadýr. Ancak, belli alanlarda çalýþan örnekler üretilmeye baþlanmýþtýr. Örneðin, askerî emirleri, hava raporlarýný çevirebilen dizgeler üretilmeye baþlanmýþtýr. Günümüzde bilgisayar desteðiyle yapýlan çeviriler en basit olandan en karmaþýk olana doðru sýralanabilir: Sözcük çevirisi, tümcecik çevirisi, tümce çevirisi. Gerçekleþtirilen, metinden metne çeviri dizgelerinin bazýlarý insan gözetimi gerektirirken bazýlarý insan yardýmý olmaksýzýn çeviri yapabilmektedir. Bir dilden diðer bir dile çeviri yapan kiþinin, iki dili iyi þekilde bilmesi yetmemekte çeviri yaptýðý metnin konusu hakkýnda da bilgi sahibi olmasý gerekmektedir. Söz gelimi týp konusundaki bir kitabý çevirecek kiþinin týp konusunda uzman olmasýnýn gerekeceði açýktýr. Bilgisayar yardýmýyla yapýlan çevirilerde de benzer bir güçlüðün olacaðý kolayca söylenebilir. Dünyada konuþulan diller belli dil ailelerinin üyeleridir. Ayný dil ailesinin üyesi olan iki dil arasýnda çeviri yapmak doðal olarak farklý iki dil ailesinin üyesi olan iki dil arasýnda çeviri yapmaya göre daha kolaydýr. Bilgisayarlý çeviri dizgeleri gerçekleþtirilirken kullanýlabilecek yöntemler, dillerin ayný dil ailesinden olup olmadýðýna göre deðiþmektedir. Bilgisayarlý çeviri amacýyla kullanýlan yöntemler, kural temelli ve istatistiksel temelli olmak üzere genel iki kümeye ayrýlabilir. Bu iki kuralýn birlikte kullanýldýðý örnekler de bulunmaktadýr. Kural temelli çeviri yöntemleri, yabancý dil eðitiminde izlenen yöntemlere benzer. Öncelik her iki dilin dil bilgisi kurallarýný bilgisayara öðretmektir. Buna ek olarak çeviri sözlüðü bilgisayara yüklenir. Ýstatistiksel temelli çeviri çevirmenler tarafýndan yapýlmýþ olan çeviri metinler içinde, çevirisi yapýlmak istenen tümce veyaa tümceciðe en yakýn olan karþýlýðý bulmaya dayanýr. Prof. Dr. Eþref Adalý Bilgisayar kullanarak yapýlan çevirilerin baþarýmlarýný karþýlaþtýrabilmek için çeviri dizgesinden beklentilerin tanýmlanmýþ olmasý gerekir. Bir bilgisayarlý çeviri dizgesi aþaðýdaki özellikleri saðlamalýdýr: • Ýnsan desteksiz : Çeviri dizgesi insan katký ve desteði olmadan çalýþabilmelidir. • Kaliteli : Çeviri dizgesinin ürettiði sonuçlar aslýna uygun ve anlaþýlýr olmalýdýr. • Konu baðýmsýz : Çeviri dizgesi her türlü konuyu içeren metinleri çevirebilmelidir. 3.1 Dillerin Benzerlikleri ve Farklýlýklarý Dünyada 4000 dolayýnda dilin konuþulduðu bilinmektedir. Ancak bu dillerden bazýlarý yaygýn olarak ve çok kiþi tarafýndan konuþulurken bazýlarý çok dar alanda, binden az kiþi tarafýndan konuþulmaktadýr. UNESCO kaynaklarýna göre, diller þöyle sýralanmaktadýr: Konuþan sayýsýna göre: • Çince • Ýngilizce • Ýspanyolca • Hintçe • Turkçe • Arapça • Portekizce • Bengalce • Rusça • Japonca • Almanca • Fransýzca Yine ayný kaynak, dillerin dünya üzerindeki yayýlýþýný Þekil-3.1'deki gibi vermektedir. Yeni bir dili öðrenmeye çalýþanlarýn ilk yaptýklarý sözcüklerin karþýlýðýný ezberlemektir. Ardýndan, öðrenmeye çalýþtýklarý dilde tümce kurabilmektir. Bazý dillerde sözcükler yalýn hâlde bulunmasýna karþýn bazýlarýnda sözcükler ekler alarak anlamlarýný deðiþtirmektedir. Tümce içinde, sözcüklerin niteliklerine göre diziliþi de dilden dile benzerlik ve farklýlýk göstermektedir. Bu açýklamalara baðlý olarak diller arasýndaki benzerlikler ve farklýlýklarýn aþaðýda sýralanan özellikler baðlamýnda incelenmesi gerektiði sonucuna varýlýr: • • • • • • • Biçim bilimsel Söz dizimsel Dilimleme Anlatým biçimi Sözlüksel Olay ve tartýþma Yapýsal Bilgisayarlý Çeviri Þekil-3.1: Dünyada dillerin yaygýnlýk haritasý (Kaynak UNESCO) • Konusal 3.1.1 Biçim Bilimsel Benzerlik ve Farklýlýklar Dünyada yaygýn olarak kullanýlan diller ana hatlarý ile þöyle kümelenmektedir:Tek heceli • Tek heceli diller • Bitiþken diller • Bükümlü diller • Kaynaþtýran diller Tek heceli dillerde sözcükler tek hecelidir ve sözcükler ek almazlar. Sözcükler tümce içinde vurguya baðlý olarak anlam kazanýrlar. Çince, Vietnamca, Himalaya dili bu küme içinde yer alýr. Bitiþken dillerde sözcüðün temeli kök sözcüktür. Kök sözcüðe yapým ekleri kurallý biçimde eklenerek yeni sözcükler oluþturulur. Kök sözcüðe eklenebilecek eklerin sayýsýnda bir sýnýrlama yoktur. Bu nedenle bir kök sözcükten çok sayýda sözcük üretilebilir. Bitiþken dil kümesi içinde Türkçe, Macarca, Fince, Moðolca, Japonca gibi diller yer almaktadýr. Prof. Dr. Eþref Adalý Hint-Avrupa ve Sami dilleri, bükümlü dil kümesine girmektedir. Bükümlü dillerde gövde sözcük ön ve son ek alarak yeni anlam kazanýr. Bir gövdeye eklenen ön ek ve son ek sayýsý genelde biri aþmaz. Dolayýsýyla ekler, gövde sözcüðe kýsýtlý katký saðlarlar. Kaynaþtýran dillerde, eylem tümcenin diðer ögeleri ile kaynaþmaktadýr. Dolayýsýyla eylem tümcenin tamamý olabilmektedir. Amerika yerlilerinin dilleri bu küme içinde sayýlmaktadýr. Yalýnlayan dillere en güzel örnek Vietnamcadýr. Bu dilde sözcükler ek almazlar. Dolayýsýyla her sözcük tekil olarak yorumlanabilir. Tek heceli bir dilde yazýlmýþ tümcenin karþýlýðý, bükümlü bir dilde kolayca gösterilebilir. Þekil-3.2'de Vietnemca dilinde yazýlmýþ bir tümcenin Ýngilizce karþýlýðý verilmiþtir. Khi toi den nha ban When I come house friend toi chung I “çoðul” toi I bat dau lam begin do bai lesson Þekil-3.2: Vietnamca dilince yazýlmýþ bir tümcenin Ýngilizce karþýlýðý Vietnamca yazýlmýþ olan bu tümcenin Türkçe karþýlýðý þöyledir: Arkadaþýmýn evine geldiðimde ders çalýþmaya baþladýk. Bitiþken diller ek açýsýndan en zengin dillerdir. Ek açýsýndan zengin olan kaynak dildeki bir sözcüðü, ek bakýmýndan fakir olan hedef dile çevirirken tek bir sözcük karþýlýk getirilemez. Örneðin bitiþken bir dil olan Türkçede "göz" sözcüðünün alacaðý ekler ile türetilmiþ sözcüklerin Ýngilizcedeki karþýlýklarýndan bazýlarý Çizelge-3.1'de verilmiþtir: Çizelge-3.1'den de görüldüðü gibi, Türkçe sadece sondan eklemeli bir dildir. Osmanlýca diyebileceðimiz eski Türkçede ön eklerin de kullanýldýðý bilinmektedir. Örneðin "mevcut", "namevcut" gibi. Çizelge-3.1: Türkçe ile Ýngilizcenin Biçim Bilimsel Açýdan Karþýlaþtýrýlmasý Türkçe (tekil) Türkçe (çoðul) Ýngilizce (tekil) Göz Gözler Eye Gözlük Gözlükler Eyeglasses Gözlükçü Gözlükçüler Optician Gözlükçülük Gözlükçülükler Opticians Gözcü Gözcüler Watchman Gözcülük Gözcülükler ophthalmology Gözlem Gözlemler Observation Gözleme Gözlemeler Observing Gözlemci Gözlemciler observer Gözlemcilik Gözlemcilikler Observation Gözde Gözdeler favourite Bilgisayarlý Çeviri 3.1.2 Söz Dizimsel Benzerlikler ve Farklýlýklar Toplumsal geliþmeye koþut olarak geliþtiði düþünülen dillerin tümce yapýlarý birbirinden farklýdýr. Bu fark, doðal olarak farklý dil aileleri için daha açýktýr. Tümce yapýlarýndaki farklýlýk ve benzerlikleri göstermek üzere ayný tümcenin, Türkçe, Japonca, Fince, Macarca, Ýngilizce ve Fransýzca karþýlýklarý Þekil-3.3 ve Þekil-3.4'te gösterilmiþtir. Þekil-3.3'e baktýðýmýzda þu yorumu yapabiliriz. Türkçe tümce yapýsýna en yakýn olan dil Japonca olarak görülmektedir. Ayný þekil bize Fince ve Macarcanýn tümce yapýlarýnýn birbirine benzediðini söylemektedir. Þekil-3.4'e baktýðýmýzda Ýngilizce bir tümcenin yapýsý Fransýzca tümcenin yapýsýyla bire bir aynýdýr. Japonca O kalemini tek silahý olarak Kereha pendakewo görür O Macarca O ugy karenojuu tosite kalemini tek silahý olarak miru görür FÝnce tekinti O olarak görür a tollat kalemini mint gibi sajat kendi fegyver silah Han pitaa O görür kynaansa ainoana kalemini olarak tek aseenaan silahý Þekil-3.3: Türkçe, Japonca, Macarca ve Fince tümce yapýlarý Tümce kuruluþlarýnda benzerlik olan diller arasýndaki çeviri doðal olarak benzerliði az olan dillere oranla daha kolay olacaktýr. Ýngilizce He O regards görür his pen as his kalemini olarak only tek arm silahý Fransýzca Il considere son crayon He regards O görür his pen kalemini comme sa as olarak his only arm tek silahý seul arme Þekil-3.4: Ýngilizce ve Fransýzca tümce yapýsý Altay dil ailesi içinde yer alan Türkçenin, zaman içinde deðiþikliklere uðramasý doðal karþýlanmalýdýr. Bugün Türkiye'de konuþulan Türkçe ile Asya'nýn orta kýsmýnda yaþayan Uygurlarýn konuþtuðu Türkçe çok farklý görülebilir. Özellikle sözcüklerin zaman içinde deðiþtikleri veya ayný sözcüklerin söyleniþ biçimlerinin epey farklý olduðu bilinmektedir. Ancak bu dillerin tümce yapýlarý birbirine çok yakýndýr. Yaklaþýk bin Prof. Dr. Eþref Adalý yýldýr birbirinden uzak yaþayan topluluklarýn dillerinde bu kadar deðiþikliklerin olmasý olaðan karþýlanmalýdýr. Türk dillerinin birbirine benzerlikleri coðrafi konumlarýna çok baðlýdýr. Öðneðin, Azerbaycan ve Ýranda yaþayan Azarilerin ve Irakta yaþayan Türkmenlerin konuþtuðu dil Türkiye'de konuþulan Türkçeye çok yakýndýr. Bu yüzden farklý dil olarak nitelemek yerine farklý lehçe olarak nitelemek daha doðru olur. Türk dilleri ailesi içinde, Azeri, Uygur, Horasan, Tatar, Kazak, Özbek, Kýrgýz, Türkmen, Gökoðuz (Gagavuz) ve Kýrgýz dilleri bulunmaktadýr. Türkçeye yakýn olan diller içinde Moðolca, Korece ve Japonca sayýlabilir. Tümce yapýlarý açýsýndan benzerlik ve farklýlýklar Þekil-3.5'teki gibi gösterilebilir: Tümce yapýsý birbirine benzer olan dillerde, bir tümcenin çevirisi yapýlýrken sözcüklerin tümce içindeki sýrasý büyük ölçüde ayný tutulabilir; kaynak dildeki sözcüðün yerine hedef dildeki karþýlýðý yerleþtirilir. Örneðin "ben kitap okuyorum" tümcesini sýrasýyla Ýngilizce, Fransýzca, Almanca, Ýspanyolca ve Ýtalya yazdýðýmýzda sözünü ettiðimiz benzerliði kolayca görebiliriz. Þekil-3.6 Özne Tümleç Yüklem Bitiþken diller Özne Yüklem Tümleç Bükümlü diller Yüklem Özne Tümleç Arapça Þekil-3.5: Deðiþik dillerde tümce yapýsý Bu örneklere dikkatli bakýldýðýnda bazý sözcüklerin birebir ayný veya benzer olduðu da söylenebilir. Örneðin "book-buch, livre-libro" gibi. Ayný tümceyi Türkçe yazdýðýmýzda sözcüklerin diziliþinin çok farklý olduðunu görürüz. I am reading a book Je lis un Ich Estoy Sto 1.3 Dilimleme livre lese ein Buch leyendo leggendo un libro un libro Þekil-3.6: Ayný tümcenin, Ýngilizce, Fransýzca, Almanca, Ýspanyolca ve Ýtalyanca'daki karþýlýklarý Bazý dillerde yazýlmýþ metinlere baktýðýmýzda, her bir sözcüðü ve tümceyi kesin biçimde ayýrt edebiliriz. Buna karþýn bazý dillerde sözcükleri birbirinden ayýrt etmek çok zordur. Çin, Japon, Tayland dillerinde sözcüklerin nerede baþlayýp nerede bittiðini anlamak, dolayýsýyla sözcükleri ayýrt etmek zordur. Bilgisayarlý Çeviri Bazý dillerde tümceler çok uzun kurulmaktadýr. Bir tümcenin beþ on satýr tuttuðu, bir paragraf kadar uzun olduðu görülmektedir. Arap metinleri bu özelliktedir. Benzer duruma XIX. yüzyýl Osmanlý metinlerinde de rastlanmaktadýr. O devirde uzun tümce kurmak bir hüner olarak görülmüþtür. Uzun tümcelerin taþýdýðý anlamý ortaya çýkarmak için önce tümceyi dilimlemek ve her bir dilimi ayrý çevirmek gerekir. Benzer durum sözcükler için de geçerlidir. Bitiþik sözcükleri önce sözcük dilimlerine ayýrmak ve dilimlenmiþ sözcüklerin hedef çeviri dilindeki karþýlýklarýný bulmak gerekir. Hint-Avrupa dillerinde ana ve yardýmcý tümce kesin hatlarla ayrýlabilmesine karþýn Türkçede böyle dilimlemenin yapýlacaðý yeri bulmak kolay deðildir. Aþaðýdaki tümceler bu durumu açýklayacak niteliktedir: "Kitabý okuyan adam babamdýr." "The man who is reading the book is my father." Ýngilizce tümce þöyle iki parçaya ayrýlabilir: "The man ..................................... is my father." "The man is reading the book." Ayný anlamdaki Türkçe tümceye baktýðýmýzda, dilimlemenin bu kadar kesin yapýlamayacaðý görülmektedir. "Kitabý okuyan adam babamdýr." "....................... adam babamdýr." "Kitabý okuyan adam.................." 3.1.3 Anlatým Biçimi Ýnsanlar, istek niyet ve amaçlarýný karþýsýndakine anlatabilmek için konuþur veya yazar. Karþýmýzdakine isteðimizi tam, eksiksiz ve kesin biçimde aktarmak için seçtiðimiz sözcüklerin anlaþýlýr ve kurduðumuz tümcelerin düzgün ve anlaþýlýr olmasý beklenir. Bazý dillerde tümce yapýsý ve seçilen sözcükler yukarýda açýkladýðýmýz düþünceye uygun düþerken bazý dillerde dolaylý anlatým yeðlenir. Türkçe, Ýngilizce gibi dillerde sözcükler ve tümce kuruluþu istek, niyet ve amacý doðrudan ve açýk biçimde karþý tarafa iletecek biçimde gerçekleþtirilir. Buna karþýn Çince ve Japoncada üstü kapalý, yakýþtýrmaya dayalý anlatým yöntemi yeðlenir. Çeviri sýrasýnda, sözcüklerin ve tümcelerin gerçek anlamlarýný çýkarmak önemlidir. Dolayýsýyla çevirisi yapýlan dilin anlatým biçimini bilmek önemlidir. Prof. Dr. Eþref Adalý 3.1.4 Sözlüksel Benzerlikler ve Farklýlýklar Kaynak dildeki bir sözcüðün karþýlýðýný diðer bir dilde her zaman bulamayabiliriz. Ayný duygu ve istek farklý dillerde farklý biçimde anlatýlabilir. Sözlüksel benzerlik ve farklýlýklar aþaðýda sýralanan bakýþ açýlarýndan ortaya konacaktýr: • Eksiklik • Bire bir karþýlýk • Tek karþýlýk olmamasý • Nitelik deðiþmesi • Cinsiyetli sözcükler • Anlamsal zenginlikler Eksiklik Toplumlarýn ilgi alanlarý kültürel özellikleri dillerinin söz varlýðýnýn oluþmasýnda etkindir. Çiftçi bir toplumda çiftçilikle ilgili terimlerin zenginleþmesi doðaldýr. Denizcilik ile ilgili olan bir toplumda, denizcilik terimlerinin sayýsý, denizi olmayan bir toplumun dilindekine oranla çok olacaktýr. Bu tür özellikler kaynak dildeki bir sözcüðün, çeviri yapýlacak hedef dilde karþýlýðýnýn bulunamayabileceði sonucunu doðurur. Türkçede akrabalýk terimleri oldukça zengin sayýlabilir. Örneðin amca, dayý, hala, teyze, yeðen, eniþte, görümce, elti, yenge, bacanak vb. Ýngilizce ve Fransýzcada örnek olarak verdiðimiz sözcüklerin karþýlýðýný bulamayýz. Bu dillerde hala ile teyze ve dayý ile amca için kullanýlan sözcük aynýdýr. Eniþte ve bacanak sözcüklerinin karþýlýðý ise yoktur. Çevirinin yapýlacaðý hedef dilde, kaynak dildeki sözcüðün karþýlýðý yok ise bu sözcük birçok sözcük veya bir tümce ile anlatýlmaya çalýþýlýr. Bire Bir Karþýlýk Kaynak ve hedef dilde ayný anlamý veren sözcükler olabilir. Ancak, bir dilde tek sözcükle anlatýlan bir taným diðer dilde iki hatta üç sözcük kümesiyle anlatýlýyor olabilir. Karpuz (Tr) - Water melon (Ýng) Baþ parmak (Tr) - Thumb (Ýng) Bilgisayarlý Çeviri Tek Karþýlýk Olmamasý Bir dilde bir sözcüðün deðiþik anlamlarda kullanýlmasýna kaþýn diðer bir dilde her deðiþik anlam için bir sözcük olabilir. Söz gelimi Türkçede ayak sözcüðü, insan ayaðý, hayvan ayaðý, masa ayaðý, yarýþ ayaðý anlamlarýnda kullanýlmaktadýr. Kavram belirsizliðine neden olacaðý düþünülse bile kullanýldýðý yere göre anlamý belirlidir. Örneðin, "ayaðým aðrýyor" dediðimizde insan ayaðýný; "yedinci ayaðý Nilüfer kazandý" dediðimizde at yarýþýnýnýn sonucu hakkýnda konuþtuðumuz kolayca anlaþýlýr. Türkçede farklý anlamlarda kullanýlan ayak sözcüðü için Fransýzcada deðiþik karþýlýklar bulunmaktadýr. Örneðin, jambe (insan ayaðý), patte (hayvan ayaðý) pied (masa ayaðý), etape (yarýþ ayaðý). Nitelik Deðiþmesi Sözcüklerin kullanýþ biçimleri dilden dile deðiþebilmektedir. Bir dilde eylem ile anlatýlan bir durum bir baþka dilde isim veya sýfat ile anlatýlmaktadýr. Örneðin; Açým (eylem) (Tr) - I am hungry (sýfat) (Ýng) Men grosne hesten (Ben aç olmak) (sýfat) (Farsça) Aç olma hâli Türkçe ve Ýngilizcede eylem ile anlatýlýrken Ýtalyancada isim ile anlatýlmaktadýr. Cinsiyetli Sözcükler Almanca, Fransýzca, Arapça gibi dillerde adlar cinsiyet bilgisini de içermektedir. Ýngilizcede sadece üçüncü tekil þahýs zamiri cinsiyet bilgisi içerir. Türkçe sözcüklerde (Arapçadan alýnmýþ rahip, rahibe gibi sözcükler hariç) cinsiyet bilgisi yoktur. Çeviri yapýlacak hedef dil Türkçe gibi cinsiyet bilgisi içermiyor ise sözcüðün veya zamirin baþýna cinsiyet bilgisinin eklenmesi gerekir. Örneðin: Katibe (Arb) - Bayan yazman She is going - O (bayan) gidiyor Anlamsal Zenginlikler Türkçede abla, abi, kardeþ sözcükleri kiþinin kardeþinin cinsiyeti ve yaþý hakkýnda bilgi içerirken bunlarýn karþýlýklarý Ýngilizcede bulunmaz. Türkçede el baþparmaðý ve ayak baþparmaðý olarak tanýmladýðýmýz parmaklar için Ýngilizcede iki ayrý sözcük bulunmaktadýr. Prof. Dr. Eþref Adalý 3.1.5 Eylem Ýþlevindeki Farklýlýklar Anlatým biçimi, özellikle eylemlerin neden olduðu olaylar açýsýndan deðerlendirdiðimizde dilleri iki sýnýfa ayýrabiliriz: Yönü Belirli Eylemler Bazý eylemler, eylemin yönünü açýkça belirler. Dolayýsýyla ayrýca yön belirtmeye gerek yoktur. Örneðin Türkçede "ödemek" eylemi borç olarak alýnmýþ veya kabul edilmiþ bir görevin yerine getirilmesi; karþýlýðýnýn verilmesi anlamýný taþýr. Dolayýsýyla "insan aldýðý borcu öder". Bazýlarýnýn söylediði gibi "geri borç ödemesi" gibi anlatýmlara gerek yoktur ayrýca yanlýþtýr. Benzer biçimde "inmek" eylemi, bu eylemin aþaðýya doðru yapýldýðý, "týrmanmak" eylemi, bu eylemin yukarý doðru yapýldýðý bilgisini içermektedir. Yön Eki Gerektiren Eylemler Bazý eylemlere yön belirleyen bir ek eklenir. Ýngilizcede bu tür eylemlerin sayýsý çok sayýlacak kadar fazladýr. Bu tür eylemlerin bir yön belirtici ile birlikte kullanýlmalarý gerekir. Örneðin "I will pay back" (borcumu ödeyeceðim), "I jump down" (atladým) gibi. 3.2 Bilgisayarla Çeviri Yöntemleri Bir dilde yazýlmýþ olan bir metni veya konuþmayý, diðer dilde yazýlý bir metne veya konuþmaya çevirme iþleminde bilgisayar kullanýlýyor ise bu eyleme "Bilgisayarla Çeviri- BÇ" adý verilmektedir. Bu tanýmdan da anlaþýlacaðý gibi diller arasý çeviri eyleminde bilgisayar desteðinden yararlanýlmasý en genel baðlamda BÇ olarak deðerlendirilmektedir. Bilgisayarla gerçekleþtirilecek çeviriler þu özelliklere sahip olmalýdýr: • Çeviriler insan desteði ve katkýsý olmadan gerçekleþebilmelidir. • Hedef dildeki çeviri doðru anlaþýlabilecek nitelikte olmalýdýr. • Çeviri yazýlýmý, çeviri iþlemini konudan baðýmsýz yapabilmelidir. Bilgisayarlý çeviri sürecinde kullanýlan; • Kural tabanlý • Ýstatistiksel ve • Örnek tabanlý yöntemler aþaðýda açýklanmýþtýr: Bilgisayarlý Çeviri 3.2.1 Kural Tabanlý Çeviri Yöntemleri Kural tabanlý çeviri yöntemlerinde, kaynak tümcesinin çeþitli bilgi seviyelerinde gösterimlerini oluþturduktan sonra bu bilgi seviyesinde aktarým yapýlmasýný öngören bir dizi yöntem kullanýr. Bu yöntemleri görselleþtirmek için Vauquois Üçgeni yaygýn olarak kullanýlýr, Þekil-3.7. Dilden baðýmsýz Anlamsal Yapý Baðlamsal Çözümleme Baðlamsal Üretim Bilgi tabanlý aktarým Anlamsal Yapý Anlamsal Aktarým Anlamsal Çözümleme Sözdizimsel Yapý Anlamsal Yapý Anlamsal Üretim Sözdizimsel Aktarým Sözdizimsel Çözümleme Sözdizimsel Yapý Sözdizimsel Üretim Sözcükler Doðrudan aktarým Biçimbilimsel Çözümleme Kaynak dilde metin Sözcükler Biçimbilimsel Üretim Hedef dilde metin Þekil-3.7:: Bilgi tabanlý yöntemlerin sýnýflandýrýlmasý-Vauqouis Üçgeni 3.2.1.1 Doðrudan Aktarým En temel çeviri türü, kaynak dildeki sözcüklerin karþýlýklarýnýn bulunarak hedef dile çevrilmesidir. Ancak bu basit yöntemde bile birçok sorunla karþýlaþýlmaktadýr. Bunlarýn en önemlisi çevrilecek sözcüðün bire bir karþýlýðýnýn bulunmadýðý durumlardýr. Bu sorunlara sözlüksel belirsizlik denilmektedir. Önceki kýsýmda bu konu ayrýntýlý biçimde açýklanmýþtýr. Her ne kadar doðrudan aktarým yönteminde tümce üzerinde çözümleme yapýlmasý gerekmese de birçok uygulamada biçim bilimsel çözümleme de yapýlmaktadýr. 3.2.1.2 Söz Dizimsel Gösterimin Aktarýmý Bilgisayarlý çeviri yöntemleri arasýnda diðer bir yöntem de söz dizimsel temelde çeviri yapmaktýr. Buna göre kaynak dildeki sözcük öncelikle söz dizimsel olarak ayrýþtýrýlýr ve elde edilen aðaç yapýsý, hedef dilde ayný anlamý taþýyan aðaç yapýsýna çevrilmeye çalýþýlýr Þekil-3.8. Söz dizimsel yapýnýn aktarýlmasýndan sonraki süreç ise sözcüklerin aktarýlmasýdýr. Týpký doðrudan aktarým yönteminde olduðu gibi bu aþamada da her iki dilde sözcükleri içeren bir Prof. Dr. Eþref Adalý Kaynak dilde sezgisel aðaç Hedef dilde sezgisel aðaç Aktarým Ayrýþtýrma Oluþturma Kaynak dilde tümce Hedef dilde tümce Þekil-3.8: Sözdizimsel gösterimin aktarýmý aktarým sözlüðü kullanýlýr. Bazý sistemlerde bu aþamada ortaya çýkan sözcüksel belirsizliklerin giderilmesi için kaynak tümce çözümlemeleri sýrasýnda anlamsal belirsizlik giderici yöntemler uygulanmaktadýr. 3.2.1.3 Anlamsal Gösterimin Aktarýmý Anlamsal çeviri, önce kaynak dildeki tümcenin söz dizimsel ayrýþtýrmasý yapýldýktan sonra ayrýþtýrýlan yapýlara anlamsal görevlerin yüklenmesi ve aktarýmýn bu görevlere göre yapýlmasý temeline dayanmaktadýr. Yöntem söz dizimsel çeviride karþýlaþýlan yapý uyuþmazlýklarýnýn bazýlarýný çözebilmektedir. 3.2.1.4 Dilden Baðýmsýz Anlamsal Gösterimin Aktarýmý Bilgisayarlý dil çevirisi yöntemlerinin sonuncusu ise “interlingua” adý verilen ve tümcenin taþýdýðý anlamý, dilden baðýmsýz bir yapýda ifade eden yapýlarý kullanýlmasýdýr. Bu yöntemin temel dayanak noktasý, farklý dillerde anlamlarýn ifade edilme biçimlerinden baðýmsýz bir anlam temsilidir. Örnek olarak aþaðýdaki tümcenin gösterimi Þekil-3.9’da verilmiþtir: Mehmet, bu güzel çöreði yemedi. é Olay ê Etmen ê ê Kip ê ê Olumluluk ê ê êTema ê ë yemek Mehmet ù ú ú geçmiº ú ú olumsuz ú é çörek ùú ê úú bu ú ú ê Ýþaret êë Özellikler tatlý úû úû Þekil-3.9 :Dilden baðýmsýz anlamsal gösterim Bilgisayarlý Çeviri Bu yöntemin en yararlý yönü, ikiden fazla dil arasýnda çeviri yapýlacaðý zaman (1®N) ortaya 2 çýkmaktadýr. Diðer yöntemlerde bu tür bir iþlem, toplam N çeviri yapýlmasý anlamýna gelir. Oysa kaynak tümcenin dilden baðýmsýz anlamsal gösterimi elde edildikten sonra, bu gösterime iliþkin tümcenin N adet dil için üretilmesi yeterlidir. Bu tür çeviri yöntemi, Avrupa Birliði gibi birçok dilin kullanýldýðý ortamlar için kullanýþlý olmaktadýr. Ancak “interlingua” adý verilen bu yapýnýn kullanýlmas, doðal dil ile ifade edilen anlamý baþka bir biçimde sunacak olan “bilgi temsil diline” çevirmedeki güçlük gibi sorunlara neden olmaktadýr. Her dilin belirttiði özellikler farklýlýk göstermektedir. Örneðin Türkçede 3. tekil þahýslar için cinsiyet bilgisi yokken Ýngilizcede bulunmaktadýr. Benzer þekilde Türkçede amca ve dayý ayrý sözcüklerle ifade edilirken Ýngilizcede her ikisi de uncle sözcüðü ile belirtilir. Anlamsal gösterimin dilden baðýmsýz olabilmesi için her dilde farklý ifade edilen kavramlarý içermek için de bir yol bulunmasý gerekmektedir. Bu farklýlýklardan dolayý dilden baðýmsýz bir gösterimin tam olarak nasýl saðlanabileceði konusunda halen büyük eksiklikler bulunmaktadýr. 3.2.2 Ýstatistiksel Yöntemler Bilgi tabanlý bilgisayarlý çeviri yöntemlerinin ana konusu, kaynak dildeki tümcelerin hangi bilgi seviyesinde (sözcük, söz dizimsel yapý, anlamsal yapý gibi) iþlem göreceðini belirlemek ve seçilen gösterimin hedef dile nasýl aktarýlacaðýnýn yollarýný araþtýrmak üzerine yoðunlaþýr. Ýstatistik tabanlý yöntemler ise tamamen sonuç odaklý çalýþýr ve aktarma iþleminin nasýl yapýlmasý gerektiðinden çok nasýl sonuçlanmasý gerektiði üzerinde dururlar. Ýstatistiksel çeviri yöntemi kavramý 1950’li yýllarda ortaya atýlmýþ olsa da gerçek anlamdaki çalýþmalar 1990’lý yýllarda baþlamýþtýr Elektronik ortama aktarýlmýþ, koþut çevirilerden oluþan metinlerin sayýsýnýn giderek artmasý ve bilgisayarlarýn yeteneklerinin hýzla artmasý, kural tabanlý aktarým için kural karmaþasýnda zorlanan araþtýrmacýlarýn, istatistiksel çeviri yöntemlerine doðru hýzlý bir kaymalarýna neden olmuþtur. Ýstatistiksel yöntemlerin çalýþma mantýðý, çeviri iþlemini, Shannon’un Gürültü Kanal Modeli (Noisy Channel Model) uyarýnca bozulmuþ bir iþareti düzeltme olarak deðerlendirmektedir. Bu yaklaþýma göre hedef dildeki tümce H, iletim kanalýndan geçerken kanaldaki gürültü nedeniyle deðiþmiþ ve çýkýþta kaynak dildeki tümce K oluþmuþtur. Yöntemin ilkesi, iletim kanalýnýn çýkýþ ucunda gözlenen kaynak dildeki tümce K’den yola çýkarak gönderilen asýl metne yani “hedef dildeki” tümceye ulaþmaktýr. Bunu saðlamak üzere aþaðýdaki denklemin çözümünün bulunmasý yeterli olacaktýr: H = argmax P ( H | K ) HÎHedef Dil Denklem (1) ’deki olasýlýk deðerini Bayes kuralýna göre tekrar yazarsak: (1) Prof. Dr. Eþref Adalý Ýletme (Üretme) P(H) P(K|H) Giriþ H Gürültülü iletiþim kanalý Çýkýþ K En olasý tümce H Argmax Dil modeli P(H) X Aktarým modeli P(K|H) Kaynak Tümce Çözme Þekil-3.10: Gürültü Kanal Modeli uyarýnca çeviri iþlemi P (K | H )P (H ) HÎHedef Dil P (K ) H = argmax (2) Bu denklemde P(K) olasýlýðý bütün H tümceleri için sabit olduðundan argmax iþlemi için sonucu deðiþtirmez. Bu durumda denklem (2)’yi aþaðýdaki gibi yazabiliriz: H = argmax P ( K | H ) P ( H ) 424 3 123 HÎHedef Dil 1 (3) Çeviri modeli Dil modeli Bu denklemde iki bileþen göze çarpmaktadýr. Bunlardan P(K|H), çeviri modeli olarak adlandýrýlýr ve hedef dildeki H tümcesinin, kaynak dildeki K tümcesinin çevirisi olma olasýlýðýný belirtir. Ýkinci bileþen ise H tümcesinin, hedef dildeki olasýlýðýný belirtir. Bu iki olasýlýk deðerinin çarpýmýný en çoklayan H tümcesi sonuç olarak üretilir. Denklem (3)’ün sezgisel açýdan yorumu ise, kaynak dildeki K tümcesinin en yakýn çevirisi olma (çeviri modeli bileþeni) ve ayný zamanda da hedef dil için akýcý ve geçerli bir tümce olma (dil modeli bileþeni) koþullarýný birlikte saðlayan en olasý H tümcesinin bulunmasýdýr. Sonuç olarak istatistiksel yöntemlerle bilgisayarlý çeviri yapabilmek için aþaðýdaki üç bileþenin elde edilmesi gereklidir: • P(H)’nin hesaplanabilmesi için hedef dil için bir Ýstatistiksel Dil Modeli (ÝDM) • P(K|H)’nin hesaplanabilmesi için bir çeviri modeli • Bütün bu olasýlýk deðerlerini kullanarak verilen bir K tümcesi için en olasý H tümcesini üretebilen bir çözücü Bilgisayarlý Çeviri Gerekli dil modelleri sadece hedef dil için üretilmek zorunda olduðundan bu dil modellerinin oluþturulmasý çeviri modelinin üretilmesine göre daha kolaydýr. Çeviri modelinin oluþturulmasý için kaynak tümcedeki sözcük veyaa sözcük öbeklerinin, hedef dilde hangi sözcük veya sözcük öbeklerinin karþýlýðý olduðu (ürettiði) bilgisi gereklidir. Bu bilgileri içeren çok sayýda tümce üzerinde çeþitli tekniklerle gerçekleþen hesaplamalar sonucunda çeviri modeli hesaplanmaktadýr. Bu amaçla, birbirlerinin çevirisi olan, hedef ve kaynak dildeki büyük miktarda (genellikle milyonlarca tümceden oluþan) metinler önce tümce temelinde daha sonra da sözcük/sözcük öbeði temelinde paralelleþtirilir. Bu iþlemlere tümce hizalama, sözcük hizalama, sözcük öbeði hizalama adý verilir. Ýstatistiksel çevirinin son bileþeni ise çözücüdür. En olasý çeviri olan H tümcesinin nasýl bulunacaðý matematiksel olarak bilinse de hedef dildeki olasý bütün tümceleri üreterek bunlardan denklem (3)’e göre en olasý H tümcesini belirlemek pratik olarak olanaksýzdýr. Bu amaçla demetli arama gibi daha verimli arama yöntemleri kullanýlabilir. 3.2.3 Örnek Tabanlý Yöntemler Örnek tabanlý yöntemler her iki dilde karþýlýklý tümceler içeren tümcelerden oluþan bir derlemi kullanarak “örnekseme” yoluyla çeviri ilkesini kullanýr. Çalýþma ilkesinden dolayý “örneksemeyle çeviri” olarak da isimlendirilir. Yöntemin çeviri üzerindeki temel varsayýmlarý þunlardýr: • Ýnsanlar basit tümceleri derinlemesine dil bilgisi kurallarýyla çevirmezler. • Aksine, insanlarýn çeviri yaparken ilk adýmlarý kaynak tümceyi belirli alt öbeklere parçalamaktýr. Daha sonra bu öbekleri hedef dile çevirir ve son adýmda da bu öbekleri uygun biçimde birleþtirerek daha uzun sonuç tümcesini üretir. • Öbeklerin çevrilmesinde ise daha önceden “akýlda kalan” örneklere örnekseme yapýlýr. Örneðin aþaðýdaki iki çeviriyi ele alalým: A man eats vegetables Acid eats metal « Hito wa yasai o taberu « San wa kinzoku o okasu Bu iki örnek tümceye benzetilerek aþaðýdaki girdi tümcesi çevrilmek istensin: He eats potatoes Kuþkusuz çeviri iþlemi için bir aktarým sözlüðü gereklidir. Ama buradaki asýl sorun Ýngilizce eat eylemi için olasý iki Japonca karþýlýktan (taberu ve okasu) hangisinin kullanýlacaðýna karar vermektir. Yöntem, doðru karar vererek taberu eylemini seçer çünkü tümcenin diðer ögeleri he ve potatoes sözcükleri, örneklerden man ve vegetables sözcüklerine, acid ve metal sözcüklerinden anlamsal olarak daha yakýndýr. Benzer mantýkla aþaðýdaki giriþ tümcesi için de okasu eylemi seçilir: Prof. Dr. Eþref Adalý Sulfric acid eats iron. Sözcüklerin anlamsal olarak birbirlerine yakýnlýk ve uzaklýklarý, bir sözlük ve kavramlar dizini kullanýlarak bulunur. Kavramlar dizini, sözcüklerin eþ/zýt anlamlýlarýný, alt/üst kavramlarýný, parça/bütün iliþkinlerini de içeren geniþ kapsamlý bir sözlük olarak deðerlendirilebilir. Eðitim derlemindeki tümceler çoklukla birbirinden sadece tek sözcük farklý olacak þekilde seçilir. Bu sayede yöntemin tümcelerin alt parçalarýný daha kolay öðrenmesi saðlanýr. How much is that red umbrella? « Ano akai kasa wa ikura desu ka? How much is that small camera? « Ano chiisai kamera wa ikura desu ka? Bu örneklerden aþaðýdaki bilgiler çýkartýlýr: • How much is that X? « Ano X wa ikura desu ka? • red umbrella « akai kasa • small camera « chiisai kamera Öðrenilen bu bilgiler daha sonraki çevirilerde kullanýlmak üzere saklanýr. Son geliþmelerle bu kurallarýn saklanmadan çalýþma anýnda çýkartýlarak kullanýlmasý yoluna gidilmiþtir. Bu yöntem yayýmlandýktan sonra Türkçe dâhil birçok dilde çalýþmalar yapýlmýþtýr. 3.3 Çeviri Kalitesinin Deðerlendirilmesi Geliþtirilen bilgisayarlý çeviri yöntemlerinin ve yöntemler üzerinde yapýlan deðiþikliklerinin sonuçlarýnýn incelenmesi için üretilen sonuçlarýn, yani çevirilerin doðruluðu ve baþarýsý ölçülmelidir. Çeviri kalitesinin ölçülmesi için en basit yol, sistem çýktýlarýnýn insanlar tarafýndan çeþitli yönlerden (üretilen tümcenin akýcýlýðý, kaynak tümcedeki anlamýn aktarýlmasýndaki doðruluk gibi) derecelendirmesidir. Üretilen çýktýlarý insanlar kullanacaðý için en uygun deðerlendirme yöntemi aslýnda bu olmasýna karþýn hem maliyet açýsýndan çok pahalý hem de hýz açýsýndan oldukça yavaþtýr. Ayrýca aktarým sistemlerinin sürekli geliþtirildiði ve her yapýlan deðiþikliðin etkilerini görmek için böyle bir deðerlendirmeye gereksinim duyulduðu göz önüne alýnýrsa bu yöntemin yapýlabilirliði oldukça azalmaktadýr. Bazý deðerlendirme sistemleri ise baþarým ölçütü olarak sistem tarafýndan üretilen çevirinin bir çevirmen tarafýndan düzeltilmesi sürecinin karmaþýklýðýný ölçme esasýna dayanmaktadýr. Bu tür yöntemlerin çýkýþ fikri, bilgisayarlý çeviri sistemlerinin çýktýlarýnýn genel olarak insan emeði ile düzeltilerek kullanýldýðýný dolayýsý ile sistemin baþarýsýnýn, çevirmenin harcadýðý çaba ile ölçülebileceði görüþüdür. Bu tür ölçme yöntemleri çevirmenin harcadýðý çabayý, aday çeviri üzerinde tüm düzeltmeleri yapmak için tuþ takýmýnda kaç defa tuþa basýldýðý veya çevirmen tarafýndan düzeltilen son sürümü ile aday arasýndaki en kýsa deðiþim uzaklýðý (minimum edit distance) deðeri ile orantýlý olarak hesaplar. Bilgisayarlý Çeviri Deðerlendirmede izlenebilecek bir baþka yol da otomatik yöntemlerle deðerlendirme yapmaktýr. 3.3.1 BLEU/NIST BLEU yöntemi, IBM tarafýndan 2002 yýlýnda geliþtirilmiþtir. Deðerlendirme mantýðý, sistem çýktýsý aday tümcelerin, çevirmenler tarafýndan elle çevrilmiþ k adet referans çeviri ile olan benzerliðinin ölçülmesine dayanýr. Benzerliðin ölçülmesi ise sistem çýktýsýndaki sözcüklerin (1-gram) ve sözcük dizilerinin (2,3,4,…-gram), referans çevirilerdeki sözcük ve sözcük dizileri ile eþleþtirilmesiyle yapýlýr. Uygulamada dörtten uzun sözcük dizilerinin eþleþtirilmesinin gereksiz olduðu görülmüþtür. Çevirinin doðasý gereði bir tümcenin, ayný anlamý taþýyan birden fazla çevirisi olabilir. Sözcük ve ifade seçimlerindeki bu serbestlik derecesi deðerlendirme aþamasýnda birden fazla referans çeviri kullanýlarak çözülmeye çalýþýlmýþtýr. Her n-gram mertebesi için, C derlemi içindeki her S aday tümcesi için hesaplanan deðiþtirilmiþ keskinlik deðeri pn þu þekilde bulunur: Pn = å å å å SeC ngramÎS SeC A det eþleþen ( ngram) ngramÎS A det( ngram) (4) Bu denklemde, çeviri aday tümcesinde yer alan ngram (yani sözcük veya sözcük dizisi), referans çevirilerde birden fazla defa geçse de bir eþleþme olarak sayýlýr. BLEU yöntemi aðýrlýklý olarak keskinlik (precision) ölçütüne dayanmaktadýr. Birden fazla referans çeviri kullanýlabildiði için anma deðerini hesaplamak zordur. Bu nedenle, referans çevirilerden çok daha kýsa bir aday çevirinin, yüksek keskinlik deðeri sayesinde yüksek BLEU puanlarý almasýný engellemek amacýyla bir kýsalýk cezasý tanýmlanmýþtýr: ì 1 BP = í 1- r / e îe eð er c > r eð er c £ r (5) Bu denklemde c derlemdeki aday çevirilerin tamamýnýn toplam uzunluðunu, r ise etkin (effective) referans uzunluðunu göstermektedir. Etkin referans uzunluðu, referans tümceler derlemi içerisinde kendi aday tümcesinin uzunluðuna en yakýn olan referanslarýn uzunluklarý toplamýdýr. Bu tanýmlamalardan sonra BLEU puaný aþaðýdaki gibi hesaplanýr: N BLUE = BP ´exp( å wn log Pn ) (6) n= 1 BLEU deðeri temel olarak eþleþen n-gram oranlarýnýn geometrik ortalamasýnýn bulunmasýyla hesaplanýr ve 0 ile 1 aralýðýndadýr. BLEU puanýn 1 olmasý aday çevirilerin referanslardan en az 1 tanesi ile bire bir ayný olduðunu göstermektedir. Prof. Dr. Eþref Adalý Yapýlan çalýþmada bir deneme kümesindeki tümcelerin çevirilerinin BLEU puanlarý ile seçilen hakemlerin çevirilere verdikleri puanlar karþýlaþtýrýlmýþ ve BLEU puanlarý ile bu kiþilerin deðerlendirmeleri arasýnda ilinti olduðu gösterilmiþtir . NIST yaklaþýmý da temel olarak BLEU ile ayný deðerlendirme adýmlarýný izlemesine karþýn n-gram eþleþmelerinin geometrik ortalamasý yerine aritmetik ortalamasýný kullanýr ve hesaplanan pn deðerlerini n-gramlarýn sýklýklarý ile iliþkilendirilir (daha az sýklýða sahip eþleþme daha önemlidir) . Son yýllarda yapýlan çalýþmalar sonucunda BLEU deðerlendirme sisteminin bazý olumsuz yanlarý ortaya çýkartýlmýþtýr. Örneðin yüksek BLEU puanlarýnýn her zaman çevirilerin daha kaliteli olduðunun bir göstergesi olmadýðý tersine BLEU puanlarýnda artýþ elde edilerek üretilen çevirilerin kalitesinin yükseltilemeyebileceði ortaya çýkartýlmýþtýr. Ancak BLEU yönteminin otomatik olmasý ve insan emeði gerektiren deðerlendirmelere oranla çok daha ucuz ve hýzlý olmasý gibi nedenlerden dolayý günümüzde BLEU yöntemi yaygýn olarak kullanýlmaktadýr. Anýlan nedenlerden ötürü BLEU yönteminin farklý (en azýndan istatistiksel - kural tabanlý gibi farklý aktarým yaklaþýmlarý kullanan) sistemlerin baþarýlarýnýn karþýlaþtýrýlmasýnda kullanýlmamasý gerektiði BLE'nun daha çok tek bir sistem üzerinde yapýlan ardýþýk deðiþikliklerin etkilerini deðerlendirmede kullanýlmasýnýn uygun olacaðý görüþü aðýrlýk kazanmýþtýr . 3.3.2 F Deðeri F-deðeri, bilgi getiriminde kullanýlan keskinlik ve anma deðerlerinin harmonik ortalamasý olarak tanýmlanabilir. Bu yöntem aday tümce ile referans tümce arasýnd, daha uzun sözcük dizisi eþleþmelerini kayýracak biçimde “en uzun eþleþmeyi” bulmak üzerine yoðunlaþýr. Bu eþleþmenin bulunmasýndan sonra keskinlik ve anma deðerleri, bulunan bu en uzun eþleþme EUE sözcük sayýsý ile, sýrasýyla aday A ve referans R tümcelerindeki sözcük sayýlarýna bölünerek bulunur: Keskinlik ( A| R ) = Anma ( A| R ) = | EUE ( A, R )| | A| | EUE ( A, R ) | R| (7) (8) 3.3.3 Meteor Meteor ölçütü, F-ölçütü’nü birkaç yönden deðiþtirerek kullanmaktadýr. Meteor deðerlendirme sisteminde bazý dilbilimsel süreçler deðerlendirme aþamasýna dâhil edilerek doðrudan sözcük eþleþmeleri yerine sözcük köklerinin de eþleþmesine olanak tanýnmýþtýr. Ayrýca Meteor yönteminde, anma deðeri üzerinde aðýrlaþtýrma yapan bir harmonik ortalama kullanýlýr : Bilgisayarlý Çeviri Fort = 10PR R + 9P (9) Keskinlik ve anma deðerlerinin sözcük eþleþmesine (1-gram) baðlý olmasýndan dolayý daha uzun eþleþmeler deðerlendirmeye alýnmamaktadýr. Yöntem bu açýðý kapatmak amacýyla bir ceza katsayýsý içermektedir. Bu katsayý hesaplanmadan önce, aday ve referans tümcede birbirlerinin karþýlýðý olan sözcük gruplarý (chunks) oluþturulur. Bu sözcük gruplarýnýn oluþturulmasýnda tek ölçütt, hem aday hem de referans tümcede birbirlerinin karþýlýðý olan sözcüklerin sýralarýnýn grup içinde de ayný kalmasýdýr. Örneðin “daha sonra beraber eve gittiler” aday çevirisi ile “daha sonra hep beraber eve gittiler” referans çevirisinde iki grup oluþur : (1) “daha sonra” (2) “beraber eve gittiler”. Bu gruplamadan sonra ceza katsayýsý ve sonuç puaný aþaðýda formüllere göre hesaplanýr: é ù | gruplar| Ceza = 0,5 ´ ê ú ë| eþleþen sözcükler| û 3 METEOR = Fort ´ (1 - Ceza ) (10) (11) Meteor yönteminin en önemli olumsuz yönü birden fazla referans çeviri olduðunda ortaya çýkmaktadýr. Her referans çeviri için bir puan hesaplanarak en yüksek puan çýktý olarak kullanýlýr. Oysa bazý durumlarda çevirinin bir bölümü (örneðin özneyi oluþturan ad öbeði) referanslardan bir tanesinin bir bölümü ile eþleþirken çevirinin baþka bir bölümü (örneðin eylem öbeði) baþka bir referans ile eþleþebilir. Yöntemin baþka bir olumsuz tarafý ise puanlamada kullanýlan katsayýlarýn deðerlerinin belirlenmesidir. Geçerli katsayýlar deneme-yanýlma yöntemi ile bulunduðundan en uygun katsayýlar olup olmadýðý þüphelidir. 3.4 Akraba ve Bitiþken Diller Arasýnda Çeviri Akraba diller arasýndaki yapýsal benzerlikler yardýmý ile bu diller arasýnda bilgisayarlý çevirinin gerçekleþtirilmesi farklý dil aileleri arasýnda çeviri yapmaktan en azýndan sezgisel olarak daha kolay görünmektedir. Tamamen farklý dil ailelerinde sýnýflandýrýlan diller arasýnda çeviri yapmanýn zorluðu. A. C. Tantuð tarafýndan gerçekleþtirilen çalýþmada akraba diller arasýnda bilgisayarlý metin çevirisi için istatistiksel ve bilgi tabanlý yöntemlerin beraber kullanýldýðý karma modeller önerilmiþtir. Önerilen bu karma modeller sayesinde hem istatistiksel yöntemlerin en maliyetli yönü olan hizalanmýþ eðitim kümesi gereksinimi ortadan kaldýrýlmýþ olmakta hem de yüksek baþarýlar elde eden istatiksel yöntemlerin sunduðu getirilerden faydalanýlmýþ olunmaktadýr. Geliþtirilen modeller temelde bitiþken yapýdaki akraba diller için tasarlanmýþtýr. Çalýþma kapsamýnda önerilen modeller Türk dil ailesindeki dillerin birbirine çevrilmesi amacýyla incelenmiþ, seçilen bir dil çifti için uygulama gerçekleþtirilerek modellerin baþarýmý ortaya konulmuþtur. Ancak geliþtirilen modeller Türk dillerine özgü olmayýp dilden baðýmsýz düþünülmüþ, akraba ve bitiþken olan tüm dil çiftleri için kullanýlabilir niteliktedir. Prof. Dr. Eþref Adalý Modellerin çýkýþ noktasý (12) baðýntýsýyla verilmiþtir. Bu denklem aþaðýdaki tekrar verilmiþtir : H = argmax P ( K | H ) P ( H ) 424 3 123 HÎHedef Dil 1 (12) çeviri modeli Dil modeli Ýki bileþenden oluþan bu denklemin dil modeli bileþeni sadece hedef dil için hazýrlandýðýndan çeviri modeline göre daha kolay oluþturulabilir. Çeviri modelinin oluþturulmasý için çok sayýda hizalanmýþ tümce çiftlerine gereksinim duyulmaktadýr. Ancak günümüzde dahi her dil çifti için birbirlerinin çevirisi olan hizalanmýþ tümcelerin yeterli miktarlarda bulunmasý mümkün olmamaktadýr. Amacýmýz bu olumsuz koþullarda da istatistiksel çevirinin kullanýlabilir hâle gelmesi için istatistiksel çevirideki bu “çeviri modeli olasýlýk daðýlýmý” yerine kullanýlabilecek bir modelin oluþturulmasýdýr. Kuramsal açýdan denklem (12) hedef dildeki bütün tümceler içerisinden çeviri ve dil modellerine göre en yüksek olasýlýða sahip tümcenin bulunmasý anlamýna gelmektedir. Ancak bir dildeki olasý tümcelerin sayýsýnýn sonsuz olmasý nedeni ile uygulamada çeviriyi üreten çözücü hedef dildeki H tümcesini adým adým (sözcük veya sözcük öbeði adýmlarý ile) üretmeye baþlar . Her adýmda, çeviri modeline ve dil modeline göre en yüksek olasýlýða sahip seçenek veya seçeneklerden devam ederek sonunda tüm çeviri tümcesini oluþturur. Bu çalýþma düzeninde çeviri modeli, kaynak tümcenin sözcüklerinin veya sözcük öbeklerinin karþýlýðý olabilecek tümceleri (olasýlýklarýna göre) oluþtururken dil modeli bileþeni de oluþan bu tümceler içinden hedef dil için en uygununu bulmaya çalýþýr. Bir anlamda “çeviri modeli”, hedef dildeki tüm tümcelerde arama yapmak yerine kaynak tümcenin çevirisi olabilecek tümceleri olasýlýklarýna göre seçerek aramayý yönlendirmektedir. Bu çalýþmada önerilen yaklaþým, akraba diller, örneðin Türk dilleri arasýnda çeviri söz konusu olduðunda olasýlýk daðýlýmý esasýna göre çalýþan “çeviri bileþeninin”, kural tabanlý çalýþan “aktarým fonksiyonu” ile deðiþtirilerek istatistiksel dil modeli ile beraber kullanýlmasý yönündedir. Bu yaklaþým sezgisel olarak dil modeline göre en uygun tümceyi, “çeviri modelinin yönlendirmesi ile hedef dildeki bütün tümceler kümesinde aramak yerine, aktarým fonksiyonu tarafýndan aktarýlan sözcük/sözcük öbekleri ile oluþturulabilecek tüm olasý tümceler kümesinde aramak” olarak yorumlanabilir. Bu sayede Türk dilleri gibi birbirleri ile benzer akraba diller arasýnda kullanýlabilecek bilgi tabanlý yöntemler ve istatistik tabanlý yöntemlerin birleþimi olan karma bir çeviri modeli önerilmiþtir. Önerilen bu modele göre denklem (12)’nin güncellenmiþ hâli aþaðýdaki gibidir: ^ H = arg max P ( H ) 23 ( K) 1 HÎ F 123 aktarým fonksiyonu (13) dil modeli Önerilen çeviri modeli de iki bileþenden oluþmaktadýr. Aktarým fonksiyonu, K tümcesinin karþýlýðý olabilecek tüm tümceleri üreten bir fonksiyon olarak görev yaparken dil modeli ise Bilgisayarlý Çeviri klasik anlamda kullanýlarak üretilen karþýlýklar arasýndan hedef dile göre en yüksek olasýlýk deðerine sahip tümcenin seçilmesini saðlar. Ancak önerilen bilgisayarlý çeviri yöntemi ile istatistiksel çeviri yöntemi arasýnda vurgulanmasý gereken önemli bir farklýlýk bulunmaktadýr. Ýstatistiksel çeviri sisteminde yer alan çeviri modeli, kaynak dildeki tümcenin karþýlýðý olabilecek aday tümceler kümesini üretirken ayný zamanda bunlar için birer olasýlýk deðeri de atamaktadýr. Bu olasýlýk deðeri, dil modeli olasýlýðý ile birleþtirilerek en yüksek olasýlýklý çevirinin belirlenmesinde rol oynar. Oysa A. C. Tantuð tarafýndan önerilen aktarým modelindeki aktarým fonksiyonu, sadece kaynak tümcenin karþýlýðý olabilecek tümceler üretmektedir; bunlara herhangi bir olasýlýk deðeri atanmamaktadýr. Bu tümcelerden en uygun olaný ise dil modeli bileþeni tarafýndan en yüksek olasýlýklý tümcenin seçilmesi ile belirlenir. Seçilen dil çiftinin bitiþken olmasý durumunda aktarým fonksiyonu ve dil modeli bileþeni özelleþtirilerek kullanýlmalýdýr. Sonraki bölümlerde önerilen aktarým fonksiyonu ve dil modeli türlerinin ayrýntýlarý ele alýnmýþtýr. 3.4.1 Aktarým Fonksiyonu Modelleri Akraba diller söz konusu olduðunda diller arasýndaki benzerlikleri kullanarak çeviri sürecini basitleþtirmenin en kolay yolu sözcük temelinde çalýþan doðrudan aktarým modelinin kullanýlmasýdýr. Özellikle söz dizimi açýsýndan büyük farklýlýklar göstermeyen akraba diller arasýnda daha uygun olan bu doðrudan aktarým modeli, bitiþken diller için sözcük kökleri ile birlikte biçim bilimsel yapýlarýn da aktarýlmasýný saðlayacak biçimde deðiþtirilmiþtir. 3.4.1.1 Aktarým Modeli 0 – Temel Model Temel aktarým modelinin matematiksel açýklamasý aþaðýda verilmiþtir. K, toplam N adet sözcükten oluþan (k1,k2,....kn) kaynak dilde bir tümce olsun. K = k 1 k 2 .... k n = k 1N (14) Bitiþken diller söz konusu olduðunda, her bir sözcüðün hedef dile aktarýlmasý için öncelikle biçim bilimsel çözümlemesinin yapýlmasý, sözcük kökünün ve diðer biçim bilimsel yapýlarýn bulunmasý gereklidir. Buna göre biçim bilimsel çözümleme aþamasý, giriþi kaynak dilde yüzeysel biçimdeki sözcük ki, çýkýþý ise bu sözcüðün olasý tüm biçim bilimsel çözümlemelerini içeren bir küme olan C(ki) çözümleme fonksiyonu ile modellenir. C ( k i ) = {ci 1 , ci 2 , ..., cini } (15) Burada ni , ki sözcüðü için üretilen biçim bilimsel çözümlemelerin toplam sayýsýdýr ve ni ³ 1 þeklinde alttan sýnýrlýdýr. Üretilen her bir biçim bilimsel çözümleme, kök ve bu köke eklenen deðiþken sayýda biçim bilimsel özelliklerden oluþur: cij = kök ij + bij 1 +...+bijk +... bijmi (16) Prof. Dr. Eþref Adalý Biçim bilimsel özellikler bijk ve sözcük kökleri kokij aktarýlmasý A(cij) aktarým fonksiyonu ile saðlanýr. Bu aktarým fonksiyonu giriþ deðeri olarak biçim bilimsel bir çözümleme cij’yi almakta, çýkýþ olarak ise sözcük kökünün ve biçim bilimsel özelliklerin hedef dile aktarýlmýþ hâlini üretmektedir: { A ( cij ) = a ij 1 , ..., +a ijk , ..., a ijnij } (17) Sözcük köklerinin çevrilmesinde birden-çoða iliþki olduðu için bir çözümlemeye karþýlýk birden fazla çeviri oluþabilmektedir. Dolayýsý ile A fonksiyonu çokdeðerli bir fonksiyon olarak iþlev görmektedir. Bu koþullarda üretilen sözcük sayýsý nij ³ 1 olacaktýr. Kaynak tümcedeki ki sözcüðünün cj çözümlemesine karþýlýk olarak üretilen her bir aijk çýktýsý, çözümleme ile benzer yapýya sahiptir: (18) a ijk = kökhijk + bhijk 1 + bhijk 2 +...+bhijkmijk Burada kokh hedef dildeki kökü, bh ise hedef dildeki biçim bilimsel özellikleri göstermektedir. Bütün bu tanýmlamalardan sonra transfer fonksiyonun tanýmý yapýlabilir. Aslýnda tanýmlanmasý amaçlanan aktarým fonksiyonu F, bir fonksiyon deðildir. F, bir baðýntý olarak tanýmlanmalýdýr. Hedef dildeki tüm tümceler üzerinde tanýmlý olan bu baðýntý, yalnýzca “kaynak dildeki sözcüklerin hedef dildeki karþýlýklarýndan oluþan bir dizi sözcüðü içeren” bir alt kümedir: F ( K ) = F ( k 1N ) = U A(C 1j )´ c1 j ÎC ( k1) N =Õ U c2 j ÎC ( k2 ) U A(c 1j A ( c2 j )´...´ U A(c Nj ) cNj ÎC ( kN ) (19) ) i = 1 cij ÎC ( ki ) Eðer fi(K), F(K), baðýntýsýnýn i. elemaný olarak tanýmlanýrsa geliþtirilen aktarým modelimizin ^ amacý olasý bütün çeviriler içerisinden en yüksek olasýlýklý H B ‘yi bulmak olarak ifade edilebilir. Buradaki alt indis B, oluþan tümcenin sözcüklerinin yüzeysel biçim yerine yapýsal biçimde olduðunu belirtmektedir. En yüksek olasýlýklý tümcenin bulunmasý ise, E eðitim derlemi üzerinde eðitilen bir L(E) dil modeli ile saðlanýr: ^ H B = arg max p( f i ( K )| L( E ) (20) f i ( K) ÎF ( K) Aktarým modelinin son aþamasý ise hedef dildeki biçim bilimsel üretici tarafýndan dönüþtürülen sözcük kökleri ve biçim bilimsel yapýlardan yüzeysel biçimlerin elde edilmesidir. Bu üretim aþamasý ise bir U fonksiyonu ile temsil edilir: ^ ^ H = U ( H B ) = h1 h2 ... hM (21) Bilgisayarlý Çeviri Modelin son çýktýsý olan, kaynak dildeki sözcüklerin hedef dildeki karþýlýklarýnýn sýralandýðý tümceyi göstermektedir. Aktarým aþamasýnda birden çoða bir yöntem izlendiðinden oluþan çeviri tümcesinin sözcük sayýsý M ³ N’dir. 3.4.1.2 Aktarým Modeli I Temel modelin en önemli olumsuzluðu sözcük bazýnda sadece bire bir veya birden çoða aktarým yapýlmasýna izin vermesidir. Temel modelin bu kýsýtlamasý sonucu kaynak tümcede birden çok sözcükle ifade edilen yapýlar hedef dile doðru aktarýlamayacaktýr. Bu sorunu gidermek amacý ile temel modele çoktan çoða aktarým yapmak üzere birtakým eklemeler yapýlarak "Aktarým Modeli I" elde edilmiþtir. Bu eklemelerle öncelikle Çoklu Sözcük Gruplarý (ÇSG) belirlenmiþ, daha sonra bu gruplar uygun þekilde hedef dile aktarýlmýþtýr. Bitiþken diller için çoklu sözcük gruplarýnýn bulunma süreci, Ýngilizce, Çince gibi tek heceli veya tek heceliye yakýn dillerdeki kadar basit deðildir. Bunlar ve benzeri dillerde basit bir liste kullanýlarak çoklu sözcük gruplarý belirlenebilirken Türkçe, Fince, Japonca, Macarca gibi bitiþken dillerde çoklu sözcük kümelerininn bileþenleri çeþitli biçim bilimsel deðiþikliklere uðrayabilirler. Bu deðiþiklikler ÇSG’lerin, basitçe bir listeden bakýlarak belirlenmesini engellemektedir. Sonuç olarak bitiþken dillerde ÇSG’lerin bulunmasý için tümcedeki sözcüklerin kökleri ve diðer biçim bilimsel özellikleri gibi daha ayrýntýlý bilgilerle düzenli ifadeler veya sonlu durumlu dönüþtürücüler gibi daha karmaþýk araçlara gerek duyulur. Temel model tanýtýlýrken verilen matematiksel altyapýya baðlý kalýnarak ÇSG’lerin iþlenmesi ile ortaya konulan yeni modelin matematiksel ifadesi aþaðýdaki gibi kurulmuþtur. ÇSG’leri, bir veya birden fazla sözcüðe ait biçim bilimsel çözümleme kümeleri arasýndan belirli bir yönteme veya kural dizisine göre seçilen elemanlardan oluþan sýralý eþleþmeler (ordered pairs) olarak adlandýrýlabiliriz. Örneðin aþaðýda bir K tümcesinin ardýþýk üç sözcüðü (ki ki+1 ki+2) için biçim bilimsel çözümleme sonuçlarý bulunmaktadýr: C ( k i ) = {ci ,1 , ..., ci ,2 , ..., ci ,x , ..., ci ,ni } C ( k i + 1 ) = {ci + 1,1 , ..., ci + 1,2 , ..., ci + 1,x , ..., ci + 1,ni +1 } (22) C ( k i + 2 ) = {ci + 2,1 , ..., ci + 2,2 , ..., ci + 2,x , ..., ci + 2,ni + 2 } Varsayalým ki ÇSG bulucu kurallar, bu üç sözcüðün çözümlemeleri içerisindeki ci,x , ci+1,y ve ci+2,z çözümlemelerinin bir ÇSG oluþturduðunu belirlesin. Bu durumda bu üç elemanlý sýralý eþleþmeler (ci,x , ci+1,y , ci+2,z) , G(K) kümesinin bir elemaný olur. Bu durumda G(K) aþaðýdaki kümeler üzerinde tanýmlý bir baðýntý olmaktadýr: N G (K ) Í Õ C (k i ) (23) i =1 Tümceyi oluþturan bütün sözcüklerin tüm çözümlemelerinin kartezyen çarpýmý içerisinde arama yapýlarak kurallara uyan sýralý çiftler G(K) baðýntýsýnýn elemaný olarak belirlenir. Ancak ifade bu þekli ile matematiksel olarak yanlýþtýr. Çünkü kartezyen çarpýmý ile oluþturulan Prof. Dr. Eþref Adalý kümenin elemanlarýnýn hepsi mutlak olarak N sözcükten oluþmalýdýr. Bu ise þu anlama gelmektedir: sadece N sözcükten oluþmuþ ÇSG’leri iþlenebilir, yukarýda örnekteki (ci,x , ci+1,y , ci+2,z) gibi üç elemanlý bir sýralý eþleþme girdisi G(K) kümesinin elemaný olamaz. Bunu düzeltmek için G(K) baðýntýsýnýn üzerinde tanýmlý olduðu kümelere etkisiz bir eleman eklemek yeterli olacaktýr: N G ( K ) Í Õ (C ( k i ) È {e}) (24) i =1 ÇSG belirleyici kurallarýn, e girdisini boþ katar olarak yorumlayacaðý ve göz ardý edeceði düþünüldüðünde (ci,x , ci+1,y , ci+2,z) girdisi artýk (e, e,…, ci,x ,ci+1,y ,ci+2,z ,…,e,e) biçimine dönüþerek G(K) kümesine eklenebilir. Sözcük sözcük aktarma yapýlýrken, eðer sýradaki sözcüðün herhangi bir çözümlemesi cij, G(K) içerisindeki ÇSG’lerin bir parçasý ise bu sözcüðün hiçbir çözümlemesi aktarýlmaz. Ancak eðer cij, bu ÇSG’nin son sözcüðü ise cij yerine bu ÇSG birleþtirilerek aktarým fonksiyonuna gönderilir. Buna göre yukarýda verilen (ci,x , ci+1,y , ci+2,z) örneðinin aktarýlma süreci aþaðýdaki gibidir: C ( k i ) = {ci ,1 + ci ,2 , ..., ci ,x , ... ci ,ni } E (C ( k i )) = {Æ, Æ, ... Æ, ... Æ} C ( k i + 1 ) = {ci + 1,1 + ci + 1,2 , ..., ci + 1,x , ... ci + 1,ni +1 } E (C ( k i + 1 )) = {Æ, Æ, ... Æ, ... Æ} (25) C ( k i + 2 ) = {ci + 2,1 + ci + 2,2 , ..., ci + 2,x , ... ci + 2,ni + 2 } E (C ( k i + 2 )) = {Æ, Æ, ... B ( ci ,x , ci + 1, y , ci + 2,z ), ... Æ} Bu çalýþma düzenini saðlayan E fonksiyonunun tanýmý aþaðýda verilmiþtir: eð er ( "j:1 £ j £ ni )( "p:1 £ p £ N ) cij ¹ x p (1) ìC ij ï E (C ij ) = íÆ eð er ($j:1 £ j £ ni )( "p:1 £ p £ N ) cij = x p Ù x p + 1 ¹ e (2) (26) ï B ( X ) eð er ($j:1 £ j £ n )( "p:1 £ p £ N ) c = x Ù x = e (3) i ij p p+ 1 î Denklem (26)’da yer alan xp, XÎG(K) sýralý eþleþmesinin p. elemanýdýr. B fonksiyonu ise X sözcük dizisini geçerli bir biçime getirmek için uygun þekilde birleþtirerek tek bir kök ve uygun biçim bilimsel özellikleri içeren yapýya dönüþtüren bir birleþtirme fonksiyonudur. E fonksiyonun üzerinde biraz açýklama yapmak uygun olacaktýr. Fonksiyonun (1). alt taným aralýðýnda, K tümcesinin i. sözcüðü ki‘nin j. çözümlemesi cij’nin aktarýlýp aktarýlmayacaðýna karar verilir. Eðer ki‘ye ait çözümlemelerden hiçbirisi G(K)’da belirlenen ÇSG yapýlarýnýn herhangi birisinin bileþeni olarak geçmiyorsa cij olduðu gibi çýkýþ olarak üretilir. (2) ile numaralandýrýlmýþ alt taným aralýðý ise eðer ki sözcüðünün herhangi bir çözümlemesi, G(K)’deki herhangi bir ÇSG’nin son bileþen (xp+1 ¹ e) dýþýndaki bir bileþeni ise, ki‘ye ait bütün çözümlemelerin göz ardý edileceðini söylemektedir. Son taným aralýðý (3) bölgesinde ise ki‘ye ait bir çözümleme, G(K) baðýntýsýndaki herhangi bir ÇSG’nin son sözcüðü ise (xp+1 = e), cij yerine ÇSG’nin tamamý (X) B fonksiyonu tarafýndan dönüþtürülerek üretilir. ÇSG’lerin aktarýlmasý için bu tanýmlamalar yapýldýktan sonra kaynak tümcenin olasý bütün karþýlýklarýný üreten transfer fonksiyonun denklemi aþaðýdaki gibi deðiþtirilir: F ( K ) = F ( k 1N ) = U A(E (c 1j )) ´ c1 j ÎC ( k1) N =Õ U A(E (c 1j U A(E (c 2j c2 j ÎC ( k2 ) )) )) ´...´ U A(E (c 1Nj )) cNj ÎC ( kN ) (27) i = 1 cij ÎC ( ki ) Dil modelini kullanarak en yüksek olasýlýklý tümcenin seçildiði bundan sonraki denklemlerde herhangi bir deðiþme olmaz. 3.4.1.3 Aktarým Modeli II Geliþtirilen modellerdeki bir diðer eksiklik de aktarým kurallarýnýn sözcük temelinde iþlem görmesidir. Akraba diller arasýnda çeviri yapýlsa bile sözcükler arasý iliþkiler her zaman bulunur. Çeviri modelinin baþarýsýnýn arttýrýlabilmesi için bu iliþkiler göz önüne alýnarak aktarým yapýlmalýdýr. Örneðin bazý Türk dilleri arasýnda çeviri yaparken ortaçlarýn, niteledikleri isimden bazý biçim bilimsel özellikleri almasý gerekmektedir. Bu ve buna benzer durumlarý baþarýlý çevirebilmek için tümce genelinde iþlem gören birtakým aktarým kurallarý tanýmlanmalýdýr. Tümce genelinde çalýþan aktarým kurallarý tümcedeki sözcüklerin biçim bilimsel bilgilerini kullanabileceði gibi bazý kurallar da sözcüklerin yüzeysel biçimlerine gerek duyabilir. Ancak mevcut aktarým fonksiyonu A, sadece sözcük kökleri ve sözcüðe iliþkin bilimsel yapýlarýn aktarýmýný saðlamaktadýr. Bunu geliþtirmek üzere denklem (21) aþaðýdaki gibi deðiþtirilmiþtir: ^ ^ H = S Y (U ( S B ( H B ))) = h1 h2 ... hM (28) Bu denklemde hedef dilde oluþturulan tümceler üzerinde iþlem gören bir SB fonksiyonu tanýmlanmýþtýr. Bu fonksiyona giriþ olarak yapýsal gösterimde sözcüklerden oluþmuþ tümceler kümesi gelir. Fonksiyon her bir tümce üzerinde sözcükler arasýnda tanýmlanan kurallara uygun olarak aktarýmý gerçekleþtirilir. Tümcedeki sözcüklerin yüzeysel biçimlerine gerek duyarak yapýlan deðiþiklikler ise SY fonksiyonu modellenmiþtir. 3.4.2 Bitiþken Diller Ýçin ÝDM Oluþturulmasý Ýngilizce, Almanca gibi dillerden farklý olarak Türkçe için dil modelleri oluþturulurken sözcüklerin yüzeysel biçimlerinin kullanýlmasý Türkçenin türetken ve çekimli yapýsýndan dolayý Prof. Dr. Eþref Adalý seyrek veri sorununa yol açmaktadýr. Bu yüzden eðitim verisi olarak sözcüklerin yüzeysel biçimleri yerine sözcüklerin köklerinin ve diðer bazý biçim bilimsel özelliklerin kullanýlmasý yoluna gidilmiþtir. Yüzeysel biçim yerine, sözcüklere ait biçim bilimsel çözümleme sonuçlarýnýn tamamýnýn kullanýlarak bir ÝDM oluþturulmasý durumunda gene seyrek veri sorunu oluþmaktadýr. Seyrek veri sorununu azaltmak için biçim bilimsel çözümlemedeki tüm etiketler yerine bunlarýn gruplanarak kullanýlmasý fikri ortaya çýkmýþtýr . Örneðin Türkçedeki her sözcük, kök ve bir veya birden fazla çekim grubundan oluþmaktadýr. Çekim gruplarý birbirlerinden ^DB (derivation boundary) ile ayrýlmaktadýr: kök+ÇG1^DB+ÇG2^DB+…^DB+ÇGn Burada ÇGi, sözcük türü ve çekim özelliklerini de içeren ilgili çekim grubunu ifade etmektedir. Örnek olarak aþaðýda bir biçim bilimsel çözümleme sonucu verilmiþtir: yararlanmanýn : yarar+Noun+A3sg+Pnon+Nom ÇG1 ^DB+Verb+Acquire+Pos ÇG2 ^DB+Noun+Inf2+A3sg+Pnon+Gen ÇG3 Bu örnekte, isim türlü yarar sözcüðünün sözcük türü, +lan yapým eki ile önce eyleme daha sonra da +ma mastar eki ile de tekrar isme dönüþmüþtür. Bu dönüþme süreci içerisinde oluþan her sözcük türünün de kendisine ait çekim özellikleri bulunabilir. Türetilmiþ bir sözcüðün etkin sözcük türü son ÇG’nin sözcük türü olarak kullanýlýr (örneðin etkin sözcük türü “isim”dir). Çizelge-3.2’de 1 M sözcükten oluþan bir derlem üzerinde gözlenen kök hariç bütün etiketlerin bulunduðu tam çözümlemelerin ve ÇG’lerin sayýlarý verilmiþtir. Bir köke eklenebilecek ek sayýsýnýn sýnýrsýz olmasýna karþýn, derlem üzerinde yapýlan sayýma göre 10.531 farklý tam çözümlemeye rastlanmýþtýr. Tam çözümlemeler ÇG’lere ayrýlarak ÇG’ler sayýldýðýnda 2.194 farklý ÇG’ye bulunmuþtur. Bu sonuçlar seyrek veri sorununun indirgendiði ortaya koymaktadýr. Çizelge-3.2: Derlemde Gözlenen Tam Çözümleme ve Çekim Grubu Sayýlarý Kuramsal Üst Sýnýr Gözlenen Adet Tam Çözümleme µ 10.531 Çekim Grubu 9.129 2.194 Sadeleþtirme açýsýndan yapýlan bir baþka genelleme de ÇG’lerden oluþan türetilmiþ bir sözcüðün söz dizimsel açýdan baðlantýsýnýn son ÇG’den çýkarak sonraki sözcüklerin ÇG’lerinden herhangi bir tanesine baðlanmasý þeklinde ifade edilir. Bilgisayarlý Çeviri 3.5 Türk Dilleri Arasýndaki Benzerlikler Türk dilleri anlam ve biçim açýsýndan incelendiðinde birçok benzerlik ve aynýlýk olduðu görülür. Benzerlikler sözcük daðarcýklarýndaki ortak sözcükler açýsýndan incelendiðinde baskýn olarak adýllar, sýfatlar, ilgeçler, belirteçler, zamanla ilgili sözcükler, organ isimleri, doða, bitki ve hayvan isimlerinde ortak kullanýmlarýn olduðu görülmektedir. Ayrýca söz dizimsel açýdan bütün Türk dilleri özne-nesne-yüklem (SOV) sýrasýný kullanmaktadýr. Ortak sözcüklerin dýþýnda Türk dillerinin benzerlikleri biçim bilimsel açýdan incelendiðinde ise ek türlerinin ve ekleniþ biçimlerinin çoðu kez ayný olduðu görülmektedir. Çizelge-3.3'te bazý Türk dilleri için isim durum ekleri verilmiþtir . Hemen hemen bütün Türk dillerinde özellikle adlara eklenen çekim eklerinin türleri ve sýralarý aynýdýr. Büyük ünlü uyumu, küçük ünlü uyumu, ünsüz benzeþmesi gibi bazý yazým kurallarý hepsinde görülmese de bazý Türk dillerinde ortak olarak bulunur. Tüm bu benzerliklere örnek olarak aþaðýda farklý Türk dillerinde ortak olarak kullanýlan iki deyim verilmiþtir. Türkçe Azerbaycan Türkmen Özbek Kýrgýz Kazak : Aðýr kazan : Aðýr qazan : Agyr gazan : Çuqur därya : Oor kazan : Awur qazan Türkçe Azerbaycan Türkmen Özbek Kýrgýz Kazak : Dað : Dað : Dag : Tåð : Too : Taw geç geç giç tinç keç keþ daða daða daga tåð bilän tooðo tawða kaynar. qaynayar. gaýnar. aqar. kaynayt. qaynaydý. kavuþmaz, govuþmaz, duþmaz qavuþmas, koþulbayt, qosýlmas, insan insana insan insana adama adama adam adam bilän adam menen adam adam adamða kavuþur. govuþur. duþar. qavuþar. koþulat. qosýldý. Görüldüðü gibi sözcük sýralarý çoðunlukla aynýdýr. Yalnýzca bazý sözcükler bazý Türk dillerinde iki veya daha fazla sözcükle ifade edilmektedir. +dan (+dNn) +ýn (+in,+un,+ün) +nýn (+nin,+nun,+nün) +a (+e) +ya (+ye) +da (+de) +ta (+te) +dan (+den) +tan (+ten) +ýn (+in,+un,+ün) +nýn (+nin,+nun,+nün) Yönelme Durumu Kalma Durumu Çýkma Durumu Tamlayan Durumu +da (+dN) +a (+N) +ya (+yN) +ý (+i,+u,+ü) +ný (+ni,+nu,+nü) +ý (+i,+u,+ü) +yý (+yi,+yu,+yü) Belirtme Durumu Azerice Türkçe Ad Durum Ekleri +yñ (+iñ,+uñ,+üñ) +nyñ (+niñ) +dan (+den) +da (+de) +a (+e, +ä) +y (+i) +ny (+ni) Türkmence +dan (+den) + t a n ( +t e n ) +nan (+nen) +nýñ (+niñ) + d ý ñ ( +d i ñ ) +týñ (+tiñ) +dan(+den,+don,+dön) +tan (+ten,+ton,+tön) +nan(+nen,+non,+nön) +nýn (+nin,+nun,+nün) +dýn (+din,+dun,+dün) +týn (+tin,+tun,+tün) +niñ +dän +niñ +din +tin +da (+de) +t a ( +t e ) +nda (+nde) +da (+de) +t a ( +t e ) +nda (+nde) +da (+de,+do,+dö) +ta (+te,+to,+tö) +dä +ga (+ge) +ka (+ke) +ða (+ge) + q a ( +k e ) +a (+e) +ga (+ge,+go,+gö) +ka (+ke,+ko,+kö) +na (+ne,+no,+nö) +a (+e, +o,+ö) +gä +k ä +qa +ni uygurca +ný (+ni) + d ý ( +d i ) +t ý ( +t i ) +n Kazakça +ný (+ni,+nu,+nü) +dý (+di,+du,+dü) +tý (+ti,+tu,+tü) +n Kýrgýzca +ni Özbekçe Çizelge-3 : Bazý Türk Dilleri için Ýsim Durum Ekleri Prof. Dr. Eþref Adalý Bilgisayarlý Çeviri 3.6 Türk Dilleri Arasýndaki Farklýlýklar Tümceler arasýnda sözcük sýralarý açýsýndan çoðunlukla benzerlik söz konusu olsa da bazý durumlarda tümce içindeki sözcüklerin yerleri de deðiþebilir. Örnek olarak çoðu Türk dilinde bulunan Þekil-3.11'deki atasözü verilmiþtir: Akýlý düþman, akýlsýz Aqlsiz döstdan epchil dosttan yeðdir. düþman yagþýdýr. Türkçe Özbekçe Þekil-3.11 : Türkçe-Özbekçe tümcelerde sözcük sýralarý farklýlýðý örneði Ancak Türk dillerinde sözcük öbeklerinin tümce içerisinde yer deðiþtirebilmesi özelliði bulunduðundan Özbekçe tümce Türkçeye çevrilirken sözcük sýralarýnda bir deðiþikliðe gidilmese bile anlamý koruyan Türkçe tümce üretilebilir: Akýlsýz dosttan akýllý düþman yeðdir. Türk dilleri arasýnda gözlenebilen diðer farklýlýklar özellikle eylem çekimlerinde ortaya çýkan farklý zaman kullanýmlarý, dillere özel kipler ve özne yüklem uyumlarýndaki farklýlýklardýr. Örneðin Türkçedeki geniþ zaman kalýbý Türkmencede gelecek zaman anlamýný taþýr. Ayrýca Türkmencede, Türkçede bulunmayan +makçý/+mekçi ekleri ile kurulan ve “bir eylemi yapmayý düþünmek/yapmaya niyetlenmek” anlamýnda bir eylem kipi bulunur. 3.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri Türk dilleri arasýnda çeviri yaparken ortaya çýkan en büyük sorun Türkçe dýþýndaki diðer Türk dilleri için doðal dil iþleme çalýþmalarýnýn yok denecek kadar az olmasýdýr. Birçok Türk dili için biçim bilimsel çözümleme, söz dizimi çözümleme gibi araçlar veya elektronik ortama aktarýlmýþ sözlükler veya iþlenmiþ metinler bulmak olasý deðildir. Türkçe için bile genel amaçlý kullanýlabilecek yüksek baþarýmlý bir söz dizimsel çözümleme aracý bulunmamaktadýr. Bütün bu olumsuzluklara karþýn özellikle Türk dillerinin sözdiziminin benzer olmasý (Azerice, Türkmence gibi bazý diller için neredeyse ayný olmasý), daha önce anlatýlan aktarým yöntemleri arasýnda en temel yöntem olan doðrudan aktarým yönteminin bile baþarýlý sonuçlar üretebileceðini düþündürmektedir. Prof. Dr. Eþref Adalý Doðrudan aktarým yöntemi hariç diðer tüm kural tabanlý aktarým yöntemlerinde söz dizimi çözümlemesi, anlamsal çözümleme gibi üst düzey bilgiler gerekmektedir. Ancak Türk dilleri söz konusu olduðunda bu bilgileri üretecek araçlar dahi bulunmamaktadýr. Ýstatistiksel ve örnek tabanlý çalýþan yöntemleri kullanabilmek için ise birbirlerinin karþýlýðý olan hizalanmýþ eðitim verilerine büyük miktarlarda gerek duyulur. Bu þekilde hazýrlanmýþ koþut eðitim verilerinin bulunmamasý, ayrýca bu tür bir eðitim kümesinin hazýrlanmasýnýn çok emek gerektirmesinden dolayý bu yöntemlerin uygulanabilirliði düþüktür. Sözcük sýralarýný deðiþtirmeden, sadece sözcükleri bire bir çevirerek gerçekleþtirilecek doðrudan aktarým yöntemi gerek söz dizimi çözümlemesi gibi daha üst seviyede bilgilere gerekse de istatistiksel yöntemlerin kullandýðý gibi büyük miktarlarda paralel eðitim verilerine ihtiyaç duymadýðý için en uygun yöntem olarak görülmektedir. Ayrýca doðrudan aktarým yöntemi sadece sonlu durum yöntemleri kullanýlarak gerçekleþebilmektedir. Bunun sonucu olarak düzenli ve hýzlý çalýþan bir aktarým yöntemi gerçeklenebilir. Türk dilleri gibi bitiþken diller söz konusu olduðunda doðrudan aktarým yöntemi aþaðýdaki sýrayla geliþtirilmiþtir: 1- Kaynak dilin biçim bilimsel çözümlemesi 2- Biçim bilimsel yapýlarýn hedef dile aktarýlmasý 3- Sözcük kökünün hedef dile aktarýlmasý 4- Hedef dilde biçim bilimsel üretici ile sözcüðün yüzeysel biçiminin üretilmesi Türk dillerinin bitiþken yapýsýndan dolayý kaynak tümcedeki bir sözcüðün karþýlýðýný sözlükte olduðu gibi arayýp bulmak mümkün deðildir. Bu noktada bir ön iþlem olarak biçim bilimsel çözümlemenin yapýlmasý gereklidir. Biçim bilimsel çözümleme sonucunda sözcük kökü ve diðer biçim bilimsel yapýlar ortaya çýkar. Doðrudan aktarým kaynak dildeki bu yapýlarýn (sözcük kökü ve biçim bilimsel yapýlar) hedef dile iki aþamalý olarak aktarýmý biçiminde algýlanmalýdýr. Her ne kadar Türk dillerinin söz dizimsel ve biçim bilimsel yapýlarý birbirlerine yakýn olsa da bu diller arasýnda biçim bilimsel farklýlýklar da azýmsanmayacak boyuttadýr. Biçim bilimsel farklýlýklarý gidermek üzere bir takým biçim bilimsel dönüþüm kurallarý gerçeklenmeli ve bu kurallarýn iþletilmesi sonucunda kaynak dildeki biçim bilimsel yapýlar, hedef dil için geçerli biçim bilimsel yapýlar hâline gelmelidir. Ýkinci aþama olarak kaynak dilde çözümlenen sözcük kökünün karþýlýðý aktarým sözlüðünden bulunmalý ve hedef dildeki karþýlýðý veya karþýlýklarý ile deðiþtirilmelidir. Son adýmda ise elde edilen biçim bilimsel yapý, hedef dilin biçim bilimsel üreticisi tarafýndan yüzeysel biçime çevrilir. Bilgisayarlý Çeviri Anlatýlan geliþtirilmiþ doðrudan aktarým yöntemine göre Türkmence bir sözcüðün Türkçe karþýlýðýnýn oluþturulma süreci Þekil-3.12’de gösterilmiþtir. eñrejekdirin Biçimbilimsel çözümleme eñre+Verb+Pos+Fut+Cop+A1sg Biçimbilimsel aktarým eñre+Verb+Pos+Fut+A1sg+Cop Kök aktarma aðla+Verb+Pos+Fut+A1sg+Cop Biçimbilimsel üretme aðlayacaðýmdýr Þekil-3.12 : Örnek Türkmence sözcüðün Türkçe karþýlýðýnýn oluþturulmasý Geliþtirilmiþ doðrudan aktarým yönteminde dahi biçim bilimsel çözümleme ve sözcük kökü aktarýmýnda belirsizlikler ortaya çýkacaktýr. Bu belirsizliklerin çözülmesi, doðrudan aktarým yöntemini kullanan sistemlerde karmaþýk kurallarla saðlanýr. Bunun yerine, doðrudan aktarým yaklaþýmýný istatistiksel yöntemlerle birleþtiren modeller kullanýlarak Türk dilleri arasýnda BÇ sistemleri gerçeklenebilir. Bu amaçla, Model 0 (temel model) üzerine gerçeklenmiþ kuramsal bir çeviri sisteminin bileþenleri ve veri akýþý ’de verilmiþtir. Bu þekilde kesikli çizgili dikdörtgenler veri kaynaklarýný, düz çizgili dikdörtgenler ise süreçleri göstermektedir. 3.7.1 Kaynak Dilde Biçim Bilimsel Çözümleme Biçim bilimsel çözümleme Türk dilleri gibi bitiþken diller için doðal dil iþleme alanýnda yapýlacak her iþlemde gerek duyulan bir aþamadýr. Sözcüðün yüzeysel biçimlerinin sayýsýnýn çok fazla olduðu diller için biçim bilimsel çözümleme olmadan aktarým sözlükleri hazýrlamak veya aktarým kurallarý geliþtirmek olanaksýzdýr. Dolayýsý ile kaynak dil olarak hangi Türk dili seçilirse seçilsin, bu dil ile ilgili biçim bilimsel çözümleyicinin de hazýrlanmasý gerekmektedir. Türkçe için geliþtirilmiþ geniþ kapsamlý ve yüksek baþarýmlý bir biçim bilimsel çözümleyici Prof. Dr. Eþref Adalý Kaynak dilde tümce Kaynak dilde biçimbilimsel çözümleyici C(sk) Biçimbilimsel yapýlarý aktarýcý A(cij) Aktarým sözlüðü Eðitim derlemi Kök sözcük aktarýcý ÝDM Arg max c(S) i HB Hedef dilde biçimbilimsel üretici U(HB) H Hedef dilde tümce Þekil-3.13 : Temel modeli gerçekleyen örnek bir çeviri sistemi elimizde bulunmaktadýr. Diðer Türk dilleri için bu tür bir çözümleyicinin varlýðý (Kýrým Tatarcasý hariç) bilinmemektedir. Kaynak dil olarak seçilen dil Türkçenin dýþýnda bir Türk dili ise bu dil için bir biçim bilimsel geliþtiricinin gerçekleþtirilmesi ön koþuldur. Burada dikkat edilecek en önemli nokta geliþtirilecek çözümleyicinin var olan Türkçe biçim bilimsel çözümleyici ile benzer mantýkla çalýþacak ve benzer biçim bilimsel etiketler üretecek þekilde tasarlanmasýdýr. Bu sayede aktarým kurallarý (yani A fonksiyonu) daha basit hâle getirilebilir. 3.7.1.1 Kaynak Dilde Biçim Bilimsel Belirsizliðin Giderilmesi Türkçe gibi karýþýk bir biçim bilimsel yapýya sahip dillerde biçim bilimsel çözümleme sonuçlarý çoðu zaman birden fazladýr. Bu ise biçim bilimsel belirsizliðin ortaya çýkmasýna neden Bilgisayarlý Çeviri olmaktadýr. Eðer kaynak Türk dili için biçim bilimsel belirsizliði gidermek üzere bir araç varsa bu araç kullanýlarak istatistiksel sürecin karmaþýklýðý azaltýlabilir. Türkçe için biçim bilimsel belirsizliklerin giderilmesi ile ilgili birçok çalýþma olmasýna karþýn bu çalýþmalarýn sonucunda yüksek baþarýmlý bir araç henüz genel kullanýma sunulamamýþtýr. iðer Türk dilleri için ise bu konuda bir çalýþmaya rastlanamamýþtýr. Biçim bilimsel belirsizlik gidericilerin tasarlanmasý için kullanýlan birçok yöntem gözetimli çalýþtýðý için elle iþlenmiþ çok miktarda eðitim verisine gerek duyulmaktadýr. Türkçe dýþýndaki diðer Türk dilleri için henüz böyle bir eðitim kümesi olmamasýndan dolayý bilinen yöntemler kullanýlarak bu diller için bir biçim bilimsel belirsizlik giderici tasarlanmasý yoluna gidilememektedir. 3.7.2 Sözcük Köklerinin Kaynak Dilden Hedef Dile Aktarýmý Kural tabanlý bütün bilgisayarlý çeviri sistemlerinde olduðu gibi öngörülen temel model için de bir aktarým sözlüðü gereklidir. Aktarým sözlüðünde kaynak dildeki sözcük bazýnda arama yapýlabilmeli ve buna karþýlýk gelen hedef dildeki tüm sözcükler üretilebilmelidir. Bu noktada altý çizilmesi gereken konu sözcük kökü aktarýmý sýrasýnda birden fazla karþýlýk üretilebileceðidir. Yani bu bileþenin ürettiði sonuçlar içerisinde bir belirsizlik vardýr. Söz konusu bu belirsizlik sözcüksel belirsizlik olarak adlandýrýlmaktadýr. bar è var, bütün Belirsizliði bir kademe azaltmak amacý ile sadece sözcük köküne bakarak arama yapmak yerine sözcük kökü ve sözcük türüne göre arama yapýlabilir. Böylelikle yazýmý ayný ancak sözcük türleri farklý olan sözcük kökleri daha az bir belirsizlikle aktarýlabilir: bar (sýfat) è bütün (sýfat) bar (eylem) è var (eylem) Aktarým sözlüðü tasarlanýrken sözcük türlerine göre sýnýflandýrma yapýlabilirse bu sayede belirsizliðin derecesi düþürülebilir. 3.7.3 Biçim Bilimsel Yapýlarýn Kaynak Dilden Hedef Dile Aktarýmý Kaynak ve hedef dil arasýndaki biçim bilimsel farklýlýklarý gidermek üzere bir dizi dönüþümün yürütüldüðü aktarým bileþenidir. Bu dönüþüm, kaynak dildeki biçim bilimsel çözümleme sonucunda üretilen biçim bilimsel özelliklerin, hedef dil biçim bilimsel üreticinin beklediði þekile dönüþtürme iþlemi olarak da nitelendirilebilir. Bu aþamada sözcük köküne dokunulmadan sadece biçim bilimsel etiketler üzerinde dönüþtürme ve sýra deðiþtirme iþlemleri yapýlýr. Bu kurallar iki dil arasýndaki biçim bilimsel farklýlýklar incelenerek geliþtirilir. Diðer bir yöntem ise birbirlerinin çevirisi olan kaynak ve hedef dildeki biçim bilimsel yapýlarý içeren bir eðitim kümesi üzerinde, bilgisayar öðrenmesi yöntemlerinden birisinin eðitilerek kurallarýn otomatik olarak üretilmesidir. Prof. Dr. Eþref Adalý 3.7.4 ÝDM Bileþeni Önerilen aktarým modellerinde yer alan bütün bileþenler içerisinde iki bileþenin çýktýlarý belirsizlik içermektedir: kaynak dilde biçim bilimsel çözümleyici ve kök aktarýmý. Eðer önceki bölümde anlatýlan kaynak dilde biçim bilimsel belirsizlik giderici kullanýlabilir durumda ise biçim bilimsel belirsizlik elenir ve sadece sözcüksel belirsizlik kalýr. Gerek biçim bilimsel belirsizlik, gerekse de sözcüksel belirsizliðin giderilmesini amaçlayan ÝDM bileþeni, istatistiksel yöntemlerle en olasý sözcük dizisini (yani tümceyi) belirler. Bu amaçla daha önce anlatýlan ÝDM’ler kullanýlmaktadýr. Ancak gene Türk dillerinin türetme ve çekim özelliklerinden dolayý ÝDM’ler salt biçimde kullanýlamaz. Sözcüklerin sadece yüzeysel biçimlerini içeren bir ÝDM’de seyrek veri sorunu ortaya çýkmaktadýr. Bunu önlemek için farklý tiplerde ÝDM’lerin kullanýlmasý yoluna gidilebilir. Örneðin, sözcüklerin yüzeysel biçimleri yerine sadece sözcük kökleri üzerine kurulmuþ bir ÝDM kullanýlmasý durumunda, hedef dilde ortaya çýkan sözcüksel belirsizliðin giderilmesi saðlanabilir. Aktarým sistemindeki ÝDM bileþenine girdi olarak kaynak dildeki tümcenin bütün sözcüklerinin aday çevirileri gelir. Bileþenin çýktýsý olarak ise tüm kombinasyonlar içerisinden seçilen ÝDM’ye göre en yüksek olasýlýða sahip tümce üretilir. Olasý tüm kombinasyonlarýn tamamýnýn olasýlýklarýnýn hesaplamasý yerine aday sözcüklerden bir Hidden Markov Modeli (HMM) oluþturularak üzerinde Viterbi algoritmasýnýn çalýþtýrýlmasýyla en yüksek olasýlýklý sözcük dizisi elde edilebilir. Þekil-3.14'te Türkmence bir tümce Türkçeye çevrilirken oluþturulan bir HMM örneði verilmiþtir. Þekil-3.14'teki özel simgeler <s> ile </s> sýrasýyla tümce baþýný ve sonunu iþaret eden simgelerdir. HMM’deki gözlem olasýlýklarý 1 seçilerek sadece durum geçiþ olasýlýklarýnýn kullanýlmasý saðlanmýþtýr. Þekilde durum geçiþlerini gösteren oklara iliþtirilmiþ olarak sözcüklerin seçilen ÝDM’ye göre olasýlýklarý bulunmaktadýr. Örneðin ”ne” ile ”için” durumlarý arasýndaki ok, P(“için”|”ne”) olasýlýðýný, <s> ile ”ne” arasýndaki ok ise P(“ne”|<s>) Türkmence Tümce näme näme üçin üçin Ne adamlar adam kim dillerde dil türlü Adam gepleyärler geple konuþ insan Için <s> dürli dürli dil </s> söyle Þekil-3.14 : Örnek bir tümcenin HMM ile çözümlenme süreci Bilgisayarlý Çeviri olasýlýðýný (tümcenin baþýnda ”ne” sözcük kökünün olma olasýlýðýný) göstermektedir. Viterbi algoritmasý ile de bu HMM üzerinde en olasý yol bulunur. Bu yol üzerindeki sözcükler seçilerek oluþturulan tümce hedef dilde olasýlýðý en yüksek çeviridir. Çizelge-4 ve Þekil-3.14’te kurulan HMM üzerinden hesaplanan en olasý 3 aday tümce gösterilmiþtir. Farklý derecelerde kök dil modelleri kullanýlarak aday tümcelerin olasýlýklarý hesaplanmýþtýr. Kalýn harflerle yazýlan tümce, doðru çeviriyi göstermektedir . Çizelge-4 : ÝDM ile En Olasý Tümcenin Bulunmasý ÝDM Derecesi n=1 n=2 n=3 Sýra Log. Olasýlýk ne için insanlar türlü dillerde söylüyorlar 1 -17.2978 ne için insanlar türlü dillerde konuþuyorlar 2 -17.5196 ne için adamlar türlü dillerde söylüyorlar 3 -17.7816 ne için insanlar türlü dillerde konuþuyorlar 1 -18.1625 ne için adamlar türlü dillerde konuþuyorlar 2 -18.3105 kim için insanlar türlü dillerde konuþuyorlar 3 -18.6553 ne için insanlar türlü dillerde konuþuyorlar 1 -18.2265 kim için insanlar türlü dillerde konuþuyorlar 2 -18.6196 ne için adamlar türlü dillerde konuþuyorlar 3 -18.6294 En Olasý 3 Tümce Türkçede dil ismi ile birlikte söylemek yerine daha çok konuþmak eylemi kullanýlmaktadýr. Buna uygun olarak da tek baþýna sözcük sýklýklarýna bakýldýðýnda (n=1) söylemek eylemi konuþmak eyleminden daha çok geçmesine karþýn ÝDM derecesi arttýkça konuþmak eylemini içeren tümcelerin olasýlýðýnýn yükseldiði görülmektedir. 3.7.5 Hedef Dilde Biçim Bilimsel Üretici ÝDM bileþeninin çýktýsý yüzeysel biçimdeki sözcükler yerine yapýsal biçimdeki sözcüklerden oluþan bir tümcedir. Bu tümcede yer alan tüm sözcükler, hedef dile iliþkin bir biçim bilimsel üreticiden geçirilerek yüzeysel biçimler oluþturulmalý ve sistemin son çýktýsý olan tümce üretilmelidir. Bu amaçla hedef dile iliþkin bir biçim bilimsel üreticiye gerek duyulmaktadýr. Türkçe için geliþtirilen biçim bilimsel çözümleyici, SDD olarak tasarlandýðý için ters yönde çalýþtýrýldýðýnda biçim bilimsel üretici olarak iþ görmektedir. Üstelik Türkçe için bu ters çalýþtýrma durumunda herhangi bir belirsizlik oluþmamaktadýr. Yani yapýsal biçimde bir sözcüðe karþýlýk, o sözcüðe ait sadece bir yüzeysel sözcük üretilmektedir. Türkçe dýþýndaki diðer Türk dilleri için bilinen bir biçim bilimsel üretici yoktur. Prof. Dr. Eþref Adalý 3.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni Bir önceki bölümde ayrýntýlarý açýklanan çeviri modellerinin bir uygulamasý olarak Türkmenceden Türkçeye bir çeviri sistemi tasarlanmýþ ve gerçekleþtirilmiþtir. Çeviri sistemi ilk olarak Model 0’a (temel model) uygun olarak gerçekleþtirilmiþ daha sonra ise bu temel model üzerine Model 1 ve Model 2’nin getirdiði iyileþtirmeler eklenmiþtir. Gerçekleþtirilen uygulamada aktarým fonksiyonunda yer alan bütün bileþenler SDD biçiminde tasarlanmýþtýr. 3.8.1 Aktarým Modeli 0 Gerçeklemesi Aktarým Modeli 0’ý temel alarak tasarlanan Türkmenceden Türkçeye çeviri sisteminin bileþen þemasý Þekil-3.15’de verilmiþtir: Türkmence metin Karakter Düzeltici Tümce / sözcük Ayýrýcý Biçimbilimsel Çözümleyici Biçimbilimsel Yapýlarýn Aktarýmý Türkçe metin Aktarým sözlüðü Kök Sözcük aktarýmý Eðitim derlemi ÝDM Karakter Düzeltici Hedef dilde biçimbilimsel üretici Þekil-3.15 : Aktarým Modeli 0 temelinde oluþturulan sistemin bileþenleri Bilgisayarlý Çeviri 3.8.1.1 Türkmence Biçim Bilimsel Çözümleyicinin Geliþtirilmesi Ýki-düzeyli biçim bilimsel çözümleme ilkeleri esas alýnarak Xerox sonlu durumlu araçlarýyla Türkmence için bir biçim bilimsel çözümleyici tasarlanmýþtýr. Bu biçim bilimsel çözümleyicinin tasarým aþamalarý aþaðýdaki bölümlerde verilmiþtir. 3.8.1.1.1 Türkmen Dilinin Biçim Bilimsel Özellikleri Türkmence dilinin biçim bilimsel yapýsý Türkçe ile benzerlik göstermektedir. Özellikle isim çekimlerinde eklerin türleri ve geliþ sýralarý Türkçeye çok benzerdir. Bu benzerliklerden dolayý Türkçe için gerçekleþtirilmiþ olan biçim bilimsel çözümleyici temel olarak alýnmýþtýr. Her ne kadar Türkmence, Türkçeye en çok benzeyen dillerden birisi olsa da iki dil arasýnda harfler, ses olaylarý, sözcük çekimleri ve anlamsal açýdan pek çok farklýlýklar bulunmaktadýr . Türkmencenin Türkçeye benzerliði ilk bakýþta yararlý görülse de bazý açýlardan zararlý olmaktadýr. Örneðin Türkçe ile bire bir ayný olan bazý sözcükler veya ekler Türkmencede farklý anlamlara gelmektedir. Türkçe bilen birisi, Türkmence öðrenirken bu tür yanýlgýlara kolayca düþebilmektedir. Ses Olaylarý Türkçeye en yakýn dillerden biri olsa da Türkmencede yazý dili ile konuþma dili arasýnda büyük farklýlýklar bulunmaktadýr. Aslýnda Türkçede de bütün sözcükler yazýldýðý gibi okunmaz ama Türkmencede bu durum istisna olmaktan çýkmýþ ve çok sýk karþýlaþýlan bir durum olmuþtur. Maalesef kýsýtlý sayýdaki Türkmence dil bilgisi kaynaklarýnýn çoðunda yazý dili ile konuþma dili arasýndaki ayrým net olarak verilmemiþtir. Bu nedenle bazý kurallarýn sadece konuþma dili için geçerli olduðunu ortaya çýkarmak oldukça zahmetli olmuþtur. Türkmencede sözcüklerin okunuþlarý ile yazýlýþlarý arasýnda Türkçenin tersine çok büyük farklýlýklar bulunmaktadýr. Bütün seslilerin kýsa ve uzun okunuþlarý bulunmaktadýr. Ancak yazý dilinde herhangi bir seslinin kýsa mý uzun mu okunacaðýna iliþkin bir iþaret yoktur. Aþaðýda bu konu ile ilgili örnekler verilmiþtir (uzun okunan sesliler, “:” iþaretiyle belirtilmiþtir): Uzun Okunuþ Kýsa Okunuþ at (a:t) ad, isim at (at) at ot (o:t) ateþ ot (ot) ot daþ (da:þ) taþ daþ (daþ) dýþ Türkmencede büyük ünlü uyumu vardýr. Sözcüklerin bazýlarý küçük ünlü uyumuna uyarken bazýlarý da uymaz. Türkçede geniþ yuvarlak seslilerden (o, ö) sonra dar yuvarlak (u, ü) veya geniþ düz (a, e) seslileri gelir. Türkmencede ise o, ö seslilerinden Prof. Dr. Eþref Adalý sonra dar düz sesliler (y, i) gelir. Bu nedenle Türkmencede bazý sözcükler küçük ünlü uyumuna uymaz. Türkmencede de Türkçede olduðu gibi sessiz yumuþamasý vardýr. Sözcük sonundaki p, ç, t, k sessizleri, sesli ile baþlayan bir ek aldýklarýnda b, c, d, g harflerine dönüþürler. Sessiz benzeþmesi de kýsmen görülür. Sesli düþmesi kuralý ise Türkmencede daha kurallýdýr. Bir seslinin düþmesi için: 1. iki heceli sözcük olmalý 2. ilk S kýsa, hece açýk olmalý (S, ZS) 3. ikinci hece kapalý olmalý (ZSZ) Ancak ne yazýk ki 2. maddede söylenen S’nin yani ünlünün kýsa olmasý yazý dilinde belirtilmemektedir. Okunuþlarla ilgili birçok kurala, biçim bilimsel çözümleyicinin geliþtirilmesi ile ilgisi olmadýðý için burada yer verilmeyecektir. Tekillik / Çoðulluk Çoðulluk ekleri +lar ve +ler Türkçedeki ile ayný þekilde kullanýlýr. Belirtme Durumu Belirtme durumu eki Türkçedekinden farklý olarak sadece +y ve +i eklerinden oluþmaktadýr. Ancak Türkçede ekten önce ünlü harf bulunursa araya n harfi yerine y harfi gelir: kitaby (kitabý) goly (kolu) gözi güli (güli) (gözü) baþy(baþý) Yönelme Durumu Türkçedeki gibi +a ve +e ekleri ile kurulur. depdere (deftere) göze(göze) bilbile (bülbüle) Ünlü ile biten isimlerde, yaklaþma durumu eki (+a, +e, +ä) farklýlýk göstermektedir. i) –a, –o ile biten sözcüklere yaklaþma durumu eki eklenmez, yaklaþma durumu sadece sözcüðün sonunda seslinin uzun okunuþu ile belirtilir. ata (ata) baba ata (ata:) babaya Bilgisayarlý Çeviri ii) –i, –e, –ä ile biten sözcüklere yaklaþma durumu eki geldiðinde sözcüðün son seslisi –ä olarak deðiþir. Berdi Þ Berdä Berdi Þ Berdi’ye iii) –y seslisi ile biten sözcüklere yaklaþma durumu eki geldiðinde, sözcüðün son seslisi –a seslisi olarak deðiþir. Mary Þ Mara Marý Þ Marý’ya Kalma Durumu Türkçedekine benzer olarak +da, +de ekleri ile kurulur. Türkçedeki kullanýmdan tek farký bu eklerin ünsüz benzeþmesine uymamasýdýr (+ta, +te hâlleri yoktur): guþda (kuþta) altda (altta) kitapda (kitapta) Kalma durumundan sonra –ki eki gelirse kalma durumu ekindeki sesli uzar: depderdäki (defterdeki) bizdäki (bizdeki) süýtdäki (sütteki) kitapdaki (kitapdaki) adamdaki (adamdaki) ondaki (ondaki) Çýkma Durumu Çýkma durumu, +dan ve +den ekleri ile kurulur. Bu ekler de ünsüz benzeþmesine uymazlar: öýden (evden) altdan (alttan) kitapdan (kitaptan) Tamlayan Durumu Tamlayan durumu ekleri +yñ, +iñ, +uñ ve +üñ ekleridir: goluñ (kolun) burnynyñ (burnunun) diliñ (dilin) Ýsim çekimi ve eylem çekimi açýsýndan incelendiðinde Türkmence isim çekimi yönünden Türkçeye çok benzerken eylem çekiminde ciddi farklýlýklar vardýr. Özellikle çatý kurulumu Türkmencede Türkçeye oranla çok daha karmaþýktýr. Türkçede çatý kurulumu genelde aþaðýdaki gibidir: gör"mek (Yalýn) görüþmek (Ýþteþ) görüþtürmek (Ýþteþ-Ettirgen) görüþtürülmek (Ýþteþ-Ettirgen-Edilgen) Prof. Dr. Eþref Adalý Sadece bazý durumlarda ettirgenlik birkaç defa tekrarlanabilir. Türkmencede ise çatý eklerinin geliþ sýrasý çok daha karýþýktýr: Çizelge-5 : Türkmencede Çatý Eklerinin Sýralanýþý Ýki Çatý Ekli Eylemler Üç Çatý Ekli Eylemler Dört Çatý Ekli Eylemler Ettirgen + Dönüþlü Dönüþlü + Edilgen Ýþteþ + Edilgen Ettirgen + Edilgen Dönüþlü + Ýþteþ Edilgen + Ýþteþ Ettirgen + Ýþteþ Ýþteþ + Ýþteþ Dönüþlü + Ettirgen Ýþteþ + Ettirgen Ettirgen + Ettirgen Dönüþlü + Ettirgen + Edilgen Ýþteþ + Ettirgen + Edilgen Ettirgen + Edilgen + Ýþteþ Dönüþlü + Ettirgen + Ýþteþ Dönüþlü + Ýþteþ + Ettirgen Edilgen + Ýþteþ + Ettirgen Ettirgen + Ýþteþ + Ettirgen Dönüþlü + Ettirgen + Ettirgen Dönüþlü + Ýþteþ + Ettirgen + Edilgen Ettirgen + Dönüþlü + Ettirgen + Edilgen Ayrýca Türkmencede bazý eylem kipleri çekilmezler. Örneðin gelecek zamaný belirten +jek / +jak ekinden sonra kiþi çekim eki gelmez. Örnek kullanýmý aþaðýdaki gibidir: Men geljek (geleceðim) Sen geljek (geleceksin) O geljek ([o] gelecek) Ayrýca gereklilik kipi +malý / +meli de benzer þekilde kiþi eki almaz. Ancak bu kiplere kesinlik anlamý katan +dyr eki geldiðinde, bu +dyr ekinden sonra kiþi çekim ekleri gelebilir. Men geljekdirin. (geleceðimdir) Türkmencede, Türkçede bulunmayan bazý kipler de vardýr. Örnek olarak bir iþ için hazýrlýk yapýldýðýný veya o iþin yapýlmasýnýn düþünüldüðünü gösteren +mekçi / +makçy eki bulunmaktadýr. Bu ek de istisna olarak çekim eki almayan kipler grubundandýr. Belirsiz geçmiþ zaman eki olarak kullanýlan +mýþ / +miþ eki Türkmencede ilk zaman olamaz. Bunun yerine +ypdy / +ipdi / +updu / +üpdü ekleri gelmektedir. Ancak ikinci zaman olarak +mýþ / +miþ eki gelebilmektedir. Türkçede geniþ zaman olarak kullanýlan +ar / +er eki, Türkmencede gelecek zaman anlamýný taþýmaktadýr. Bilgisayarlý Çeviri Gene Türkçedekine benzer þekilde geniþ zamanýn 3. tekil þahsýnýn olumsuzu farklýdýr. Ancak daha büyük bir farklýlýk olarak bazý kiplerde olumsuzluk eki olarak +ma / +me gelmemekte bunun yerine eylemden sonra däl (“deðil”) getirilmektedir. Örnek: Men gelcek däl Kimi durumlarda däl eylemi de çekime uðramaktadýr. Biçim Bilimsel Çözümleyicinin Gerçeklenmesi Türkmence için biçim bilimsel çözümleyici geliþtirirken iki düzeyli biçim bilimsel çözümleme yöntemi benimsenmiþ ve XEROX’un sonlu durumlu araçlarýndan yararlanýlmýþtýr. Öncelikle kökler ve eklerle ilgili durum geçiþleri yani morfotaktik kurallar tasarlanmýþ ve LEXC aracýlýðýyla gerçekleþtirilmiþ, daha sonra iki-düzeyli kurallar TWOLC ile oluþturulmuþtur. Ek olarak bazý geçersiz durumlarýn elenmesi için XFST ortamýnda kurallar yazýlmýþ ve elde edilen bu üç SDD birleþtirilerek tek bir SDD elde edilmiþtir. Oluþan bu çözümleyici ters yönde çalýþtýrýldýðý zaman üretici olarak da çalýþabilmektedir. 3.8.1.1.2 Ýki Düzeyli Kurallar Türkmencedeki çeþitli ses olaylarýný ve deðiþimlerini gerçekleþtirmek için bir dizi iki-düzeyli kural tanýmlanmýþ ve TWOLC derleyicisi yardýmý ile bu kurallarý gerçekleþtirilen bir SDD oluþturulmuþtur. Ýki düzeyli kurallarý tanýmlamadan önce bu kurallarýn üzerinde iþlem göreceði abecenin tanýmlanmasý gerekmektedir. Bu abece güncel Türkmen harfleri ile sadece ara aþamalarda kullanýlan ve yazýda görünmeyen bazý ek karakterler içermektedir. Her ne kadar TWOLC derleyicisi UTF-8 karakter kümesini destekleyerek standart olmayan ASCII karakterlerinin kullanýmýna izin verse de bu tür bir kullanýmda hata ayýklama ve komut satýrýndan sýnamalarýn yapýlmasý olanaksýz olmaktadýr. Bu nedenle standart ASCII tablosunda olmayan karakterler için bir ASCII karakteri, Çizelge-6'daki gibi seçilmiþ ve kurallarda bu þekilde gösterilmiþtir. Çizelge-6 : ASCII olmayan karakterler yerine kullanýlan karþýlýklar ASCII dýþý karakterler ü ö Ç ñ þ ý Ÿ ä Seçilen ASCII karþýlýk U O C N S Y Z E 3.8.1.2 Kök Sözcük Aktarým Kurallarý Biçim bilimsel çözümlemesi yapýlmýþ Türkmence sözcük köklerinin Türkçeye aktarýlmasýný saðlayan kurallar SDD’ler ile gerçekleþtirilmiþtir. Örnek bir aktarým kuralý aþaðýda verilmiþtir: “tatlý” ¬ “Yakymly” Prof. Dr. Eþref Adalý Daha önce belirtildiði gibi, bu aktarým kurallarýnda sözcük türlerinin kullanýlmasý sözcüksel belirsizliði azaltmaktadýr. Yazýlan kurallar bu ilke çerçevesinde oluþturulmuþ ve kurallarýn sað baðlamlarý sözcük türleri ile kýsýtlandýrýlmýþtýr: “gri” ¬“boz” \/ _ “+Adj” .o. “sil” ¬ “boz” \/ _ “+Verb” Bu sayede sistemin rastladýðý bütün “boz” köklerini, “gri” ve “sil” kökleri ile deðiþtirmesinin önüne geçilerek aktarýlacak sözcüðün sýfat veya eylem olma durumuna göre sadece uygun karþýlýklarýn dönüþtürülmesi saðlanmýþtýr. Kök aktarým bileþenin örnek girdisi ve çýktýsý Þekil-3.16'da verilmiþtir: (Bozypdy) Boz+Verb+Pos+Narr+Past+A3sg Kök Aktarýcý (Silmiþti) Sil+Verb+Pos+Narr+Past+A3sg Þekil-3.16 : Kök aktarým bileþeni 3.8.1.2.1 Birden Fazla Sözcükten Oluþan Kaþýlýklar Dillerin doðasý gereði Türkmencede bir tek sözcükle ifade edilen bazý kavramlar Türkçede bir tek sözcük ile ifade edilememekte ancak iki veya daha fazla sözcükten oluþan ÇSG’ler ile ifade edilebilmektedir. Bu durumda kök deðiþtirmek yerine daha akýllý bir yönteme baþvurulmasý gereklidir. Bu tür durumlara örnek olarak aþaðýdaki sözlük girdileri gösterilebilir: Türkmence boþatmak dillenmek entegem Türkçe özgür býrakmak dile gelmek uzun süre Hedef dil karþýlýðý ÇSG olan sözlük girdileri için standart kök aktarým kurallarý yerine geliþmiþ kurallarýn oluþturulmasý gereklidir. Önemli olan bir diðer nokta da, bu deðiþtirme sürecinde ÇSG’nin son sözcüðü hariç bütün sözcüklerin yapýsal biçimde olmasý zorunluluðudur. Bu, hedef dilde üretilecek tüm sözcüklerin biçim bilimsel özelliklerinin de bulunmasý zorunluluðu Bilgisayarlý Çeviri anlamýna gelmektedir çünkü sistemin diðer bileþenleri yürütülürken, sözcüklerin yapýsal biçimlerine gerek duymaktadýr. Türkçede ÇSG’lerin türetme ve/veya çekim eklerinden etkilenen kýsmý sadece ÇSG’nin sonunda yer alan sözcüktür. Bu gerçekten hareketle kaynak dildeki sözcüðe ait biçim bilimsel özelliklerin hedef dildeki ÇSG’nin sonundaki sözcüðe ait olduðu, ÇSG’nin baþýnda yer alan diðer sözcüklerin sabit bir yapýya sahip olduðu sonucuna varýlabilir. Bu koþullarla yukarýdaki sözlük girdilerini aktarmak üzere oluþturulmasý gereken kurallar aþaðýda verilmiþtir: “dil+Noun+A3sg+Pnon+Dat gel” <- “dillen” “özgür+Adj býrak” <- “boSat” “uzun+Adj süre+Noun+A3sg+Pnon+Nom”<-"entegem+Adverb" Þekil-3.17'de ise kök aktarýcýnýn örnek bir ÇSG’yi aktarmasý gösterilmiþtir. Altý çizili olmayan Türkmence biçim bilimsel yapýlarýn, ÇSG’nin son sözcüðüne eklendiði görülmektedir. boþa+Verb+Pos+Narr+Past+A3sg Kök Aktarýcý Özgür+Adj býrak+Verb+Pos+Narr+Past+A3sg Þekil-3.17 : ÇSG’lerin Aktarýlmasý 3.8.1.2.2 Sözcüksel Aktarým Kurallarý Uygulamada ortaya çýkan bazý durumlar göstermiþtir ki birtakým sözcükler için sadece sözcük kökünü deðiþtiren basit bir kural yeterli olmamaktadýr. Örneðin Türkmencedeki ulumsy sözcüðü Türkçedeki kibirli sözcüðünün karþýlýðýdýr. Standart kurallar uygulanarak sadece sözcük kökü deðiþtirildiðinde aþaðýdaki dönüþtürme iþlemi gerçeklenir: kibirli+Adj <- ulumsy+Adj Ýlk bakýþta göze çarpan herhangi bir sorun olmamasýna karþýn oluþan yapýsal biçimdeki sözcük, Türkçe biçim bilimsel üretici tarafýndan yüzeysel biçime dönüþtürüleceði zaman herhangi bir çýktý üretilememektedir. Bunun altýnda yatan neden ise Türkçedeki kibirli sözcüðünün aslýnda türemiþ bir sözcük olmasý ve bu sözcüðün doðru yapýsal biçiminin aþaðýdaki gibi olmasýdýr: kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With Prof. Dr. Eþref Adalý Ortaya çýkan bu sorunun düzeltilmesi için Türkmencedeki ulumsy sözcüðü için aþaðýdaki gibi özel bir kural oluþturulmalýdýr: “kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With”<-"ulumsy+Adj" Örnekte açýklandýðý gibi sözcüðe baðlý özel durumlarý kotaran kurallar, sözcüksel kurallar olarak adlandýrýlmýþtýr. Ancak her iki dilde de ortak olan türetme ekleri ile türetilebilecek sözcükler için ayrý kurallarýn oluþturulmasýna gerek yoktur. Örneðin Türkmencedeki +lyk eki ile Türkçedeki +lýk eki, sýfattan isim yapan ayný göreve sahip iki yapým ekidir. Dolayýsýyla Türkmencede bulunan ulumsylyk sözcüðünün karþýlýðý da kibirlilik sözcüðüdür. Her iki sözcüðün biçim bilimsel çözümlemesi aþaðýda belirtilmiþtir: ulumsy+Adj^DB+Noun+Ness+A3sg+Pnon+Nom kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With^DB+Noun+Ness+A3sg+Pnon+Nom Örnekten de görüldüðü gibi kalýn ve altý çizili olarak gösterilmeyen biçim bilimsel yapýlar aynýdýr. Dolayýsýyla bu iki sözcük için ayrý bir sözcüksel aktarým kuralý hazýrlanmasýna gerek yoktur, yukarýda anlatýlan ve ulumsy sözcüðünü aktaran sözcüksel aktarým kuralýnýn çalýþmasý yeterli olmaktadýr. 3.8.1.2.3 Biçim Bilimsel Aktarým Kurallarý Türkmence ve Türkçe arasýndaki biçim bilimsel farklýlýklarýn giderilerek Türkmence biçim bilimsel çözümleme sonucu üretilen yapýlarýn, kabul edilebilir Türkçe biçim bilimsel yapýlara dönüþtürülmesini saðlayan kurallardýr. Örneðin Türkmencede bulunan ve emir kipinin 1. tekil ve 1. çoðul kiþiler için çekimi Türkçede istek kipine karþýlýk gelmektedir: Türkmence alaYyn (al+Verb+Pos+Imp+A1sg) algyn (al+Verb+Pos+Imp+A2sg) alsyn (al+Verb+Pos+Imp+A3sg) Türkçe Karþýlýðý alayým (al+Verb+Pos+Opt+A1sg) al (al+Verb+Pos+Imp+A2sg) alsýn (al+Verb+Pos+Imp+A3sg) Her iki dil arasýndaki biçim bilimsel farklýlýklardan bir tanesi de Türkmencede olup da Türkçede olmayan eylem kipleridir. Örneðin Türkmencede "+makçy/+mekçi” eki ile kiþinin, ekin geldiði eylemi yapmayý düþündüðü veya niyetlendiði anlamý kurulur. Bunun Türkçede doðrudan karþýlýðý olmadýðý için ÇSG üreten bir kural geliþtirilmiþtir: Bilgisayarlý Çeviri 3.8.1.2.4 Ýstatistiksel Dil Modeli Bileþeni Aktarým sýrasýnda ortaya çýkan biçim bilimsel ve sözcüksel belirsizliklerin giderilmesi için ÝDM’leri kullanan bu bileþenin görevi ve iþleyiþ tarzý, daha önce açýklanmýþtýr. Bu amaçla, bitiþken diller için önerilen farklý türlerde ÝDM’ler üretilmiþtir. ÝDM’lerin oluþturulmasý için yaygýn olarak kullanýlan iki farklý yardýmcý araç bulunmaktadýr: CMU-Cambridge Language Modeling Toolkit ve SRILM. Bu çalýþmada kullanýlan ÝDM’ler, En Büyük Olabilirlik Kestirimi yöntemi ile SRILM kullanýlarak oluþturulmuþtur. Olasýlýklar oluþturulurken yumuþatma için Good-Turing yöntemi ile derece düþürme modelleme yöntemi beraber kullanýlmýþtýr. Uygulamada önerilen farklý ÝDM tiplerinin baþarýmlarý ayrý ayrý incelenmiþ ve en baþarýlý sonuç üreten ÝDM belirlenmeye çalýþýlmýþtýr. Kaynaklar [1] M. Nagao, “A Framework of a Mechanical Translation Between Japanese and English by Analogy Principle,” in Artificial and Human Intelligence, A. E. a. R. Banerji, Ed. North-Holland, 1984. [2] J. Hajiè, “RUSLAN - An MT System Between Closely Related Languages,” in Third Conference of the European Chapter of the Association for Computational Linguistics (EACL’87) Copenhagen, Denmark, 1987. [3] J. Hajiè, J. Hric, and V. Kuboò, “Machine translation of very close languages,” in Proceedings of the sixth conference on Applied natural language processing Proceedings of the sixth conference on Applied natural language processing Morgan Kaufmann Publishers Inc., 2000, pp. 7-12. [4] C. A. i. Oller and M. L. Forcada, “Open-source machine translation between small languages : Catalan and Aranese Occitan,” in LREC-2006: Fifth International Conference on Language Resources and Evaluation. 5th SALTMIL Workshop on Minority Languages: “Strategies for developing machine translation for minority languages” Genoa, Italy, 2006. [5] Ý. Hamzaoðlu, “Machine translation from Turkish to other Turkic languages and an implementation for the Azeri languages,” in Institute for Graduate Studies in Science and Engineering. vol. MSc Thesis Ýstanbul: Bogazici University, 1993. [6] K. Altýntaþ, “Turkish to Crimean Tatar Machine Translation System,” in Bilgisayar Mühendisliði Bölümü. vol. MSc Ankara: Bilkent Üniversitesi, 2000. [6] K. Oflazer, “Two-level Description of Turkish Morphology,” Literary and Linguistic Computing, vol. 9, pp. 137-148, 1995. [7] K. Altýntaþ and Ý. Çiçekli, “A Morphological Analyser for Crimean Tatar,” in Proceedings of the 10th Turkish Symposium on Artificial Intelligence and Neural Networks, TAINN North Cyprus, 2001, pp. 180-189. [8] K. Koskenniemi, “Two-Level Morphology : A General Computational Model for Word Form Recognition and Production,” Department of General Linguistics, University of Helsinki 1983. 100 - 3. Bilgisayarlý Çeviri [9] L. Karttunen, “KIMMO : A General Morphological Processor,” in Texas Linguistic Forum, Texas, USA, 1983, pp. 163-186. [10] E. L. Antworth, “PC-KIMMO: A Two-Level Processor for Morphological Analysis,” Summer Institute of Linguistics, Dallas, Texas, USA 1990. [11] L. Karttunen and K. Wittenburg, “A Two-Level Morphological Analysis of English,” in Texas Linguistic Forum, Texas, USA, 1983, pp. 217-228. [11] K. Koskenniemi, “An Application of the Two-Level Model to Finnish,” University of Helsinki Department of General Linguistics (1985. [12] L. Karttunen, T. Gaal, and A. Kempe, “Xerox Finite-State Tool,” XEROX Research Centre, Europe, Technical Report 1997. [13] D. Jurafsky and J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition: Prentice Hall, 2000. [14] J. Chandioux, “MÉTÉO : un systéme opérationnel pour la traduction automatique des bulletins météorologiques destinés au grand public.,” Meta, vol. 21, pp. 127-133, 1976. [14] P. F. Brown, J. Cocke, S. A. D. Pietra, V. J. D. Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer, and P. S. Roossin, “A Statistical Approach to Machine Translation,” Computational Linguistics, vol. 16, pp. 79-85, 1990. [15] P. F. Brown, V. J. D. Pietra, S. A. D. Pietra, and R. L. Mercer, “The mathematics of statistical machine translation: parameter estimation,” Computational Linguistics vol. 19, pp. 263 - 311, 1993. [16] P. Koehn, “Noun Phrase Translation.” vol. PhD Thesis Los Angeles: University of Southern California, 2003. [17] R. D. Brown, “Example-Based Machine Translation in the Pangloss System,” in The 16th International Conference on Computational Linguistics (COLING-96) Copenhagen, Denmark, 1996. [18] H. A. Guvenir and I. Cicekli, “Learning Translation Templates from Examples,” Information Systems, vol. 23, pp. 353-363, 1998. [19] H. Somers, “Review Article: Example-based Machine Translation.” vol. 14: Kluwer Academic Publishers, 1999, pp. 113-157. [20] K. Papineni, S. Roukos, T. Ward, and W.-J. J. Zhu, “BLEU : A Mehtod for Automatic Evaluation of Machine Translation,” in Association of Computational Linguistics, ACL’02 Philadelphia, PA, USA, 2002. [21] “NIST Report - Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics,” 2002. [22] C. Callison-Burch, M. Osborne, and P. Koehn, “Re-evaluating the Role of BLEU in Machine Translation Research,” in Conference of the European Chapter of the Association for Computational Linguistics (EACL’06) Trento, Italy, 2006. 3.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 101 [23] I. D. Melamed, R. Green, and J. P. Turian, “Precision and Recall of Machine Translation,” in HLT-NAACL 2003, 2003. [24] S. Banerjee and A. Lavie, “METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments,” in ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization Ann Arbor, MI, USA, 2005. [25] K. Oflazer, Ö. Çetinoðlu, and B. Say, “Integrating Morphology with Multi-word Expression Processing in Turkish,” in The ACL 2004 Workshop on Multiword Expressions:Integrating Processing Barcelona, Spain, 2004. [26] D. Z. H. Tür, K. Oflazer, and G. Tür, “Statistical Morphological Disambiguation for Agglutinative Languages,” Computers and the Humanities, vol. 36, pp. 381-410, 2002. [27] K. Oflazer, “Dependency Parsing with a Extended Finite State Approach,” in College Park, Maryland, 1999. [28] D. Yüret and F. Türe, “Learning Morphological Disambiguation Rules for Turkish,” in North American Chapter of the Association for Computational Linguistics Annual Meeting (HLT-NAACL 2006) New York City, 2006. [29] G. Tür, “A Statistical Information Extraction System for Turkish,” in The Department of Computer Engineering. vol. PhD Thesis Ankara: Bilkent University, 2000. [30] A. C. Tantuð, E. Adalý, and K. Oflazer, “A Prototype Machine Translation System Between Turkmen and Turkish,” in Fifteenth Turkish Symposium on Artificial Intelligence and Neural Networks, TAINN Gökova, Muðla, Türkiye, 2006. [31] A. C. Tantuð, E. Adalý, and K. Oflazer, “Computer Analysis of the Turkmen Language Morphology,” in FinTAL, Lecture Notes in Computer Science. vol. 4139: Springer, 2006, pp. 186-193. [32] S. Arnazarow, A. Borjakow, M. Saruhanow, M. Söyegow, and B. Hojayew, Türkmen Dilinin Grammatikasy. Ankara: Türk Dil Kurumu, 2000. [33] M. Kara, Türkmence (Giriþ-Gramer-Metinler-Sözlük). Ankara: Kültür Bakanlýðý Yayýnlarý, 2000. [34] B. Sarý and N. Güder, Türkmencenin Grameri - I (Fonetika-Ses Bilgisi): Türk Dünyasý Gençlerinin Mahtumkulu Yayýn Birliði, 1998. [35] B. Sarý and N. Güder, Türkmencenin Grameri - II (Morfologiya – Þekil Bilgisi): Türk Dünyasý Gençlerinin Mahtumkulu Yayýn Birliði, 1998. [36] B. Sarý and N. Güder, Türkmencenin Grameri - III (Sintaksis): Türk Dünyasý Gençlerinin Mahtumkulu Yayýn Birliði, 1998. [37] L. V. Clark, Turkmen reference grammar. Wiesbaden: Harrassowitz Verlag, 1998. [38] K. R. Beesley and L. Karttunen, Finite State Morphology. Stanford: CSLI Publications, 2003. 102 - 3. Bilgisayarlý Çeviri [39] P. Clarkson and P. R. Rosenfeld, “Statistical Language Modeling Using CMU-Cambridge Toolkit,” in ESCA Eurospeech’97, 1997. [40] A. Stolcke, “SRILM - An Extensible Language Modeling Toolkit,” in International Conference on Spoken Language Processing Denver, Colorado, 2002. [41] Y.-L. Chow and R. Schwartz, “The N-Best Algorithm: An Efficient Procedure for Finding Top N Sentence Hypotheses,” in Proceedings of a Workshop on Speech and Natural Language Philadelphia, 1989. [42] L. S. Oliveira, R. S. F. Bortolozzi, and C. Y. Suen, “Automatic Recognition of Handwritten Numerical Strings: A Recognition and Verification Strategy,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, pp. 1438-1554, 2002. [43] L. E. S. Oliviera, “Automatic Recognition of Handwritten Numerical Strings,” in ÉCOLE DE TECHNOLOGIE SUPÉRIEURE. vol. PhD Quebec: UNIVERSITÉ DU QUÉBEC, 2003. [44] K. Oflazer and G. Tür, “Morphological Disambiguation by Voting Constraints,” in The Thirty-Fifth Annual Meeting of the ACL and Eighth Conference of the EACL Somerset, New Jersey, 1997. [45] E. E. Erguvanlý, “The Function of Word Order in Turkish.” vol. PhD Los Angeles: University of California, 1979. [46] T. Tekin, M. Ölmez, E. Ceylan, Z. K. Ölmez, and S. Eker, Türkmence-Türkçe Sözlük. Ýstanbul: Simurg Yayýnlarý, 1995. [47] S. Stamou, K. Oflazer, K. Pala, D. Christoudoulakis, D. Cristea, D. Tufis, S. Koeva, G. Totkov, D. Dutoit, and M. Grigoriadou, “Balkanet: A multilingual Semantic Network for Balkan Languages,” in First International WordNet Conference Mysore India, 2002.
Benzer belgeler
Makaleyi Yazdır
Kök bulma iþlemi kök sözcük deðiþime uðradýðý durumlarda sorunlara yol açmaktadýr. Örneðin
“oðlumuz” sözcüðü için kök “oðul” dur ve köke birinci çoðul þahýs eki ulandýðýnda kök
sözcük deðiþime uðra...