1. Yazım Hatalarını Düzeltme - Prof. Dr. Eşref Adalı`nın Bireysel Sayfası

Transkript

1. Yazým Hatalarýný Düzeltme
Prof. Dr. Eþref ADALI
Günümüzde, kitaplar, dergiler ve raporlar bilgisayar ortamýnda hazýrlanmaktadýr. 19. yüzyýlýn
sonunda önemli bir buluþ olarak kabul gören daktilolar artýk kullaným dýþýdýr. Yazýlan her
yazýda yazým hatasý olabileceði bir gerçektir. Ýnsanlar yazmýþ olduklarý yazýnýn yazým
kurallarýna uygun olmasýný isterler. Geçmiþ dönemlerde yanlýþlarý bulan ve düzelten insanlarýn
olduðu ve bunlarýn basýn kuruluþlarýnda musahhih unvanýyla çalýþtýklarý bilinmektedir.
Geçmiþte musahhihler tarafýndan yapýlan iþi bugün bilgisayarlara yaptýrmak için çalýþmalar
oldukça ileri düzeydedir.
Yazma iþleminin bilgisayar ortamýna geçmesiyle birlikte bilgisayar ortamýnda bulunan bir
metnin yazým hatalarýný bulmak ve düzeltmek biliþimciler için ilginç bir araþtýrma alaný
olmuþtur. Bir metindeki yazým hatalarýný bulmak için deðiþik yöntemler kullanýlabilir.
Yöntemlerden biri, metnin yazýldýðý dilin sözlüðünü bilgisayarda bir veri tabanýna yerleþtirmek
olabilir. Bu yöntem bitiþken olmayan diller için uygulanabilir bir yöntemdir. Türkçe gibi
bitiþken diller için bu yöntem ilk seçenek olmamalýdýr. Türkçe gibi kurallý bir dilde yazýlmýþ bir
metin içindeki yazým hatalarýný bulmak ve düzeltmek için;
• Ses uyum kurallarý
• Hece yapýsý
• Eklerin uyumu
özellikleri kullanýlabilir.
Bir sözcüðü hecelere ayýrma ve satýr sonunda hece bölmesi iþlemi için Ýngilizcede sözlüðe
bakma zorunluluðu vardýr. Buna karþýn Türkçede bir sözcüðün hecelere ayrýlmasý kurallýdýr ve
sözlüðe bakýlmadan yapýlabilir.
1.1 Yazým Hatalarýný Giderme Üzerine Çalýþmalar
Türkçe metinlerde yazým hatalarýný bulmak için deðiþik yöntemler kullanýlabilir. Bu yöntemler
sözcük temelli olabileceði gibi kural tabanlý da olabilir. Türkçe metinlerde yazým hatalarýný
bulmak için gerçekleþtirilmiþ çalýþmalardan bazýlarý bu kýsýmda tanýtýlmýþtýr.
A. Solak ve K. Oflazer tarafýndan hazýrlanmýþ olan [7,9] çalýþma sözcük temelli bir çalýþmadýr
ve 23.000 sözcüðü olan bir sözlüðe sahiptir. Sözlükteki her bir kök sözcük sözcüðü tanýmlayan
bayraklarla iþaretlenmiþtir. Sözlükteki herhangi bir sözcük 64 farklý bayrak ile
Prof. Dr. Eþref Adalý
iþaretlenebilmesine karþýn geliþtirilen yazýlýmda bu bayraklarýn 41 tanesi kullanýlmýþtýr. Kök
sözcük bulma algoritmasýnýn temeli sözlükte arama yapma iþlemine dayanmaktadýr. Bu
algoritmaya göre sözcük sözlükte aranýr ve bulunursa hiç ek almamýþ demektir. Dolayýsýyla
çözümlemeye gerek yoktur. Sözcüðün sözlükte bulunamamasý durumunda sözcüðün saðýndan
bir harf çýkarýlýr ve sözcüðün kalan kýsmý sözlükte aranýr. Bu iþlem sözcük sözlükte bulunana
kadar devam eder. Eðer sözcüðün ilk harfine gelinmiþ ancak kök sözlükte bulunamamýþsa
sözcük yanlýþ yazýlmýþ demektir.
Harf çýkarýlarak sözlükte bulunan en uzun sözcük her zaman aranan kök olmayabilir. Bu
durumda en son sözlükte bulunan kök üzerinden devam edilerek yeni kök sözlükte aranýr.
Örneðin, “yapýldýn” sözcüðü için ilk olarak “yapý” ad soylu kökü bulunur. Ancak sözcüðün
kalanýna bakýldýðýnda eklerin ad soylu sözcüklere eklenebilecek ekler olmadýðý görülür ve
dolayýsýyla “yapý” sözcüðünden bir harf daha çýkarýlarak sözlükte arama yapýlýr ve “yap” eylem
soylu kökü bulunur.
Kök bulma iþlemi kök sözcük deðiþime uðradýðý durumlarda sorunlara yol açmaktadýr. Örneðin
“oðlumuz” sözcüðü için kök “oðul” dur ve köke birinci çoðul þahýs eki ulandýðýnda kök
sözcük deðiþime uðrayarak “oðl” hâline dönüþmektedir. Ancak “oðl” sözlükte
bulunamayacaðý için bir denetleme iþlemi gerekir. Son iki harf ünsüz ve ilk harf ünlü olduðu için
kök sözcüðün deðiþime uðramýþ olma olasýlýðý yüksektir. “ð” ile “l” harfleri arasýna ünlü
uyumuna uyacak þekilde “ý” ve “u” harfleri getirilerek yeni aday kökler oluþturulur ve sözlükte
aranýr. “oðul” kökü sözlükte bulunur ve bu kökün ünlü düþmesi bayraðýna sahip olup
olmadýðýna bakýlýr. Kök ünlü düþmesi bayraðýna sahip olduðu için aranan kök bulunmuþ
demektir.
Kök sözcüðün deðiþmesi durumu için bir baþka örnek ise ünsüz yumuþamasý durumudur.
Örneðin; “tabaðým” sözcüðü için sözlükte aranan kök “tabað” olacaktýr. Ancak bu sözcük
sözlükte bulunmadýðý için bir deðerlendirme gerekir. Ek, ünlü harf ile baþladýðý için ve son harf
(ð) b, c, d, g, ð harflerinden biri olduðu için ünsüz yumuþamasý durumu olasýdýr. Sözcük “-loð”
eki ile bitmediði için son harften bir önceki harf “n” harfi olmadýðý için “ð” harfinin yerine “k”
harfi konur ve “tabak” sözcüðü sözlükte bulunur. Sözcük ünsüz yumuþamasý bayraðýna sahip
olduðundan dolayý aranan kök bulunmuþ demektir.
Oflazer ve Solak’ýn bu çalýþmalarýnda ünlü uyumu ile ilgili denetimler de yer almaktadýr. Ayrýca
ekler sýnýflandýrýlmýþ ve bu sayede çözümlemenin daha kolay hâle gelmesi saðlanmýþtýr. Diðer
yazým denetimi araçlarýnda olduðu gibi, geliþtirilen bu yazýlýmda da sözcük bazýnda denetleme
yapýlmýþ; cümle bazýnda denetleme yapýlmamýþtýr. Ayrýca yanlýþ yazýlmýþ olan sözcükler için
öneri yapma sistemi mevcut deðildir [7,9].
Türkçede yazým hatalarýnýn düzeltilmesi ile ilgili diðer bir çalýþma K. Oflazer ve C. Güzey
tarafýndan yapýlmýþtýr. Bu çalýþma iki seviyeli bir biçim bilimsel çözümleyici ve dinamik
programlama tabanlý bir arama algoritmasýna dayanmaktadýr. Yazým hatalarýnýn düzeltilmesi ile
ilgili olarak yapýlan bu çalýþmada, sorun iki ayrý ana baþlýk altýnda deðerlendirilmiþtir. Ýlk olarak
yapýlan iþlem, yanlýþ yazýlmýþ sözcük için sözlükten tüm aday köklerin bulunmasýdýr. Burada
Yazým Hatalarýný Düzeltme
zor olan nokta, köklerin yanlýþ yazýlma sonucunda mý yoksa ses deðiþimlerine uðrayarak mý
deðiþmiþ olduðuna karar vermektir. Ýkinci adým ise sorunun esas kýsmýný oluþturmaktadýr; bu da
bulunan tüm aday köklerden olasý tüm sözcüklerin türetilmesidir. Bunu gerçekleþtirmek için de
"edit distance metric" olarak bilinen iki sözcük arasýndaki uzaklýðý bulma yollarýndan
yararlanýlmýþtýr. Bu çalýþmada iki sözcüðün birbirine ne kadar benzer olduðunu bulmak için “q
gram” yöntemi kullanýlmýþtýr. Yapýlan sýnama sonuçlarýna göre yanlýþ yazýlmýþ olan bir
sözcüðün düzeltilmesi %95 baþarýyla gerçekleþtirilmektedir [6,8].
Türkçede yanlýþ yazýlmýþ sözcüklerin bulunmasý ile ilgili bir baþka çalýþma R. Aþliyan, K. Günel
ve T. Yakhno tarafýndan gerçekleþtirilmiþtir. Bu çalýþmanýn amacý bir Türkçe metindeki
sözcüklerin doðru yazýlýp yazýlmadýðýna karar vermektir. Sistem Türkçe metindeki sözcükleri
giriþ olarak almakta ve “n-gram frequency” yöntemini kullanarak olasýlýk daðýlýmý hesabý
yapmaktadýr. Eðer bir sözcüðün olasýlýk daðýlýmý sýfýr ise o sözcüðün yanlýþ yazýlmýþ olduðuna
karar verilmektedir. Sistemi sýnamak için ayný sözcükleri içeren metinlerden oluþan iki farklý
veri tabaný hazýrlanmýþtýr. Bunlardan birincisi 685 tane yanlýþ yazýlmýþ; diðeri ise 685 tane
doðru yazýlmýþ sözcük içermektedir. Sistemin yanlýþ yazýlmýþ olan sözcükleri bulma baþarýmý
%97 olarak verilmiþtir.
Türkçe metinlerdeki yazým hatalarýný bulma konusunda yapýlmýþ bir diðer çalýþma A. Delibaþ ve
E. Adalý tarafýndan gerçekleþtirilmiþtir. Bu çalýþmanýn hedefi;
•
•
•
•
•
Türkçe metinlerdeki yazým hatalarýnýn denetlenmesi,
Türkçe metinlerdeki yabancý sözcüklerin bulunmasý,
Bulunan yabancý sözcükler için Türkçe karþýlýklarýnýn önerilmesi,
Yanlýþ yazýlmýþ sözcükler için sözcük önerilmesi,
Bulunan yazým hatalarýnýn düzeltilmesi
olarak belirlenmiþtir.
Türkçe metinlerdeki yazým hatalarýnýn denetlenmesi ve yabancý sözcüklerin bulunmasý için
yapýlan çalýþmalarda sözcüklerin Türkçe ses bilimi ve biçim bilimi kurallarýna uygun olup
olmadýðýnýn sýnamasý yapýlmýþtýr. Bu sýnamanýn yapýlabilmesi için ilk olarak heceleme
algoritmasý yardýmýyla sözcüklerin hecelenebilir olup olmadýðý denetlenmiþtir. Bu denetimi
geçemeyen sözcükler Türkçe hece yapýsýna uygun olmadýklarý için doðrudan elenmektedir.
Türkçe metinlerdeki yabancý sözcüklerin ortaya çýkarýlabilmesi için sözcüklerin Türkçe ses
bilgisi ve hece yapýsý kurallarýna uygunluklarýnýn denetlenmesi yeterlidir. Ancak yazým
yanlýþlarýnýn bulunabilmesi için biçim bilimsel çözümleme gereklidir. Bu çalýþma kapsamýnda
gerçekleþtirilen biçim bilimsel çözümleyici kullanýlarak sözcükler kök ve eklerine ayrýldýktan
sonra hatanýn kökte mi yoksa eklerde mi olduðu araþtýrýlmýþ, ardýndan hatalý kýsým
düzeltilmiþtir. Bu çalýþmayla ilgili ayrýntýlý bilgiler Bölüm-2'de bulunmaktadýr.
Türkçe metinlerdeki yazým hatalarýnýn giderilmesi için sesbilim ve biçim bilim kurallarý
kullanýlarak gerçekleþtirilen yöntemlerin yeterli olmasý beklenemez. Metinlerin anlamsal
açýdan da denetlenmesi gerekir. Örneðin; "Ali dün okuldan gelecek" tümcesi sesbilim
ve biçim bilimsel kurallar açýsýndan denetlendiðinde hatasýzdýr. Ancak, anlam bilimi açýsýndan
denetlendiðinde yanlýþtýr.
1.2 Yetkin Hata Bulma ve Düzeltme
Türkçe metinlerde yazým hatalarýnýn bulunmasý ve düzeltilmesi konusunda yapýlmýþ olan
çalýþmalar özet biçiminde bir önceki kýsýmda tanýtýlmýþtýr. Bu kýsýmda, A. Delibaþ ve E. Adalý
tarafýndan gerçekleþtirilmiþ olan çalýþma ayrýntýlý biçimde tanýtýlacaktýr. Bu çalýþma
kapsamýnda gerçekleþtirilmiþ olan çalýþmalar sýrasýyla þöyledir:
• Sözcük daðarcýðý oluþturma
• Heceleyici
• Kök bulucu
• Biçim bilimsel çözümleyici
• Türkçe metin denetleyici
• Ses bilimi açýsýndan sözcük denetimi
• Sözcük önerme
1.2.1 Sözcük Daðarcýðý Oluþturma
Oluþturulan sözcük daðarcýðý güncel TDK sözlüðünde yer alan sözcüklerin yaný sýra özel
isimleri de içeren bir metin dosyasýdýr. Bu dosyada sözcükler kök hâlinde bulunmaktadýr.
Türkçe kurallý bir dil olmasýna karþýn kural dýþý durumlarý da olan bir dildir. Ancak bu kural dýþý
durumlarýn da uymak zorunda olduðu kurallar bulunmaktadýr. Bu nedenle oluþturulan sözlük
daðarcýðýnda kural dýþý durumlarýn oluþturacaðý hatalarý ortadan kaldýrmak için sözcüklerin
etiketlenmesi yoluna gidilmiþtir. Aþaðýdaki sözcük kümeleri etiketlenmiþtir:
• Özel isimler
• Yumuþama kuralýna göre deðiþime uðrayan sözcükler
• Ses düþmesinin söz konusu olduðu sözcükler
Sözlük daðarcýðýnda bulunan kök sözcük yukarýda belirtilen özel durumlardan hangisine
uyuyorsa kök sözcüðün yanýna bu özel durum yazýlmýþ; böylece sözcük etiketlenmiþtir.
Sözcük daðarcýðý oluþturulurken yumuþama ve ses düþmesi kurallarýný göz önüne alarak
sözcükleri kümeleyebilecek bir algoritmanýn tasarlanýp tasarlanamayacaðý araþtýrýlmýþtýr. Bu
araþtýrmanýn sonunda aþaðýdaki sonuçlara varýlmýþtýr:
Ünsüz yumuþamasý kuralý göz önüne alýndýðýnda, “k” harfi ile biten sözcüklere ünlü ile
baþlayan bir ek getirildiðinde “k” harfinin yerine “g”, “ð” veya “kk” harfleri gelmektedir.
Örneðin ismin “-i” durum eki "aþk" sözcüðüne ulanýnca "aþký", "sokak" sözcüðüne ulanýnca
"sokaðý", ahenk sözcüðüne ulanýnca "ahengi", "hak" sözcüðüne ulanýnca "hakký" sözcükleri
oluþmaktadýr. Bu örneklerden görüldüðü gibi “k” harfi için üç farklý durum söz konusudur.
Benzer durum “t” harfi için de geçerlidir. Bu aykýrý durumlarýn kaynaðý araþtýrýldýðýnda þu
sonuca varýlmaktadýr:
· Kökeni Doðu dillerine dayanan sözcüklerde genellikle yumuþama olurken Batý
dillerinden Türkçeye girmiþ olan sözcüklerde yumuþamaya daha az rastlanmaktadýr.
Örneðin, “kitap” sözcüðünün kökeni Arapçadýr ve özgün hâli “kitab” þeklindedir. Bu
sözcüðe ünlü ile baþlayan ek ulandýðýnda sözcük özgün hâline geri dönmekte ve ek
özgün hâline ulanmaktadýr. Benzer þekilde Arapça kökenli olan "hak" ve "cet"
sözcükleri de ünlü ile baþlayan ek aldýðýnda özgün hâlleri olan "hakk" ve "cedd"
hâllerine geri dönmektedirler. Bunun yaný sýra "ýslahat", "sefahat", "tatbikat" gibi
Arapça kökenli sözcüklerin özgün hâlleri de þu an kullanýlan hâlleriyle ayný olduðu için
bu sözcükler herhangi bir deðiþime uðramamaktadýrlar. Dolayýsýyla buradan da
görüleceði gibi doðu kökenli dillerden Türkçeye geçmiþ olan sözcüklerin pek çoðunda
sözcük, ünsüz yumuþamasý kuralýna uymak için özgün hâline geri dönmektedir.
· Batý kaynaklý dillerden Türkçeye girmiþ olan sözcükler üzerinde de benzer çalýþma
yapýlmýþtýr. Örneðin Fransýzcadan dilimize girmiþ olan "akrobat", "bürokrat",
"demokrat" sözcükleri ünlü ile baþlayan bir ek aldýðýnda deðiþime uðramazken yine
Fransýzcadan dilimize girmiþ olan "piramit" sözcüðü ünlü ile baþlayan bir ek aldýðýnda
deðiþime uðramakta ve sözcük sonundaki “t” harfinin yerini “d” harfi almaktadýr.
Benzer þekilde Fransýzca kökenli olan "bank" sözcüðünde yumuþama söz konusu
deðilken "müzik" sözcüðünde yumuþama olmaktadýr. Batý dillerinden Türkçeye girmiþ
olan sözcüklerin bir kýsmýnda yumuþama gerçekleþmekte bir kýsmýnda
gerçekleþmemektedir.
Bu deðerlendirmelerin sonunda Doðu kökenli sözcükler için bir kural oluþturulabilir gibi
görünse de Batý kökenli sözcükler için yumuþama kuralý oluþturulamamaktadýr. Dolayýsýyla
yazým yanlýþlarýný bulma ve düzeltmedeki hata oranýný en aza indirgemek açýsýndan sözcük
daðarcýðýndaki sözcükler yumuþama kuralý açýsýndan etiketlenmeleri gerekmiþtir.
Ses düþmeleri açýsýndan TDK sözlüðündeki sözcükler incelendiðinde ses düþmesi kuralýnýn
ünsüz yumuþamasý kuralýna göre daha kurallý bir yapýya sahip olduðu söylenebilir. Ancak ses
düþmesinde de kural dýþý durumlar söz konusudur. Örneðin, “beniz” sözcüðü ünlü ile baþlayan
bir ek aldýðýnda ikinci hecedeki “i” ünlüsü düþmekte ve "benzi" hâline dönüþmektedir. Ancak
“deniz” sözcüðüne bakýlacak olursa iki sözcük arasýndaki farkýn sözcük baþýndaki harf olmasýna
karþýn bu sözcükte ses düþmesi söz konusu deðildir. Dolayýsýyla sözlük daðarcýðýndaki
sözlüklerin ses düþmesi açýsýndan etiketlenmesi gerektiði sonucuna varýlmýþtýr.
Sözlük daðarcýðýna yeni sözcükler eklenebilmektedir. Eklenecek sözcük yabancý bir sözcük ise
bu sözcüðe karþýlýk düþen bir Türkçe sözcük önerilmektedir. Örneðin "arkeoloji" sözcüðü
yerine “kazý bilimi” veya "agresif" sözcüðü yerine “saldýrgan” sözcüðü önerilebilir. Sözcük
daðarcýðýna eklenmek istenen sözcük yabancý sözcük olmasýna karþýn eklenmek isteniyorsa
eklenebilir.
1.2.2 Heceleyici
Biçim bilimsel çözümleyiciyi gerçekleþtirebilmek bir heceleyici gerekli olmuþtur. Türkçede
ekler ve kökler arasýndaki ses olaylarý hece boyutunda gerçekleþtiði için hecelemenin önemi
oldukça büyüktür. Türkçede altý temel hece yapýsý bulunmaktadýr. Ses kurallarý sadece bu hece
yapýlarýna izin vermektedir. Bu kurallara göre Türkçe bir hecenin içinde en az bir, en fazla dört
ses bulunabilir. Türkçedeki bu hece kalýplarý sayesinde hecelemenin yapýsal olarak
modellenmesi ve yazýlým ile gerçekleþtirilmesi olanaklýdýr. Bazý yabancý sözcüklerde heceleme
kuralý dýþýna çýkýldýðý görülmektedir. Gerçekleþtirilen heceleme algoritmasýnýn temeli Türkçe
hece modelleri temeline dayanmaktadýr. Algoritmada sözcük sondan baþa doðru incelenmekte
ve hecelenmektedir. Heceleme algoritmasýnýn adýmlarý aþaðýda verilmiþtir:
1. Aþama
Sözcüðün sonundaki harf okunur ve bu harfin ünlü mü yoksa ünsüz mü olduðu
belirlenir. Eðer son harf ünsüz ise sözcük uzunluðu denetlenir. Sözcük uzunluðu bir
harf ise bu hata durumudur; çünkü Türkçede heceler sadece bir ünsüz harften
oluþamazlar.
2. Aþama
Sözcük ilk aþamadan geçerse sondan bir önceki harf ele alýnýr. Eðer sondan bir önceki
harf ünlü ise bu durumda sözcük denetlenir. Eðer sözcük uzunluðu iki ise (örneðin: al)
veya sondan iki önceki harf ünlü ise (örneðin; saat, zaaf) hece bulunmuþ demektir.
Eðer sözcük uzunluðu üç (örneðin; yat, kat) ise veya sondan üç önceki harf ünlü ise
(örneðin; kitap, kalem) hece bulunmuþ demektir. Bu koþullar saðlanmýyorsa sondan
dört önceki harfe bakýlýr ve bu harf ünlü ise (örneðin, kezzap) hece bulunmuþ
demektir. Bu koþullarýn dýþýndaki durumlarda hata oluþturulur.
3. Aþama
Ýlk iki aþama sondan bir önceki harfin ünlü olmasý durumunda izlenecek yolu
göstermektedir. Sondan bir önceki harf de son harf gibi ünsüz ise ve bu harf “l, r, y, p,
n, s” harflerinden biriyse bu durumda hece Türkçe hece modellerinden SZZ veya
ZSZZ kalýplarýndan birine uymaktadýr. Sözcük uzunluðu iki ise veya sondan iki
önceki harf de ünsüz ise hata oluþturulur. Çünkü Türkçe hece kalýplarýna göre bir hece
iki ünsüz (ZZ) veya üç ünsüzden (ZZZ) oluþamaz. Bu denetim sayesinde yabancý
dillerden dilimize girmiþ olan ve sözcük baþýnda veya ortasýnda birden fazla ünsüz
harfi yan yana bulunduran sözcüklerin hecelenmesine izin verilmez. Sözcük uzunluðu
üçten büyük ve sondan üç önceki harf ünsüz ise (örneðin; kalp, Türk, ebeveyn) hece
bulunmuþ demektir.
4. Aþama
Son harfin ünlü olmasý durumunda ise uygulanan yöntem þu þekildedir: Sözcük
uzunluðu bir ise (örneðin; o) hece bulunmuþ demektir. Sondan bir önceki harf ünsüz
ise ve sözcük uzunluðu iki ise (örneðin; ye, ya) hece bulunmuþ demektir. Sondan iki
önceki harf ünsüz ve sözcük uzunluðu üç ise hece bulunmuþ demektir. Tüm bu
denetimlerin dýþýnda kalan durumlar için hata üretilir ve heceleme yapýlamaz.
Yukarýda da belirtildiði gibi heceleme sözcük sonundan baþýna doðru yapýlmaktadýr.
Dolayýsýyla ilk hece bulunduktan sonra bulunan hece sözcükten çýkarýlmakta ve anlatýlan
denetimlerin hepsi sözcükte kalan diðer heceler için de aynen gerçekleþtirilmektedir. Her hece
bulunduðunda bulunan hece dýþýnda sözcükte kalan diðer heceler için ayný iþlemler
tekrarlanmaktadýr ve bu iþlem sözcük uzunluðu sýfýrlanana kadar devam etmektedir. Böylece
sözcükteki tüm heceler bulunabilmektedir. Þekil-1.1 heceleme algoritmasýna iliþkin akýþ
diyagramýný göstermektedir.
1.2.3 Kök Bulucu
Kullanýlan kök bulma algoritmasý aðaç veri yapýsý ile oluþturulmuþtur. Sözlükten okunan tüm
kökler bu aðaca yerleþtirilir. Kök aðacý Yönlü Döngüsüz Sözcük Çizgesi (YDSÇ) DAWG)
yapýsýndadýr. Aþaðýda Kök Aðacý Yönlü Döngüsüz Sözcük Çizgesi hakkýnda bilgi verilmiþtir.
1.2.3.1 Yönlü Döngüsüz Sözcük Çizgesi Yapýsý
YDSÇ hýzlý sözcük aramalarýna olanak tanýyan bir veri yapýsýdýr. Çizgeye giriþ noktasý aranan
sözcüðün baþlangýç harfidir. Her düðüm bir harfi temsil eder. Çizgede ilerlerken karþýlaþýlan
harf ile aranan harfin ayný olmamasý durumunda bir düðümden diðer düðümlere geçiþ
yapýlabilir.
Çizgenin yönlü bir çizge olmasýnýn nedeni herhangi iki düðüm arasýnda sadece özel ve belirli bir
yolda ilerlenilebilmesidir. Diðer bir deyiþle, A düðümünden B düðümüne gidilebilir; ancak B
düðümünden A düðümüne gidilemez. Döngüsüz olmasýnýn nedeni ise çizge üzerinde herhangi
bir yolun baþlangýç ve bitiþ düðümünün ayný olmamasýndan kaynaklanmaktadýr. Bir baþka
deyiþle çizge üzerinde A ® B ® C ® A þeklinde bir yol bulunmasý söz konusu deðildir.
Þekil-1.2'de “BAL”, “BAS” sözcüklerinin YDSÇ içindeki yerleþimi gösterilmiþtir.
Þekil-1.2'deki ÇD : Çocuk Düðüm, SD : Sonraki Düðüm ve SS : Sözcük Sonu anlamýna
gelmektedir. Þekil-1.2'deki YDSÇ'de "BAS" sözcüðünün aranmasý durumunda giriþ
noktasýndan (B harfi) arama baþlayacaktýr. "B" harfi aradýðýmýz sözcüðün ilk harfi olduðundan
dolayý bundan sonra yapýlacak iþlem "B" harfinin çocuk düðümüne gitmektir." BAS" sözcüðü
için aradýðýmýz ikinci harf "A" harfidir ve bu harf çizge üzerinde "B" harfinin çocuk düðümü
olan "A" harfi ile ayný olduðundan bu kez de "A" harfinin çocuk düðümüne bakýlacaktýr. "BAS"
Baþla
Sözcüðün son
harfini oku
E
H
Ünlü harf mi?
Sözcük
uzunluðunu
hesapla
E
H
Sondan
bir önceki harf
ünlü mü?
H
Sözcük
uzunluðu =1 mi?
Sözcük
uzunluðunu
hesapla
E
Sözcük
uzunluðu =1 mi?
H
Sondan
bir önceki harf
ünlü mü?
E
E
H
E
Sözcük
uzunluðu =2 mi?
E
E
H
H
Sözcük
uzunluðu =3 mü?
H
E
H
E
E
Sondan
iki önceki harf
ünlü mü?
Sözcük
uzunluðu =2 mi?
Sondan
iki önceki harf
ünsüz mü?
Sözcük
uzunluðu =3 mü?
Sondan
üç önceki harf
ünlü mü?
H
Sözcük
uzunluðu >3 mü?
E
Sözcük
uzunluðu =4 mü?
H
Sondan
üç önceki harf
ünsüz mü?
E
Hece bulundu
Uzunluðu = 3
Hece bulundu
Uzunluðu = 2
E
H
H
H
E
H
H
E
H
E
H
E
Sondan
iki önceki harf
ünsüz mü?
Harf
l,r,p,y,n,s den
biri mi?
Sözcük
uzunluðu =2 mi?
E
Hece bulundu
Uzunluðu = 1
Hece bulundu
Uzunluðu = 4
Hata
Bulunan heceyi
sözcükten çýkar
H
Sözcük
uzunluðu=0 mý?
E
Þekil-1.1: Türkçe sözcükleri heceleme algoritmasý
SON
B
ÇD
A
ÇD
L(SS)
SD
S(SS)
Þekil-1.2: “BAL” ve “BAS”sözcükleri için YDSÇ
sözcüðü için aranýlmasý gereken sýradaki harf "S" harfidir. Ancak bu harf, çizge üzerinde "A"
harfinin çocuk düðümü olan "L" harfinden farklý olduðu için " L" harfinin çocuk düðümüne
bakýlmayacak ve bir sonraki düðüme (S) geçilecektir. Bu düðüm aranýlan harf olan S harfini
göstermektedir. Aranýlan sözcük içindeki tüm harfler bulunduðuna göre bundan sonra
yapýlmasý gereken sözcük sonuna gelinip gelinmediðinin denetlenmesidir.
YDSÇ'de ayný harfle biten sözcüklerin ayný düðümde sonlanmasý iþlemi gerçekleþtirilebilir.
Þekil-1.3'deki “BOL” ve “KOL” sözcüklerinin YDSÇ'deki yerleþimi bu duruma örnek olarak
gösterilebilir.
1.2.3.2 Yönlü Döngüsüz Sözcük Çizgesi Oluþturma
YDSÇ oluþturmak için ilk olarak aðaç oluþturulur. Aðaçtaki yapraklardan biri sözcük sonunu
temsil eder. Aðaçta birbirinin ayný olan çok sayýda yaprak bulunabilir. Þekil-1.4'te “BAL” ve
“SAL” sözcüklerinin aðaçtaki diziliþi görülmektedir.
B
SD
ÇD
O
ÇD
L(SS)
ÇD
K
Þekil-1.3: “BOL” ve “KOL”sözcükleri için YDSÇ
Þekil-1.4'te görülen aðaca balta sözcüðü eklenmek istendiðinde, L harfine gelene kadar aðaç
üzerinde arama yapýlýr. L harfine gelindiðinde bu düðümün çocuðu olmadýðý görülür ve T
düðümü son düðüm olan L düðümüne, A düðümü de son eklenen T düðümüne eklenir. Sonuçta
oluþan durum Þeki-5'teki gibidir.
Þekil-1.5'ten de görüleceði gibi aðaca bu þekilde sözcük eklemek sözcüklerin baþlangýçlarý için
ortak düðümler olmasýný saðlarken sözcük sonlarý her sözcük için farklý olmaktadýr. Çizgenin
boyutunu daha sý"nýrlý hâle getirmek için sözcük sonlarýnýn ortak olan kýsýmlarý bulunmalý ve
birleþtirilmelidir. Bunu gerçekleþtirmek için yaprak düðümden yola çýkýlýr. Ýki yaprak düðüm
ayný ise bunlar birleþtirilebilir. Ýki yaprak düðümün ayný olmasý için bu düðümlerin ayný harfi
B
ÇD
A
ÇD
L(SS)
ÇD
A
ÇD
L(SS)
SD
S
Þekil-1.4: “BAL” ve “SAL”sözcükleri için aðaç oluþumu
B
ÇD
A
ÇD
L(SS)
ÇD
A
ÇD
L(SS)
ÇD
T
ÇD
A(SS)
SD
S
Þekil-1.5: “BALTA” sözcüðünün aðaca yerleþtirilmesi
taþýmalarý tek baþýna yeterli deðildir; bir sonraki düðümleri veya çocuk düðümleri varsa
bunlarýn da ayný olmasý gereklidir. Þekil-1.6'da görülen çizge bu duruma örnek olarak
verilebilir.
1.2.3.3 Aðaç Üzerinde Kök Bulma
Aðaç üzerinde bir kökü bulmak için aðacýn baþýndan itibaren kökü oluþturan harfleri temsil eden
düðümleri izlemek gerekir. Þekil-1.7'de görülen aðaç üzerinde örneðin "balo" kökü bulunmak
B
ÇD
E
SD
ÇD
ÇD
ÇD
N
ÇD
Ý
ÇD
Z(SS)
D
G
Þekil-1.6: Sözcük sonlarýnýn ortak düðümlere baðlanmasý
istendiðinde ilk olarak "B" baþlangýç düðümünden "A" düðümüne, "A" düðümünden "L"
düðümüne ve oradan da "O" düðümüne geçmek gerekir.
B
A
C
A
I
K
L
O
T
E
A
N
Þekil-1.7 Aðaç üzerinde kök bulma
Aðaç üzerinde kök bulma iþlemi bir veri yapýsý olan aðacýn düðümlerinin üzerinde gezilmesi ve
aranan düðümle üzerinde bulunulan düðümün karþýlaþtýrýlmasý þeklinde gerçekleþtirilmektedir.
Dolayýsýyla kök bulma algoritmasýnýn özü aðaca yerleþtirilmiþ olan kökler üzerinde yapýlan
aðaç iþlemleridir. Girilen sözcüðün ilk harfinden baþlanarak aðaç üzerinde ilerlenilir.
Ýlerlenecek yer kalmayana veya sözcük bitene kadar aðaç üzerinde ilerlemeye devam edilir.
Aðaç üzerinde ilerlerken karþýlaþýlan tüm kökler aday olarak toplanýr. Örneðin; "BALON"
sözcüðü için aðaç üzerinde yürürken karþýlaþýlan "BAL", "BALE" ve "BALON" köklerinin üçü
de aday kökler olarak bulunur.
Ses deðiþimleri (ünsüz yumuþamasý, ses düþmesi vb.) nedeniyle deðiþime uðrayan sözcüklerin
aðaca eklenmesi sýrasýnda hem sözcüðün özgün hâli hem de deðiþime uðrayan hâli aðaca
eklendiði için kök bulma iþlemi sýrasýnda herhangi bir sorunla karþýlaþýlmaz. Örneðin, "þarap"
sözcüðü hem "þarap" hem de "þarab" olarak aðaca eklenmektedir; ancak bu iki düðümün de
iþaret ettiði kök aynýdýr ve bu kök "þarap" köküdür. Böylece ünsüz yumuþamasýna uðramýþ
olarak aranan sözcüðün kökünün de aðaçta bulunmasý saðlanmýþ olur.
1.2.4 Sözcüðün Biçim Bilimsel Çözümlenmesi
Türkçenin ek zengini olduðu bir gerçektir. Bu nedenle sözcüklerin biçim bilimsel
çözümlenmesi önemli bir çalýþma olarak deðerlendirilir.
1.2.4.1 Ekler
Ekler ve eklerin sözcük kök veya gövdelerine ulanýþlarýnda oluþturduklarý desenlerin
incelenmesi biçim bilimsel çözümleme açýsýndan oldukça önemlidir. Eklerin
sýnýflandýrýlmasýnda en önemli aþama yapým ve çekim eklerinin hangi sýralarla birbirlerini
izlediklerini belirleyebilmektir. Türkçe dil bilgisi kurallarýna göre çekim ekleri yapým
eklerinden sonra gelir. Dolayýsýyla bir kez çekim eki alan sözcük, daha sonra sadece çekim eki
alabilir. Çekim eklerinin birbirlerini hangi sýrayla takip edecekleri de kurallara baðlýdýr. Yapým
ekleri için bu þekilde oluþturulmuþ kesin kurallarýn varlýðýndan bahsetmek olanaklý deðildir.
Tüm Türk dillerinde ekler dilin en önemli bileþenini oluþtururlar ve bu nedenle eklerin yapýsýnýn
anlaþýlmasý biçim bilimsel inceleme açýsýndan oldukça önemlidir. Türkçede eklerin
isimlendirilmesinde ve gösterilmesinde kullanýlan benimsenmiþ bir yöntem mevcut olmamakla
beraber bu bölümde verilecek olan örnekler sýkça kullanýlan yöntemler temel alýnarak
verilmiþtir. Örneðin çoðul eki olan “-lar” ekinin gösterilimi “-lAr” þeklindedir. Bu gösterimde
küçük harfle yazýlmýþ olan “l” ve “r” harfleri eke doðrudan eklenileceðini gösterirken, büyük
harfle yazýlmýþ olan “A” harfi ekleneceði sözcüðün son ünlüsüne göre deðiþebileceðini ifade
etmektedir. Ekin ulanacaðý sözcüðün son ünlüsü kalýn ünlü ise bu harf “a”, ince ünlü ise “e”
hâlini alacaktýr.
Türkçede ekler için özel bazý durumlar söz konusudur. Örneðin Türkçede þimdiki zaman eki
olan “-(I)yor” eki ulandýðý eylemin son harfi ünlü harf ise bu harfin düþmesine neden olur.
Örneðin; “ara-“ eylem köküne þimdiki zaman eki ulandýðýnda oluþan eylem “ara-yor” þeklinde
deðil, “ar-ýyor” þeklindedir. Benzer þekilde eylemleri edilgen yapan ekler de ulanacaklarý
eylemlerin son ünsüzlerine baðlý olarak deðiþebilmektedirler. Örneðin; “gel-“ eylemine
edilgenlik eki ulandýðýnda eylem “gel-in-mek” hâlini alýrken “kes-“ eylemi “kes-il-mek” hâline
dönüþmektedir.
Kullanýlan ek dosyasý içinde ekler kümelere ayrýlarak sýnýflandýrýlmýþtýr. Örneðin, ismin hâl
ekleri için bir küme oluþturulmuþ ve bu kümeye dâhil olan tüm ekler (-i, -e, -de, -den) bu
kümenin içine konulmuþtur. Ayrýca çekim eklerinin birbirlerini hangi sýrayla izleyebilecekleri
ile ilgili kurallar göz önüne alýnarak ekler arasýnda iliþkilendirme yapýlmýþtýr. Bir ekten sonra
gelebilecek tüm olasý ekler, ilgili ekle iliþkilendirilmiþ ve bu sayede eklerin ayrýþtýrýlmasý daha
kolay çözümlenebilir hâle getirilmiþtir. Bunun yaný sýra yukarýda da belirtildiði gibi bazý eklerin
özel durumlara sahip olmasý nedeniyle bu eklerle ilgili özel durumlarý belirten etiketler
verilmiþtir.
1.2.4.2 Ayrýþtýrma Algoritmasý
Biçim bilimsel çözümlemede kullanýlan ayrýþtýrma algoritmasý girilen bir sözcüðe ait olasý tüm
kök ve ek çözümlerini bulmak için kullanýlýr. Girilen bir sözcüðün biçim bilimsel
çözümlemesinin yapýlmasýnda ilk adým, girilen sözcüðü noktalama iþaretleri, kýsa çizgi iþareti
gibi harf dýþýndaki elemanlardan ayrýþtýrmaktýr. Bu sayede geriye sadece kök ve ekler kalýr. Harf
dýþýndaki elemanlarýn ayýklanmasýndan sonra yapýlan iþlem, olasý tüm köklerin kök aðacý
üzerinde gezilerek bulunmasýdýr. Kök bulma algoritmasý Bölüm-2.3'te anlatýlmýþtýr.
Olasý tüm kökler bulunduktan sonra eklerin bulunmasý iþlemi baþlar. Bunun için kök sözcüðün
almýþ olduðu ilk eke bakýlýr. Bölüm-2.4.1'de belirtildiði gibi ilk ek kendinden sonra gelebilecek
eklerle ilgili bilgi verdiði için sýrayla bu ekler ele alýnýr ve ekin kök sözcük üzerinde özel bir
durum oluþturup oluþturmadýðýna bakýlýr. Örneðin ek ünlü ile baþlýyorsa ve kök sözcük ünlü
düþmesi özel durumuna sahipse bu durumda ek, kök sözcük üzerinde özel bir durum oluþturur.
Eklerin kök sözcük üzerinde özel durumlarýn oluþmasýna neden olmasý durumda, kök sözcük
özel duruma uygun þekle dönüþtürülür. Kök sözcük uygun þekle dönüþtürüldükten sonra sýra
ekin köke ulanmasýna gelir. Burada ekin özelliðine göre köke ulama iþlemi gerçekleþtirilir.
Örneðin; kök sözcük "elma" ise ve ulanacak ek “-lAr” eki ise ilk olarak sözcüðe “l” harfi
eklenir. Daha sonra sözcüðün son ünlüsünün kalýn mý ince mi olduðuna bakýlýr. "Elma" kök
sözcüðü için son ünlü kalýn olduðundan ulanacak ek kalýn olacak þekilde biçimlendirilir. Bu
durumda kök sözcük “elmala” hâlini alýr. Son olarak da “r” harfi sözcüðe ulanýr ve böylece
“-lAr” ekinin sözcüðe ulanmasý iþlemi bitmiþ olur. Ýlk ek sözcüðe ulandýktan sonra girilen
sözcük ile oluþturulan sözcüðün ayný olup olmadýðý denetlenir. Sözcükler ayný ise ulanacak ek
kalmamýþ demektir. Ayný deðilse girilen sözcük daha fazla sayýda ek içeriyor demektir; bu
durumda oluþturulan sözcük bir yýðýnda saklanýr ve ek ulama iþlemine devam edilir. Bir sonraki
eki bulmak için önceki ekle iliþkilendirilmiþ olan eklere bakýlýr. Bu noktada çekim eklerinin
hangi sýrayla birbirlerini takip edebileceði kurallarýnýn var olmasý oldukça iþe yaramaktadýr. Bir
önceki örnekten devam edilecek olursa girilen sözcük “elmalarým” sözcüðü olmak üzere ilk ek
“-lAr” eki sözcüðe eklendikten sonra geride kalan “-ým” eki için “-lAr” ekinden sonra
gelebilecek ekler arasýnda arama yapýlýr ve bu ekin birinci tekil þahýs iyelik eki olduðu arama
sonucunda ortaya çýkar. Bu ek de sözcüðe ulandýktan sonra giriþ sözcüðü ile oluþturulan
sözcüðün ayný olup olmadýðýna bakýlýr ve sözcükler ayný olacaðý için çözümleme iþlemi
gerçekleþtirilmiþ olur. Þekil-1.8 ayrýþtýrma algoritmasýna iliþkin akýþ diyagramýný
göstermektedir.
1.2.5 Türkçe Metin Denetleyici
Sözcük için Türkçe denetimi yapýlmasýnda amaç, girilen sözcüðün Türkçe bir sözcük olup
olmadýðýný denetlemektir. Bunu gerçekleþtirebilmek için öncelikle sözcüðün hecelenebilir olup
olmadýðýnýn denetlenmesi gerekir. Eðer girilen sözcük hecelenemiyorsa Türkçe olmadýðý
kararýna varýlýr.
Hecelenebilen sözcüklerin, Türkçe sözcüklerin saðlamasý gereken ve aþaðýda sýralanan kurallarý
saðlayýp saðlamadýðýna bakýlýr.
• Sözcük baþý ünsüz denetimi
• Sözcük sonu ünsüz denetimi
• Sözcük içi ünsüz denetimi
• Ünlü uyumlarý
• Ünsüz uyumu
• Ses bilimi açýsýndan sözcük denetimi
• Ünsüz yumuþamasý denetimi
• Ünlü düþmesi denetimi
Baþla
Sözcüðü harf dýþýndaki
elemanlardan arýndýr
Olasý tüm
kökleri bul
Ýlk aday kökü al
Ýlk eki bul
Sýradaki eki bul
E
Ek kök
üzerinde özel
durum oluþturur
mu ?
H
Kökü özel durumuna
göre biçimlendir
Eki kuralýna göre
sözcüðe ekle
E
Girilen
sözcükteki ek
ulanan ekle ayný
mý ?
H
Sözcüðün oluþturulan
halini sakla
E
Girilen
sözcük ilk
oluþturulan ile ayný
mý ?
H
Sözcük çözümleme
için ilk aday oluþturuldu
Sýradaki kök
adayýný al
Þekil-1.8: Ayrýþtýrma algoritmasýnýn akýþ diyagramý
Bu kurallardan en az bir tanesini saðlamayan sözcük Türkçe bir sözcük deðildir veya dilimize
yabancý dillerden girmiþ bir sözcüktür. Þekil-1.9 Türkçe sözcük denetimine iliþkin genel akýþ
Baþla
Sözcükteki hece
sayýsýný bul
H
Hece
sayýsý sýfýr mý?
E
Sözcük baþý ünsüz harf
denetimini uygula
Sözcük
denetimi baþarýlý mý ?
H
E
Sözcük sonu ünsüz harf
denetimini uygula
Sözcük
H
E
Sözcük kökünü bul
Sözcük içi ünsüz harf
denetimini uygula
Sözcük
H
E
Sözcük
ünlü uyumuna uygun mu?
H
E
Sözcük
ünsüz uyumuna uygun mu?
H
Sözcük Türkçe deðilidir
ya da yanlýþ yazýlmýþtýr
E
Sözcük Türkçedir
Sözcük yabancý ise
Türkçe karþýlýk sözcük öner
SON
Þekil 1.9 Türkçe denetimi akýþ diyagramý
1.2.5.1 Sözcük Baþý Ünsüz Denetimi
Türkçe bir sözcüðün baþýnda birden fazla ünsüz harf bulunamaz. Dolayýsýyla ilk olarak yapýlan
denetim sözcük baþýndaki ünsüz harf sayýsýný bulma amacýna yöneliktir. Bu aþamada yapýlan iþ
sözcük baþýndaki ünsüz sayýsýnýn birden fazla olup olmadýðýnýn bulunmasýdýr. Eðer bu sayý
birden fazla ise sözcüðün Türkçe olmadýðýna karar verilir. Örneðin "strateji", "tren" gibi
sözcükler dilimize yabancý dillerden girmiþ olan sözcüklerdir ve yapýlan bu denetim ile bu
sözcüklerin Türkçe olmadýðý kolay bir þekilde ortaya çýkarýlýr. Aslýnda bu yabancý sözcükleri
seslendirirken iki ünsüz arasýna bir ünlü koyduðumuz da bir gerçektir. Örneðin "tren"
sözcüðünü "tiren" biçiminde seslendiririz. Ancak her nedense yabancý dildeki biçiminde
yazmaya devam ederiz.
Þekil-1.10 sözcük baþýndaki ünsüz harf sayýsýnýn denetimine iliþkin akýþ diyagramýný
göstermektedir.
Baþla
Ýlk harfi oku
E
H
Ünlü harf mi ?
Ýkinci harfi oku
E
Ünlü harf mi?
H
Sözcük Türkçe
Deðilidir
SON
Þekil-1.10: Sözcük baþý ünsüz harf sayýsý denetimi için akýþ diyagramý
1.2.5.2 Sözcük Sonu Ünsüz Denetimi
Sözcük sonundaki ünsüz harflerle ilgili Türkçede bulunan kurallar þu þekilde özetlenebilir:
• Türkçe sözcüklerin sonunda b, c, d, g harfleri bulunamaz.
• Türkçe bir sözcüðün sonunda ikiden fazla sayýda ünsüz harf bulunamaz.
• Türkçe bir sözcük sonunda çift ünsüz bulunabilir. Bu durum için kurallar þu þekildedir:
• Son harfi “ç, k, p, t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf
“l” harfi olabilir. Örneðin, ölç, "cýlk" gibi.
• Son harfi “ç, k, t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “n”
harfi olabilir. Örneðin; "kýskanç", "iðrenç" gibi.
• Son harfi “ç, k, p, s, t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “r”
olabilir. Örneðin; "bark", "Türk" gibi.
• Son harfi “t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “s”
olabilir. Örneðin; "üst" gibi.
• Son harfi “t” olan sözcüklerde bir önceki harf ünsüz harf ise bu harf “þ” olabilir.
Örneðin; "hiþt" gibi.
Yukarýda sýralanan kurallardan yola çýkýlarak sözcük sonundaki ünsüz harf denetlenir. Eðer bu
harf b, c, d, g harflerinden biri ise sözcüðün Türkçe olmadýðýna karar verilir. Eðer sözcük bu
kuralý saðlýyorsa bu durumda sözcük sonundaki ünsüz harf sayýsýna bakýlýr. Sözcük sonundaki
ünsüz harf sayýsý ikiden büyük ise sözcüðün Türkçe olmadýðýna karar verilir. Sözcük sonundaki
ünsüz harf sayýsý iki ise sondan bir önceki harfe bakýlýr. Bu harf “l” ise ve son harf “ç, k, p, t”
harflerinden biri deðilse sözcük Türkçe deðildir. Benzer þekilde sondan bir önceki harf “n” ise
ve son harf “ç, k, t” harflerinden biri deðilse sözcük Türkçe deðildir. Sondan bir önceki harf “r”
ise ve son harf “ç, k, p, t, s” harflerinden biri deðilse sözcük Türkçe deðildir. Sondan bir önceki
harf “s” veya “þ” ise ve son harf “t” deðilse sözcük Türkçe deðildir. Þekil-1.11 sözcük
sonundaki ünsüz harf sayýsýnýn denetimine iliþkin akýþ diyagramýný göstermektedir.
1.2.5.3 Sözcük Ýçi Ünsüz Denetimi
Türkçe bir sözcüðün içinde üç veya daha fazla sayýda ünsüz harf yan yana bulunamaz. Bu
kuraldan yola çýkýlarak sözcük içinde yan yana bulunan ünsüz harf sayýsýnýn denetimi yapýlýr.
Bunun için girilen sözcük ilk harfinden son harfine kadar taranýr ve sözcük içindeki yan yana
bulunan ünsüz harf sayýsý hesaplanýr. Eðer bu sayý üçe eþit veya üçten büyük ise sözcük Türkçe
deðildir. Þekil-1.12 sözcük içinde yan yana gelebilecek ünsüz sayýsýnýn denetimine iliþkin akýþ
Baþla
Son harfi oku
E
Ünlü harf mi ?
H
E
H
Ünlü harf mi?
Türkçe sözcüklerin
sonunda b, c, d, g
harfleri bulunamaz
Önceki harfi oku
E
H
Ünlü harf mi ?
H
SON
E
H
H
H
Önceki harf
“s ya da þ” mi?
Önceki harf “ r ” mi?
Önceki harf “l” mi?
H
Önceki harf “ n ” mi?
Önceki harf
“ç, k, t ”
den biri mi?
E
Son harf
“ ç, k, p, s, t “
den biri mi?
E
E
Son harf
“ç, k, p, t”
den biri mi ?
E
E
H
E
H
H
Son harf
“ t “ mi?
E
Sözcük sonundaki
çift ünsüz kuralýna
uygun deðil
SON
Þekil-1.11: Sözcük sonu ünsüz harf sayýsý denetimi için akýþ diyagramý
1.2.5.4 Ünlü Uyumlarý
Türkçe kelimelerde uyulmasý gereken en önemli özelliklerden biri de ünlü uyumu kuralýdýr.
Öncelikle sözcük heceleme algoritmasý ile hecelerine ayrýlýr. Bundan amaç sözcük içindeki ünlü
harf sayýsýný bulmaktýr. Türkçenin hece kalýplarýna göre Türkçe bir hecede mutlaka bir ünlü harf
bulunmak zorundadýr. Dolayýsýyla Türkçe bir sözcükteki hece sayýsý ayný zamanda sözcük
içindeki ünlü harf sayýsýný da verir.
Ünlü uyumu algoritmasýnda izlenen yol þu þekildedir: Hece dizinlerinden yararlanýlarak sözcük
içindeki ünlü harflerin dizinlerine eriþilir ve ilk ünlü harf okunur. Ýlk harf kalýn ünlü ise sonraki
hecelerdeki tüm ünlü harflerin de kalýn ünlü olup olmadýðý denetlenir. Benzer þekilde ilk harf
Baþla
Sözcükteki ünsüz
harf sayýsýný bul
E
Ünsüz harf
sayýsý >2 mi ?
H
Sözcükteki ünsüz harflerin
sýra numarasýný dizide tut
L= dizi sonu
E
Dizi(i-1)=Dizi(i-2)+1 mi ?
Dizi(i)=Dizi(i-1)+1 mi ?
H
H
L yi bir azalt
E
Sözcük içindeki ünsüz
sayýsý ve ünsüzlerin
diziliþi uygun deðildir
E
L = 0 mý ?
H
Sözcük içindeki ünsüz
sayýsý ve ünsüzlerin
diziliþi uygundur
SON
Þekil-1.12: Sözcük içindeki ünsüz harf sayýsý denetimi için akýþ diyagramý
ince ünlü ise sonraki hecelerdeki tüm ünlü harflerin ince ünlü olup olmadýðý denetlenir. Eðer
sözcük bu kurala uymuyorsa Türkçe deðildir veya dilimize yabancý dillerden girmiþtir. Sözcük
bu kurallara uygunsa sözcüðün küçük ünlü uyumuna uyup uymadýðý denetlenir. Sözcüðün ilk
ünlü harfi düz ünlülerden biri ise sonraki hecelerdeki ünlü harfler de düz ünlü olmalýdýr.
Sözcüðün ilk ünlü harfi yuvarlak ünlülerden biri ise sonraki hecelerdeki ünlü harfler ya dar
yuvarlak ya da düz geniþ olmalýdýr. Bu kurala uymayan sözcükler Türkçe deðildir veya dilimize
yabancý dillerden girmiþlerdir.
Þekil-1.13 büyük ünlü uyumu için, Þekil-1.14 ise küçük ünlü uyumu için akýþ diyagramýný
göstermektedir.
Baþla
Sözcükteki hece
sayýsýný bul
E
Hece
sayýsý =1 mi ?
H
alrýfýs ýralçayaS
SON
Sözcükteki ilk harfi oku
H
H
Sözcük sonuna
gelindi mi ?
E
E
Okunan harf
ünlü harf mi ?
H
Kalýn ünlü sayacýný
bir artýr
E
Ýnce ünlü mü ?
Kalýn ünlü
sayacý = 0 mý?
E
Ýnce ünlü sayacýný
bir artýr
Ýnce ünlü
sayacý = 0 mý?
H
E
E
Hata
H
Sayaç deðeri
hece sayýsýndan farklý mý?
H
Sözcük büyük ünlü
uyumuna uygundur
Sözcük büyük ünlü
uyumuna uygun deðildir
Sýradaki harfi oku
SON
Þekil-1.13 Büyük ünlü uyumu akýþ diyagramý
1.2.5.5 Ünsüz Uyumu
Türkçe sözcüklerde ünsüzler açýsýndan da bir uyum söz konusudur. Bu kurala uygun olarak
geliþtirilen algoritma sözcük içindeki ünsüz harfler sýrasýyla taranmakta ve ele alýnan ünsüz
harfin bir sonraki ünsüz harf ile uyumlu olup olmadýðýnýn denetimi yapýlmaktadýr. Buna göre ele
alýnan ünsüz harf sert ünsüzlerden biriyse ve bir sonraki ünsüz harf de sert ünsüz harflerden veya
sert karþýlýðý bulunmayan yumuþak ünsüz harflerden biri deðilse sözcük Türkçe deðildir veya
yabancý kökenli bir sözcüktür. Ele alýnan ünsüz harf sert karþýlýðý bulunan yumuþak ünsüzlerden
biri ise ve bir sonraki ünsüz harf sert ünsüz ise sözcük Türkçe deðildir veya yabancý dillerden
dilimize girmiþ bir sözcüktür. Þekil-1.15 ünsüz uyumu için akýþ diyagramýný göstermektedir.
Baþla
Sözcüðü hecelere
ayýr
E
Hece
sayýsý =1 mi ?
H
Ýlk hecedeki ünlü
harfi oku
SON
E
Düz ünlü mü ?
H
Sonraki hecedeki
ünlü harfi oku
E
H
Tüm heceler
okundu mu?
E
Sözcük küçük ünlü
uyumuna uymaktadýr
Düz ünlü mü?
Ýlk hecedeki ünlü
harfi oku
E
H
Geniþ ünlü mü ?
H
Düz ünlü mü ?
E
E
E
H
Dar ünlü mü ?
H
Tüm heceler
okundu mu?
H
Sözcük küçük ünlü
uyumuna uymuyor
SON
Þekil-1.14: Küçük ünlü uyumu akýþ diyagramý
1.2.5.6 Ses Bilimi Açýsýndan Sözcük Denetimi
Ses bililimi açýsýndan Türkçe metin denetimi için yapýlmasý gereken denetimlerin dýþýnda kalan
denetimler sözcük denetleme bölümünde ele alýnmaktadýr. Bunlar ünsüz yumuþamasý ve ünlü
düþmesi durumlarý için yapýlan denetimlerden oluþur.
Baþla
Sözcükteki ilk
ünsüz harfi oku
E
Sert ünsüz mü ?
Sýradaki ünsüz
harfi oku
E
Sert ünsüz mü ?
H
Tüm ünsüz harfler
okundu mu ?
Sert karþýlýðý
bulunan yumuþak
ünsüz mü?
E
Sonraki ünsüz
harfi oku
H
E
H
H
Sert karþýlýðý
bulnmayan yumuþak
ünsüz mü?
H
E
H
Sert karþýlýðý
bulnmayan yumuþak
ünsüz mü?
Sert karþýlýðý
bulunan yumuþak
ünsüz mü?
E
E
H
Tüm ünsüz harfler
okundu mu ?
H
E
Sözcük ünsüz
uyumuna uymaktadýr
Sözcük ünsüz
uyumuna uymuyor
SON
Þekil-1.15: Ünsüz uyumu akýþ diyagramý
1.2.5.6.1 Ünsüz Yumuþamasý Denetimi
Bu bölümde yapýlan denetim ünlü ile baþlayan bir ek aldýðýnda ünsüz yumuþamasýna uðramasý
gereken bir sözcüðün bu deðiþime uðrayýp uðramadýðýnýn denetlenmesi þeklindedir. Daha önce
belirtildiði gibi sözlük içerisinde sözcükler etiketlendiði için bu denetimin yapýlmasýnda
sözlükte bulunan etiketlerden yararlanýlmaktadýr.
• Ünsüz yumuþamasý denetimi için geliþtirilen algoritma þu þekilde çalýþmaktadýr:
• Girilen sözcüðün ilk olarak kökü bulunur ve bulunan kök sözlükte aranýr.
• Sözlükte bu kök sözcüðe ait etiketlenmiþ özel bir durum olup olmadýðýnýn denetimi
yapýlýr.
• Eðer sözcük için özel durum olarak yumuþama etiketi bulunmuyorsa bu sözcük için
ünsüz yumuþamasý durumu söz konusu deðildir. Aksi durumda ise sözcük ünsüz
yumuþamasýna uðrayan özelliðe sahip olduðundan dolayý sözcüðün almýþ olduðu eke
bakýlýr.
• Sözcük birden fazla ek almýþ olabilir ancak ünsüz yumuþamasý için bakýlmasý gereken
ek sözcüðün almýþ olduðu ilk ektir. Ýlk ek ünlü harf ile baþlayan bir ek deðilse
denetlenmesi gereken durum oluþmamýþ demektir. Ancak ilk ek ünlü harf ile baþlayan
bir ek ise bu durumda sözcüðün ünsüz yumuþamasý kurallarýna uygun bir þekilde
yumuþamaya uðrayýp uðramadýðýnýn denetimi yapýlýr.
• Bu denetim sonucuna göre eðer yumuþama Türkçe ses bilgisi kurallarýna uygun olarak
gerçekleþtirilmiþse hata durumu oluþmamýþtýr.
• Hata durumunun oluþtuðu durumda ise Türkçe ses bilgisi kurallarýna uygun olarak
ünsüz yumuþamasý iþlemi gerçekleþtirilir ve böylece yanlýþ yazýlmýþ olan sözcük
düzeltilmiþ olur.
Ünsüz yumuþamasý algoritmasýnýn iþleyiþi þu örnekle daha iyi açýklanabilir:
• Girilen sözcük “kitapýmdakiler” sözcüðü olmak üzere yukarýda anlatýlmýþ olan
iþlemler adým adým yürütülür. Öncelikle sözcüðün kökü olan “kitap” sözcüðü bulunur.
Bu kök sözlükte aranýr ve yumuþama etiketine sahip olduðu bulunur.
• Yumuþama özel durumuna sahip olduðundan dolayý sözcüðe eklenen ilk ekin ünlü
harf ile baþlayýp baþlamadýðý denetlenir. Bu ek (-ým) ünlü harf ile baþladýðýndan dolayý
sözcük sonundaki "p" harfinin Türkçe ses bilgisi kurallarý gereðince ünsüz
yumuþamasýna uðramasý gerekmektedir. Ancak girilen sözcüðün bu kurala uymadýðý
için sözcüðün yanlýþ yazýlmýþ olduðuna karar verilir ve sözcük sonundaki “p” harfinin
yerine “b” harfi getirilerek sözcüðün ünsüz yumuþamasý kuralýna uygun olarak doðru
yazýlmasý saðlanýr.
Þekil-1.16 ünsüz yumuþamasý denetimi için akýþ diyagramýný göstermektedir.
1.2.5.6.2 Ünlü Düþmesi Denetimi
Bu bölümde yapýlan denetim ünlü ile baþlayan bir ek aldýðýnda ünlü düþmesine uðramasý
gereken bir sözcüðün bu deðiþime uðrayýp uðramadýðýnýn denetlenmesi þeklindedir.
Türkçede ünlü düþmesi iki heceli sözcüklerde görülen bir ses deðiþimi olduðu için bu denetim
için gerçeklenen algoritmada ilk olarak sözcük içindeki hece sayýsý bulunur. Hece sayýsý iki ise
ilk ve ikinci hecelerin açýk veya kapalý hece olup olmadýðýnýn denetimi yapýlýr. Eðer ilk hece
açýk, ikince hece kapalý hece ise sözcükte ses düþmesi durumu olabilir. Türkçede ünlü düþmesi
ikinci hecesinde dar ünlü bulunan sözcüklerde olduðu için bundan sonraki aþamada ikinci
hecedeki ünlü harfin dar ünlü olup olmadýðýnýn denetimi yapýlýr. Eðer ikinci hecedeki ünlü harf
dar ünlü ise sözcük kökü alýnýr ve sözlükte ünlü düþmesi etiketine sahip olup olmadýðýnýn
Baþla
Kökü sözlükte ara
H
Kök sözlükte
var mý ?
Sözcük öner
E
E
E
Özel durum
yumuþama mý?
Sözlüðün özel
durumu var mý?
H
H
Sözcüðün aldýðý
ilk eki bul
E
H
Sözcük yumuþamaya
uðramýþ mý?
Ek ünlü harf
ile mi baþlýyor ?
H
E
Yumuþama kuralýna
göre sözcüðün yazýmýný
düzelt
SON
Þekil-1.16: ünsüz yumuþamasý algoritmasý akýþ diyagramý
denetimi yapýlýr. Bu denetimin yapýlmasýndaki amaç sözcüðün ünlü düþmesine kesin olarak
uðrayýp uðramayacaðýný belirleyebilmektir.
Bundan önceki adýmlarda yapýlan denetimler sözcüðün çok büyük bir oranla ünlü düþmesine
uðrayabileceðini gösterir ancak aykýrý durumlar söz konusu olduðundan dolayý kesin olarak
söyleyemez. Örneðin, “beniz” sözcüðü iki heceli ve ikinci hecesinde dar ünlü bulunduran bir
sözcüktür ve ünlü ile baþlayan bir ek aldýðýnda ikinci hecedeki ünlü harf düþer. Oysaki “deniz”
sözcüðünde durum farklýdýr. Bu sözcük de iki heceli olmasýna ve ikinci hecesinde dar ünlü
barýndýrmasýna raðmen ünlü düþmesi kuralýndan etkilenmez. Dolayýsýyla bunun gibi aykýrý
durumlarda oluþabilecek sorunlarý ortadan kaldýrmak için sözcük kökünün sözlükteki etiketine
bakýlmasý yoluna baþvurulur. Sözlükte aranan kök sözcüðe ait ünlü düþmesi etiketi varsa
sözcüðün bu kurala uygun olarak yazýlýp yazýlmadýðý denetlenir. Kurala uygun olarak
yazýlmayan sözcüklerin ikinci hecesindeki ünlü harf silinir ve böylece yanlýþ yazýlmýþ olan
sözcük Türkçe ünlü düþmesi kuralýna uygun olarak düzeltilmiþ olur. Þekil-1.17 ünlü düþmesi
denetimine iliþkin akýþ diyagramýný göstermektedir.
Baþla
Kök sözcükteki hece
sayýsýný bul
H
E
E
E
E
Özel durum
ses düþmesi mi?
Kök sözcükte
özel durum var mý?
Ýkinci hecedeki
ünlü harf dar ünlü mü?
Ýkinci hece
kapalý hece mi ?
Ýlk hece
açýk hece mi?
Hece sayýsý = 2 mi?
E
H
H
H
H
H
E
Sözcüðün aldýðý
ilk eki bul
E
H
Sözcükte ünlü
düþmesi olmuþ mu?
Ek ünli harf ile
mi baþlýyor ?
H
E
Sözcüðü ünlü
düþmesi kuralýna
göre düzenle
SON
Þekil-1.-17: Ünlü düþmesi algoritmasý akýþ diyagramý
1.2.6 Sözcük Önerme
Bu çalýþmada sözcük önerme iþlemi iki farklý durum için yapýlmaktadýr:
• Sözlükte bulunan sözcükler için önerme
• Sözlükte bulunamayan sözcükler için önerme
Þekil-1.18 sözcük önerme durumunÞekila iliþkin genel akýþ diyagramýný göstermektedir.
Baþla
Sözcüðe Türkçe
denetimi uygula
H
Sözcük denetimden
geçti mi?
E
Türkçe karþýlýk
dosyasýnda sözcüðü ara
E
E
Türkçe karþýlýðýný
öner
Sözcüðün Türkçe
karþýlýðý var mý?
Sözcük bulundu mu?
H
Sözcük yanlýþ yazýlmýþ
ya da yabancý sözcük
H
Öneri yok
Sözcük için öneri
yap
Sözcüðü ünlü
düþmesi kuralýna
göre düzenle
SON
Þekil-1.18: Sözcük önerme algoritmasý akýþ diyagramý
1.2.6.1 Sözlükte Bulunan Sözcükler Ýçin Önerme
Sözlükte bulunan sözcükler için önerme iþlemi, Türkçeye yabancý dillerden girmiþ sözcükler
için gerçekleþtirilen bir iþlevdir. Bu sözcükler TDK güncel sözlüðü temel alýnarak oluþturulan
ve bu çalýþma kapsamýnda kullanýlan sözlük içerisinde bulunmaktadýr. Bu sözcüklerin Türkçede
karþýlýklarý bulunduðundan dolayý sözcük önerme iþlevi çalýþmaya katýlmýþtýr. Amaç dilimize
özellikle Batý dillerinden girmiþ olan sözcüklerin yerine var olan Türkçe karþýlýklarýnýn
kullanýlmasýný teþvik etmek ve bu sayede Türkçe karþýlýklarý bulunan yabancý sözcüklerin
özellikle gündelik hayatta kullanýmýnýn azaltýlarak dilimize yerleþmesinin önlenmesine
yardýmcý olmaktýr. Bu amaçla oluþturulan “Türkçe Karþýlýk” sözlüðünde Türkçe karþýlýðý
bulunan sözcüklerin yanýna “-” iþareti konulduktan sonra var olan Türkçe karþýlýklarý
yazýlmýþtýr. Örneðin "agresif" sözcüðünün sözlükteki görünümü “agresif – saldýrgan”
þeklindedir.
Önerme iþleminin yapýlabilmesi için öncelikle girilen sözcüðün Türkçe olmadýðýnýn veya
Türkçeye yabancý dillerden girmiþ bir sözcük olduðunun saptanmasý gerekir. Bunun için de
Bölüm-2.5'te anlatýlan Türkçe denetimi yapýlýr. Sözcük bu kapsamdaki denetimlerden en az
birine uymuyorsa sözcük kökü Türkçe Karþýlýk sözlüðünde aranýr ve bulunduðunda “-”
iþaretinin yanýnda yazan sözcük okunur ve kullanýcýya öneri olarak sunulur. Aranan sözcük
bulunamazsa öneri yapýlmaz.
Önerme iþleminde amaç, ilk paragrafta da belirtildiði gibi Türkçeye baþka dillerden girmiþ olup
Türkçe karþýlýðý bulunan sözcükler için öneri yapmaktýr. Örneðin; “analiz” sözcüðü dilimize
Fransýzcadan girmiþ bir sözcüktür ve bu sözcüðün yerine “çözümleme” sözcüðü önerilebilir.
Ancak “kitap” sözcüðü için durum farklýdýr. Dilimize Arapçadan girmiþ olan bu sözcük Türkçe
denetimi esnasýnda ünlü uyumuna uygun olmadýðýndan dolayý Türkçe Karþýlýk sözlüðünde
aranýr; fakat bu sözcük dilimize yerleþmiþ bir sözcük olduðundan ve bu sözcüðün yerini tutan
baþka bir sözcük dilimizde bulunmadýðýndan dolayý “kitap” sözcüðü için öneri yapýlmaz.
Dolayýsýyla bu örneklerden de anlaþýlacaðý üzere Türkçe denetimini geçemeyen her sözcük için
öneri yapýlmasý söz konusu deðildir; sadece Türkçe karþýlýðý bulunanlar için öneri yapýlýr.
1.2.6.2 Sözlükte Bulunmayan Sözcükler Ýçin Önerme
Sözlükte bulunmayan sözcükler için önerme iþlemi kullanýcýnýn sözcüðü yanlýþ yazmýþ olma
olasýlýðý göz önüne alýnarak gerçekleþtirilmiþtir. Ancak sözcük doðru yazýlmýþ ise ve sözlükte
yer almýyor ise bu sözcüðün Türkçe bir sözcük olmadýðý anlamýna gelir. Bunun için ilk olarak
girilen sözcüðün Türkçe harfler dýþýnda bir harf içerip içermediði denetlenir. Örneðin "x ve w"
karakterlerini içeren sözcükler Türkçe olamayacaðý için bu sözcükler için öneri yapýlmaz ve
uyarý verilir. Bu karakterleri içermeyen ve sözlükte bulunmayan sözcükler için öneri yapýlýr.
Sözcük önermede kullanýlan kök bulma algoritmasý Bölüm-2.3'te anlatýlan kök bulma
algoritmasýna oldukça benzerdir. Bu kök bulma algoritmasýnda aðaç üzerinde ilerlerken
karþýlaþýlan tüm aday kökler toplanýr. Giriþ sözcüðü ile aðaç üzerinde ilerlerken oluþturulan kök
sözcükler arasýnda harf uyuþmamasý durumu yoktur. Ancak sözcük önerme amacýyla kullanýlan
kök bulma algoritmasýnýn temeli, girilen sözcük ile aðaç üzerinde ilerlerken oluþturulan sözcük
arasýndaki farklý harf sayýsýnýn en az olmasýna dayanýr. Dolayýsýyla burada hata mesafesinin
(farklý harf sayýsýnýn) tanýmlanan deðerden az olmasý durumunu saðlayan tüm aday kökler aðaç
üzerinde ilerlerken toplanýr. Örneðin hata mesafesi bir olacak þekilde tanýmlanmýþ ise girilen
sözcük ile aðaç üzerinde ilerlerken oluþturulan sözcük arasýndaki farklý harf sayýsý bir olan tüm
sözcükler aday olarak alýnýr ve kullanýcýya önerilir. Bunu gerçeklemek amacýyla kullanýlan
algoritma “Damerau-Levenshtein Edit Distance” algoritmasýdýr.
Damerau-Levenshtein Edit Distance algoritmasý Damerau ve Levenshtein’in yazým hatalarý
üzerinde çalýþýrken oluþturduklarý bir algoritmadýr. Bu algoritmanýn yaygýn olarak kullanýldýðý
alanlar, yazým hatalarýnýn denetimi, konuþma tanýma ve DNA çözümlemesi alanlarýdýr.
Damerau-Levenshtein uzaklýðý algoritmasý bir katarý diðer bir katara çevirebilmek için gerekli
olan iþlem sayýsýný hesaplayan bir yöntemdir. Burada iþlemden kastedilen bir harf ekleme, bir
harf çýkarma, bir harfin yerine baþka bir harf koyma veya yan yana olan iki harfin sýrasýný
deðiþtirmektir. Bir katarý diðerine çevirebilmek için bu dört iþlem arasýnda çeþitli sayýda
çözümlemeler olabilir. En az sayýda iþlem yaparak oluþturulan çözüm iki sözcük arasýndaki
uzaklýðý verir [5]. Buradan hareketle x ve y karþýlaþtýrýlacak iki katar olmak üzere,
Damerau-Levenshtein uzaklýðý þu þekilde formülleþtirilebilir:
DLD(x,y) = min(i) (#E(i) + #Ç(i) + #S(i) + #T(i) )
Bu formülde #E(i) harf ekleme sayýsýný, #Ç(i) harf çýkarma sayýsýný, #S(i) bir harfin yerine
baþka bir harf koyma sayýsýný ve #T(i) yan yana olan iki harfin sýrasýný deðiþtirme sayýsýný
göstermektedir. Þekil-1.19'da Damerau-Levenshtein Edit Distance algoritmasýnýn sözde kod ile
gösterilimi görülmektedir. Burada "str1" ve "str2" aralarýndaki DLD uzaklýðý bulunacak
katarlarý ve "lenStr1" ve "lenStr2" bu katarlarýn uzunluklarýný göstermektedir.
DLD algoritmasýnýn kullanýmýný bir örnekle açýklamak yararlý olacaktýr.
str1 = “OT” ve str2 = “OST” olmak üzere bu iki katar arasýndaki DLD uzaklýðý;
DLD (str1, str2) = 1'dir. Çünkü str1 katarýnýn str2 katarýna dönüþmesi için gereken iþlem bir
karakter çýkarma iþlemidir.
str1 = “OST” ve str2 = “TO” olmak üzere bu iki katar arasýndaki DLD uzaklýðý;
Þekil-1.19: DLD algoritmasýnýn sözde kod ile gösterilimi
DLD (str1 , str2) = 3'tür. Çünkü str1 katarýndan str2 katarýný elde etmek için bir çýkarma iþlemi
yapýlmalýdýr ve buna ek olarak yan yana olan iki harfin sýrasý deðiþtirilmelidir. Örneklerden de
görüldüðü gibi katarlar arasýndaki farklýlýklar çoðaldýkça DLD uzaklýðý artar.
1.2.7 Baþarým
Bu çalýþmanýn baþarýmýný ölçmek amacýyla yapýlan sýnama iþleminde kaynak olarak E.
Adalý’nýn “Mikroiþlemciler Mikrobilgisayarlar” kitabý kullanýlmýþtýr. Sýnama verisi olarak bu
kaynaðýn kullanýlmasýnýn nedeni kaynaðýn Türkçe açýsýndan doðruluðuna güvenilebilir bir
kaynak olmasýdýr. Ayrýca kaynak Ýngilizce terimler de içermektedir ve bu da sýnama verisi
olarak yeðlenmesinin bir baþka nedenidir.
1.2.7.1 Sýnama Verisinin Hazýrlanmasý
Sistem, sýnama verisi olarak metin hâlindeki dosyalarý giriþ olarak kabul etmektedir. Bu nedenle
ilk olarak sýnama verisi olan kaynak "txt" uzantýlý dosya þekline dönüþtürülmüþtür. Bundan
sonraki aþama ise sýnama verisi üzerinde hatalar oluþturmaktýr. Oluþturulan hatalar;
• Kök sözcüðün yanlýþ yazýlmasý
• Eklerin kök sözcüðe yanlýþ ulanmasý
• Sözcüklerdeki Türkçe ses kurallarýna uygunluðun bozulmasý
þeklinde
oluþturulmuþtur.
Oluþturulan
hatalara
örnek
olarak,
“buyrukun”,
“gerekmektirmaktaydý”, “uclarýna”, “bilgsayarlarda” sözcükleri verilebilir.
Bu þekilde oluþturulan hatalarý içeren sýnama verisi sisteme girdi olarak verilmiþ ve sistemin
baþarýmý ölçülmüþtür.
1.2.7.2 Sýnama Sonuçlarý ve Sistemin Baþarýmý
Sýnama verisi üzerinde toplam 304 tane sözcükte hata oluþturulmuþtur. Oluþturulan hatalara
iliþkin sayýsal veriler Çizelge-1.1'de verilmiþtir. Tablodan da görüleceði gibi 304 sözcük
üzerinde oluþturulan hatalarýn 281 tanesi sistem tarafýndan algýlanmýþtýr. Sistem hatalý olduðunu
algýladýðý 281 sözcüðün 268 tanesi için öneri üretebilmiþtir. Sistemin üretmiþ olduðu 268
önerinin 253 tanesi gerçekte yazýlmak istenen sözcüðü de içermektedir.
Çizelge-1.1 Yazýlým Sýnama Sonuçlarý
Sözcük
sayýsý
Oluþturulan
hata sayýsý
algýlanabilen
hata sayýsý
Öneri üretilen hatalý
sözcük sayýsý
Üretilen önerilerin
gerçek sözcüðü içeren
miktarý
304
281
268
253
Çizelgeden elde edilen verilerle sistemin hatalý sözcükleri bulmada %92, hatalý sözcükler için
öneri yapmada %95, yapýlan önerilerin gerçek sözcüðü içermesinde %94 baþarýma sahip olduðu
söylenebilir.
Sistem bilerek oluþturulan 304 hatanýn dýþýnda 309 sözcüðü daha hatalý olarak yorumlamýþtýr.
Bu 309 sözcükten 166'sý gerçekten yanlýþ yazýlmýþ sözcüklerdir. 107 tanesi Ýngilizce sözcüktür.
Kalan 36 sözcüðün 20 tanesi TDK sözlüðünde yer almamaktadýr (bipolar, osilatör, diyot vb). 16
sözcük ise sistemin biçim bilimsel çözümleme hatalarýndan kaynaklanarak bulmuþ olduðu
hatalý sözcükleri kapsamaktadýr.
KAYNAKLAR
[1]
Adalý, E ve Büyükkuþçu, Ý., 2006. Heceleme Yöntemiyle Kök Sözcük Üretme, Türkiye Biliþim Vakfý Bilgisayar
Bilimleri ve Mühendisliði Dergisi, 02, 25-29.
[2]
Dembitz, S., Knezevich, P. and Sokele, M., 2004. Developing A Spell Checker As An Expert System, Journal
Of Computing And Information Technology, 04, 285-291.
[3]
Dembitz, S., Knezevich, P. and Sokele, M., 1998. Hascheck – the Croatian Academic Spelling Checker, In
th
Proceedings of 18 Annual International Conference of The British Computer Society Specialist Group on Expert System,
Cambridge, UK, December 1998, p. 184-198.
[4]
Dhanabalan, T., Parthasarathi, R and Geetha, T. V., 2003. Tamil Spell Checker, Tamil Internet 2003, Chennai,
Tamilnadu, India.
[5]
Gregory, V. B., 2007. Spelling-Error Tolerant, Order-Independent Pass-Phrases via The Damerau-Levenshtein
String-Edit Distance, 2007 Australasian Information Security Workshop Privacy Enhancing Technologies, Ballarat,
Australia.
[6]
Güzey, C. ve Oflazer, K., 1994. Spelling Correction in Agglutinative Languages, Bilkent University Department
Of Computer Engineering and Information Systems Technical Report, BU-CEIS-94-01, Ankara, Turkey.
[7]
Oflazer, K. ve Solak, A., 1992. Parsing Agglutinative Word Structures And Its Application to Spelling Checking
th
for Turkish, In Proceedings of the 15 International Conference On Computational Linguistics, Nantes, France, August
23-28, p. 39-45.
[8]
Oflazer, K., 1993. Two-level Description Of Turkish Morphology, In Proceedings of the Sixth Conference Of The
Europen Chapter Of The Assotiation For Computational Linguistics, Utrecht, Netherlands, April 1993.
[9]
Ankara.
Solak, A., 1991. Design And Implementation of A Spelling Checker For Turkish, M.S. Thesis, Bilkent University,
2. Bul ve Deðiþtir
Bul ve deðiþtir iþlevleri çoðunlukla birlikte kullanýlan iþlevlerdir. Bul iþlevi sadece aranan metin
içindeki bir sözcük veya harf dizisini bulma amaçlý tek baþýna kullanýlabilirken deðiþtir iþlevi
bulunan sözcüðün yerine baþka sözcüðü yerleþtirir.
Günümüzde yaygýn olarak kullanýlan yazým programlarý içinde bulunan "Bul ve Deðiþtir"
iþlevleri genellikle bükümlü diller için geliþtirilmiþ olduðundan Türkçe gibi bitiþken diller için
yeterli deðildir. Ek zengini olan Türkçede bul ve deðiþtir dediðimiz, aslýnda sözcüðün kökü ve
ekleridir. Ekler, Türkçenin dil bilgisi kurallarýna göre þekillendiðinden deðiþtirme iþlemi
yaparken eklerin yeni köke uygun olarak biçimlenmesi gerekir. Bu kurallarýn en önde gelenleri
büyük ve küçük ünlü uyumlarýdýr.
Bul ve deðiþtir iþlevi sýrasýnda karþýlaþýlan bir baþka sorun sözcük sonundaki ünsüzlerin
deðiþmesidir. Özellikle Arapçadan dilimize girmiþ olan sözcüklerde bu sorunla karþýlaþýlýr.
Örneðin; ilkel bul ve deðiþtir programlarý kullanýldýðýnda, metin içerisinde “kitap” sözcüðü
aranýp yerine “defter” sözcüðü konulmak istendiðinde, metindeki “kitaplarýmýzdan”
sözcüðü “defterlarýmýzdan” hâlini alacaktýr. Oysaki defter sözcüðü kurallý bir sözcükken
“defterlarýmýzdan” sözcüðü ne anlamca ne yapýca doðru bir sözcük deðildir. Bu ve bunun
gibi dilin kurallarýna aykýrý sorunlarý çözebilmek için Türkçe için özel bir bul ve deðiþtir iþlevine
gereksinim duyulmaktadýr.
Kurallara
göre
“kitap”“defter”
deðiþikliði
“kitaplarýmýzdan” yerine “defterlerimizden” seklinde olmalýdýr. Türkçe bul ve
deðiþtir iþlevi için karþýlaþýlan sorunlar aþaðýda açýklanmýþtýr.
2.1 Türkçe için Bul Ýþlevinde Karþýlaþýlan Sorunlar
Türkçenin ses özellikleri nedeniyle bazý sözcükler aldýklarý eklere göre deðiþikliðe uðrar:
• Sonu “p, ç, t, k” sert süreksiz ünsüzleri ile biten sözcükler ünlü bir harf ile baþlayan ek
aldýklarýnda “b, c, d, g” ve “ð” harflerine dönüþürler. “kitap” sözcüðü “-ým” 1. kiþi
iyelik eki aldýðýnda “kitabým” hâlini alýr. Bul ve deðiþtir iþlevi bul aþamasýnda
“kitap” sözcüðünü aradýðýndan “kitabým” sözcüðünün içindeki ayný anlama sahip
kýsmý bulamamaktadýr. Bu gibi durumlardan kurtulabilmek için “kitap” sözcüðü
aranýrken “kitab”, “aðaç” sözcüðü aranýrken “aðac”, “kepenk” sözcüðü
aranýrken “kepeng” sözcüðünün de aranmasý saðlanmalýdýr.
• Bazý Türkçe sözcükler ek aldýklarýnda ünlü düþmesine uðrarlar. Bu tür sözcükler için
“oðul”, “gönül”, “burun”, “asýr” sözcükleri örnek verilebilir. Bu sözcükler ünlü
ile baþlayan ekler aldýklarýnda “oðul”+"um"à “oðluma”, "gönül"+"ümden"à
“gönlümden”, “burun”+"um"à“burnum”, “asýr”+"a"à“asra” hallerini
almaktadýr. Dolayýsýyla bu sözcüklerin ek almadan önceki hâlleri arandýðýnda
deðiþikliðe uðramýþ hâlleri bulunamaz. Deðiþmiþ hâlleri de arama aþamasýnda göz
önüne alýnmalýdýr. Yani “oðul” ve “oðl”, “gönül” ve “gönl”, “burun” ve
“burn", “asýr” ve “asr” ikilileri aramaya dâhil edilmelidir.
• Bazý eylem köklü sözcüklere “yor” eki eklendiðinde eylem soylu sözcükte
deðiþimler olur. “anla” eylem soylu sözcüðüne “yor” eki eklendiðinde
“anla+yor” yerine “anlýyor” hâline dönüþ olur. Bir sözcükte düz - geniþ
ünlülerden (a, e) sonra “yor” eki gelirse, bu ünlüler darlaþarak (ý, i, u, ü) ünlülerine
dönüþür. Bu olaya ünlü daralmasý denir. Bulunmak istenen sözcüðün “anla” olmasý
durumunda “anlýyor” sözcüðü yakalanamayýp yanlýþ sonuca neden olunur.
Aramaya bu durum eklenmelidir.
2.2 Türkçe için Deðiþtir Ýþlevinde Karþýlaþýlan Sorunlar
Deðiþtir iþlevinde Türkçenin sondan eklemeli bir dil olmasýndan kaynaklanan bazý bazý
sorunlarla karþýlaþýlmaktadýr.
• Sözcük köklerinin aldýðý ekler kökün sahip olduðu bazý ses özelliklerine göre
deðiþiklik göstermektedir.
Örneðin :
“kedi” sözcüðüne çoðul anlam katmak için “-ler” eki kullanýlýrken ; “tavþan”
sözcüðüne “-lar” eki kullanýlýr.
“kedi” sözcüðüne 1. tekil iyelik anlamý katmak için “-m” eki kullanýlýrken ;
“tavþan” sözcüðüne “-ým” eki kullanýlýr.
Bu eklerin deðiþimi eklendikleri sözcüðün son harfinin ünlü – ünsüz oluþuna,
sözcüðün son ünlü harfinin kalýn – ince oluþuna göre düzenlenir. “kedi” sözcüðü son
harfinin ünlü olmasý ve son ünlüsünün ince olmasý nedeniyle 1. tekil iyelik ekini “m”
olarak , “tavþan” sözcüðü son harfinin ünsüz olmasý ve son ünlüsünün kalýn olmasý
nedeniyle 1. tekil iyelik ekini “ým” olarak alýr.
Bu deðiþiklikler göz ardý edildiðinde ilkel Bul ve Deðiþtir iþlevi aþaðýdaki gibi yanlýþ
sonuçlar vermektedir.
“Ahmet bugün yeni kedisini parkta kedilerle oynamaya götürdü.”
“Ahmet bugün yeni tavþansini parkta tavþanlerle oynamaya götürdü.”
Bul ve Deðiþtir
Bu deðiþiklikler göz önüne alýnýp bir çözümleme yapýldýðýnda Bul ve Deðiþtir iþlevi
aþaðýdaki gibi doðru sonuçlanmaktadýr.
“Ahmet bugün yeni tavþanýný parkta tavþanlarla oynamaya götürdü.”
• Bul iþlevinde de deðindiðimiz p,ç,t,k sert süreksiz ünsüzler ile biten sözcükler Deðiþtir
iþlevinde de sorunlara neden olmaktadýr. Özellikle sözcük ünlü ile baþlayan bir ek de
almýþ ise sorunla karþýlaþýlmaktadýr. Örneðin; “defterimden” sözcüðünde
“defter” sözcüðü yerine “kitap” konulmasý gerektiðinde “kitap-imden”
çözümlemesi yanlýþtýr. Ünlü harflerin kalýn olmasý göz önüne alýndýðýnda
“kitap-ýmdan” çözümlemesi yapýlmaktadýr, fakat “kitap” sözcüðünün son harfinin
“p,ç,t,k” sert süreksiz ünsüzlerinden biri olmasý sebebiyle sadece ince – kalýn ünlü
kontrolü yeterli olamamaktadýr. Ünlü ile baþlayan ek almasý göz önüne alýnarak
“kitap-ýmdan” yerine “kitab-ýmdan” çözümlemesi yapýldýðýnda doðru sonuç
alýnabilmektedir.
• Bul iþlevinde üzerinde durmuþ olduðumuz ünlü daralmasý konusu ayný zamanda
Deðiþtir iþlevinde de sorunlara sebep olmaktadýr. “geliyoruz” sözcüðünde “gel”
sözcüðünün yerine “anla” sözcüðü konulmak istendiðinde “anla+yoruz” yerine
“anlý+yoruz” çözümlemesi doðru sonucu vermektedir. Ünlü daralmasý yaþayacak
sözcükler için özel bir çözüm yapýlandýrýlmasý doðru olacaktýr.
• p, ç, t, k, f, h, s, þ” sert ünsüzlerinden sonra “c, d, g” ünsüzleri ile baþlayan ek
geldiðinde, eklerin ilk harflerinde “càç”, “dàt”, “gàk” deðiþiklikleri olur. Deðiþtir
iþlevi “dönerci” sözcüðünde “döner” sözcüðünü bulup yerine “kebap” konulmasý
iþlemini yapmaya kalktýðýnda “kebap+ci” çözümlemesi yanlýþ olacaktýr. “kebap”
sözcüðünün son harfi “p, ç, t, k, f, h, s, þ” sert ünsüzlerinden biri olmasý sebebiyle “c”
ile baþlayan ekin ilk harfi “ç” olacaktýr. Bu durumda “kebapçý” doðru çözümlemesi
yapýlabilmiþ olacaktýr.
2.3 Yakýn Çalýþmalar
Türkçe dýþýndaki bazý dillerde Bul ve Deðiþtir iþlevi doðru sonuç verebilmektedir. Örneðin;
Ýngilizce için sayýsý beþi aþmayan bazý özel durumlar dýþýnda Bul ve Deðiþtir iþlevi doðru olarak
yapýlabilmektedir.
Orhan Bilgin, Özlem Çetinoðlu ve Kemal Oflazer tarafýndan Türkçe için hazýrlanmýþ ancak
yayýmlanmamýþ olan “Efficient Find and Replace in Agglutinative Languages: The Case of
Turkish” çalýþmasý yakýn bir çalýþma olarak bilinmektedir. Bu çalýþma bulunacak olan sözcüðü
biçim bilimsel çözümleyicide iþleyerek, elde edilecek sonucu kullanarak yerine konulacak
sözcüðü yapýlandýrmayý hedeflemektedir. Bu çalýþmada “dolabýný” sözcüðündeki “dolap”
yerine “masa” sözcüðü konulmak istendiðinde ilk olarak “dolabýný” sözcüðü biçim bilimsel
çözümleyicide çözümlenmektedir. biçim bilimsel çözümleyici þöyle iki sonuç üretmektedir:
“dolap+Noun+A3sg+P2sg+Acc” ve “dolap+Noun+A3sg+P3sg+Acc” . Her iki
çözümden elde edilen ekler “masa” sözcüðüne eklenerek “masa+Noun+A3sg+P2sg+Acc”
à “masaný” ve “masa+Noun+A3sg+P3sg+Acc” à”masasýný” gibi iki ayrý sonuç
bulunur. Böylece Bul ve Deðiþtir iþlevi gerçekleþtirilebileceði önerilmiþtir. Þekil-2.1'de
“akýllýlýk” sözcüðü yerine “zekâ” sözcüðünün konulmasý ve geçilen aþamalar
gösterilmiþtir. [4]
akýllýlýktan
Biçimbilimsel
çözümleyici
akýllýlýk + Dan (Abl)
Biçimsel sözdizim
eþleþtirici
zekadan
Biçimbilimsel
üretici
zeka + Dan (Abl)
Þekil-2.1: “akýllýlýk” sözcüðünün “zeka” sözcüðü ile deðiþtirilmesinin aþamalarý
2.4 Yetkin Bul ve Deðiþtir
Türkçe için gerekli olan Bul ve Deðiþtir çalýþmalarýndan biri F. Þentürk ve E. Adalý tarafýndan
gerçekleþtirilmiþtir. Bu çalýþmanýn amacý "Türkçe Bul ve Deðiþtir" iþlevinin baþarýmýný en üst
düzeye çýkarabilecek bir yöntem geliþtirmektir. Bu amaçla;
• Verilen ölçütler doðrultusunda arama yapýlarak bul iþlevinin yapýlmasý,
• Bul iþlevinin sonuç olarak verdiði verilerin kullanýlmasýyla bulunan sözcüðün yerine
konulacak sözcüðün yapýlandýrýlmasý,
• Baþarýlý bir þekilde bul ve deðiþtir iþlevinin yapýlmasý için çözüm bulunmaya
çalýþýlmýþtýr.
Bu amaçlar doðrultusunda bul ve deðiþtir iþlevi sýrasýnda karþýlaþýlmasý olasý sorunlar için
çözümler bulunmuþtur. Türkçe sözcükler için oluþturulan ayrý sonlu durum makinelerinin
birlikte çalýþarak hem eylem hem de ad soylu sözcükler için sonuca varabilmesi saðlanmýþtýr.
Bilindiði gibi yapým eki içeren sözcüklerde deðiþtirme iþlemi yanlýþ sonuçlar üretmektedir. Bu
nedenle sonlu durum makinelerinde bazý yapým eklerine yer verilmemiþtir. Bu eklerle kurulmuþ
tüm sözcükler için biçim bilimsel çözüm bulunmuþtur. Bu çözümlerin sonuçlarýndan
yararlanarak bul ve deðiþtir iþlevi gerçekleþtirilmiþtir. Bulunan sözcüðün ardýndaki ekler, eylem
ve ad soylu sözcüklerin alabileceði ek kurallarýna göre çözümlenmiþtir.
Türkçenin bitiþken bir dil olmasý nedeniyle bul ve deðiþtir iþlemi Türkçenin biçim bilimsel
özellikleri göz önüne alýnarak gerçekleþtirilmiþtir. Bu nedenle, çalýþma kapsamýnda tüm çekim
Bul ve Deðiþtir
eklerinin ve bazý yapým eklerinin de aralarýnda bulunduðu bir ek kümesi için sonlu durum
makineleri oluþturulmuþ ve bu sonlu durum makineleri kullanýlarak deðiþtir iþlevinin doðru
çalýþabilmesi için zemin hazýrlanmýþtýr.
Ad soylu sözcüklerin çekim ekleri ve ek eylem ekleri, eylem soylu sözcüklerin çekim ve zaman
ekleri ve bunlara bazý yapým ekleri de eklenerek tüm sözcükler için sonlu durum makineleri
oluþturulmuþtur. Tüm bu sonlu durum makinelerinin sanki tek bir parça gibi hareket edebilmesi
için çözüm bulunmuþtur. Ýncelenen ek sayýsý toplamý 115'tir. Bu eklerin hangi tür sözcükler ile
nasýl hareket ettikleri aþaðýda açýklanmýþtýr.
2.4.1 Ad Çekim Ekleri
Ad çekim ekleri ad soylu sözcüklere eklenerek onlara tümcede görev ve anlam kazandýran
eklerdir. Çoðul, iyelik, ilgi ve durum ekleri ad çekim eki olarak bilinir.
Örneðin:
"çocuklarýnki" sözcüðünde “çocuk” sözcüðü sýrasýyla “lar” çoðul, “ýn” iyelik ve "ki”
ilgi eki almýþtýr. Þekil-2.2'de Ad çekim eklerinin ad köküne nasýl eklendiklerinin kurallarý
-lHK,-cH,cHk
1 Ad kökü
-lH,-sHz
-lH,-sHz
2
Eylem kökü
-lAr,0
-lArI
Çoðul
-(s)H
-(H)m,-(H)n,-(H)mHz,-(H)nHz,0
Çýkýþ
-lAS,-lA,lAn
-nH,-(n)cA
-n(y)H,-(n)cA
3
4
Ýyelik
-(y)A,-DA,-DAn,
-(n)Hn,-(y)lA,0
Ýyelik (3)
-nA,-nDA,-nDAn,
-(n)Hn,-(y)lA,0
5
0
Durum 1
0
-DA,(n)Hn
6
Durum 2
-ki
-NA,-nDA,-nDAn
-(n)Hn,-(y)lA,0
-lAr
7
ilgi
-nDA,(n)Hn
-nDA,(n)Hn
Eylem kökü
Þekil-2.2 : Ad çekim ekleri soldan saða sonlu durum makinesi [2], [4]
Çýkýþ
Çýkýþ
görülmektedir. Bu þekle baðlý kalarak ad çekim ekleri için sonlu durum makinesi tasarlanmýþtýr.
Çalýþma kapsamýnda ad köküne eklenen ekler soldan saða doðru olmak üzere incelenmiþtir.
Bu sonlu durum makinesinde herhangi ad soylu bir sözcüðü kök ve eklerine ayýrabilmemiz
mümkündür. Ad soylu sözcüklere eklenen ve ad çekim eki olarak tanýmlanan 19 ek ve 6 yapým
eki için Þekil-2.3`teki sonlu durum makinesi çözüm saðlamaktadýr. Bu þekli daha matematiksel
bir hâle dönüþtürerek bilgisayar sistemlerinin anlayabileceði bir þekle getirilmesi
gerekmektedir. Bunun için öncelikle bu 19 ad çekim ekinin numaralandýrmasý ve ona göre
þeklin yeniden yorumlanmasý saðlanmýþtýr. “0” numaralý geçiþler boþ geçiþleri ifade etmektedir.
Þekil-2.3`te, Çizelge-2.1`deki ek katarlarýnýn yerine ek numaralarýnýn geliþi gösterilmiþtir
(Yapým ekleri katar hâlinde gösterilmiþtir).
Çizelge-2.1: Ad Çekim Eklerinin Numaralandýrýlmasý [2]
Ek No:
Ek
Açýklama
Örnek
1
–lAr
Çoðul
kedi-ler
2
–(H)m
1. tekil kiþi iyelik
kedi-m
3
–(H)mHz
1. çoðul kiþi iyelik
kedi-miz
4
–(H)n
kedi-n
5
–(H)nHz
kedi-niz
6
–(s)H
kedi-si
7
–lArI
kedi-leri
8
–(y)H
-i hali
kedi-yi
9
–nH
-i hali (3.t.k. iyelikten sonra)
kedi-ni
10
–(n)Hn
Tamlama
kedi-nin
11
–(y)A
-e hali
kedi-ye
12
–nA
-e hali (3.t.k. iyelikten sonra)
kedi-ne
13
–DA
-de hali
kedi-de
14
–nDA
-de hali (3.t.k. iyelikten sonra)
kedi-nde
15
–Dan
-den hali
kedi-den
16
–nDAn
-den hali (3.t.k. iyelikten sonra)
kedi-nden
17
–(y)lA
birliktelik
kedi-yle
18
–ki
Ýlgi
kedi-de-ki
19
–(n)cA
Görelik
kedi-ce
Bul ve Deðiþtir
0
Eylem kökü
0,10,12
14,16,17
3 Ýyelik (3)
-lAS
-lA
-lAn
9,19
5 Durum 1
0
6 Durum 2
0,10,12
14,15,17
0,7
1 Ad Kökü
Ek eylem
Çýkýþ
10,13
0,10,11
13,15,17
6
10,14
18
8
-lHk,-cH,-cHk
8,19
0,1
0,2,3,4,5
2 Çoðul
4 Ýyelik
7
Ýlgi
1
-lH,-sHz
Þekil-2.3: Numaralandýrýlmýþ ad çekim ekleri soldan saða sonlu durum makinesi
2.4.2 Ek Eylem Ekleri
Týpký eylemlerde olduðu gibi adlara da ek eylem ekleri ile zaman ve kiþi anlamlarý
yüklenebilmektedir. Bu nedenle bu eklerin de incelenmesine gerek duyulmuþtur. Ek eylem
eklerinin ad soylu sözcüklere eklenme kurallarý Þekil-2.4`te gösterilmiþtir.
5
Durum 1
0
-(y)DH,(y)sA
-(y)mHþ
8 Ek eylem 1
-m,-n,0
-k,nHz,-lAr
9 Ek eylem 2
-(Y)Hm
-sHn,0
-yHz
þHnHz
lAr
-Hm,-sHn,0
-Hz,sHnHz,-lAr
-DHr
-(y)ken
11Ek eylem 3
-lAr,0
10 Ek eylem 2
kiþi
-DHz,0
Çýkýþ
Çýkýþ
-cAsInA
Çýkýþ
Çýkýþ
Çýkýþ
Çýkýþ
Þekil-2.4: Ek Eylem Ekleri soldan saða sonlu durum makinesi [2][4]
Ad çekim eklerinde yapýldýðý gibi ek eylem ekleri için numaralandýrýlmýþ sonlu durum makinesi
Çizelge-2.2`deki ek numaralarý yardýmýyla Þekil-2.5`te oluþturulmuþtur.
Çizelge-2.2: Ek Eylem Eklerinin Numaralandýrýlmasý [2]
Ek No:
Ek
Açýklama
Örnek
1
–(y)Hm
1. tekil kiþi
evde-yim
2
–sHn
2. tekil kiþi
evde-sin
3
–(y)Hz
1. çoðul kiþi
evde-yiz
4
–sHnHz
2. çoðul kiþi
evde-siniz
5
–lAr
3. çoðul kiþi
evde-ler
6
–m
1. tekil kiþi ((y)DH ve (y)sA eklerinden sonra )
evdeyse-m
7
–n
2. tekil kiþi ((y)DH ve (y)sA eklerinden sonra )
evdeyse-n
8
–k
1. çoðul kiþi ((y)DH ve (y)sA eklerinden sonra )
evdeyse-k
9
–nHz
2. çoðul kiþi ((y)DH ve (y)sA eklerinden sonra )
evdeyse-niz
10
–DHr
çevrik kip
evde-dir
11
–cAsInA
tarz zarfý
ev-cesine
12
–(y)DH
di’li geçmiþ zaman
evde-ydi
13
–(y)sA
dilek-þart kipi
evde-yse
14
–(y)mHþ
miþ’li geçmiþ zaman
evde-ymiþ
15
–(y)ken
zaman zarfý
evde-yken
12,13
5
14
10
0,5,6,7,8,9
8
0,1,2,3,4,5
9
10
11
0,10,11
Çýkýþ
0,5
0,1,2,3,4,5,15
Þekil-2.5: Numaralandýrýlmýþ Ek Eylem Ekleri soldan saða sonlu durum makinesi
Bul ve Deðiþtir
2.4.3 Eylem Zaman Ekleri
Eylem soylu sözcüklere zaman ve kiþi anlamlarý katan eklere eylem zaman ekleri denir.
Þekil-2.6`da eylem zaman eklerinin eylem soylu bir sözcüðe hangi kurallara göre
eklenebileceði görülmektedir.
1 Eylem kökü
Olumsuz
-mIþ,-(y)acak
-(H)r,-Ar,(H)yor
-mAktA,-mAlI
-(y)A
2 Zaman tip II
-lAr,0
-lAr
6
Kiþi I
-cAsInA
-(y)ken
Çýkýþ
3 Zaman tip III
-(y)Hm,-sHn,0
-yHz,-sHnHz,lAr
7
Kiþi II
-DH,-sA
0
4 Zaman tip IV
-(y)Hm,-sHn,0
-lIm,-sHnHz,lAr
Çýkýþ
5 Zaman tip I
0,sHn,-(y)HnHz
-(y)Hn,-sHnlAr
Çýkýþ
-M,-n,0,-k
-nHz,lAr
Çýkýþ
-DHr,0
Çýkýþ
-cAsInA
-(y)DH
-(y)sA
8 Bileþik z. I
-(y)DH
-(y)sA
Çýkýþ
9 Bileþik z. II
-(y)mHþ
10 Bileþik z. III
-(y)mHþ
11
Zarf
-m,-n,0,k
-nHz,-lAr
-(y)Hm,-Hn,0
-yHz,-sHnHz,lAr
-cAsInA,0
Çýkýþ
Çýkýþ
Þekil-2.6: Eylem zaman ekleri soldan saða sonlu durum makinesi [2][4]
Çizelge-2.3`teki eklerin numaralarý yardýmýyla eylem zaman ekleri için de týpký önceki 2 ek
grubunda yapýldýðý gibi oluþturulmuþ numaralandýrýlmýþ solda saða sonlu durum makinesi
Þekil-2.7`de görülmektedir.
Çizelge-2.3 Eylem Zaman Eklerinin numaralandýrýlmasý [2]
Ek No:
Ek
Açýklama
Örnek
1
–(y)Hm
1. tekil kiþi
gel-iyor-um
2
–sHn
2. tekil kiþi
gel-iyor-sun
3
–(y)Hz
1. çoðul kiþi
gel-iyor-uz
4
–sHnHz
2. çoðul kiþi
gel-iyor-sunuz
5
–lAr
3. çoðul kiþi
gel-iyor-lar
6
–mHþ
miþ’li geçmiþ zaman
gel-miþ
7
–(y)AcAk
gelecek zaman
gel-ecek
8
–(H)r
geniþ zaman
gel-ir
9
–Ar
geniþ zaman
gid-er
10
–(H)yor
þimdiki zaman
gel-iyor
11
–mAktA
sürerlilik
gel-mekte
12
–mAlI
gereklilik
gel-meli
13
–m
1. tekil kiþi
gel-di-m
14
–n
2. tekil kiþi
gel-di-n
15
–k
1. çoðul kiþi
gel-di-k
16
–nHz
2. çoðul kiþi
geldi-niz
17
–DH
di’li geçmiþ zaman
gel-di
18
–sA
dilek-þart kipi
gel-se
19
–lIm
1. çoðul kiþi
gel-e-lim
20
–(y)A
istek kipi
gel-e
21
–(y)HnHz
2. çoðul kiþi
gel-iniz
22
–(y)Hn
2. tekil kiþi
gel-in
23
–sHnlAr
3. çoðul kiþi
gel-sinler
24
–DHr
çevrik kip
gel-miþ-ler-dir
25
–(y)DH
hikaye bileþik zaman
gel-miþ-ti
26
–(y)sA
þart bileþik zaman
gel-miþ-se
27
–(y)mHþ
rivayet bileþik zaman
gel-meli-ymiþ
28
–cAsInA
tarz zarfý
gel-miþ-cesine
29
–(y)ken
zaman zarfý
gel-miþ-ken
Bul ve Deðiþtir
0,5
6
28,29
0,1,2,3,4,5
2
7
5
0,24
0,1,2,3,4,5,19
6,7,8,9
10,11,12
8
25,26
20
25,26
3
25,26
9
27
25,26
1
11
27
17,18
0
4
27
0,28
10
27
27
0,2,21,22,23
5
Olumsuz
Çýkýþ
0,5,13,14,15,16
Þekil-2.7: Numaralandýrýlmýþ eylem zaman ekleri soldan saða SDM
2.4.4 Eylem Çekim Ekleri
Eylem zaman ekleri bölümünde eylem soylu sözcüklere eklenen kiþi ve zaman ekleri
açýklanmýþtýr. Bu eklerin dýþýnda da eylem soylu sözcüklere eklenen çekim ekleri vardýr. Bu
bölümde eylem çekim ekleri olarak adlandýrdýðýmýz ekler tanýtýlacaktýr.
Þekil-2.8`de eylem çekim eklerinin eylem soylu bir sözcüðe hangi kurallara göre eklenebileceði
görülmektedir.
Çizelge-2.4'te eylem çekim eklerinin numaralanmýþ hâli verilmiþtir.
0
1 Eylem kökü
-(H)t
-(H)n,0
Edilgen/
dönüþlü I
2
-(H)þ
-(H)l,0
3
-DHr
-DHr
-DHr
Ettirgen/
oldurgan
4
-(H)t
-(H)l,0
-(H)l,0
Ettirgen/
oldurgan
5
Ýþteþ
-(H)l,0
Edilgen/
dönüþlü II
6
-(H)n,0
Edilgen/
dönüþlü III
7
-mA
-(y)Adur,-(y)Hver,-(y)Agel,-(y)Agör
-(y)Abil,-(y)Ayaz,-(y)Akal,-(y)Akoy,0
-(y)AmA
8 Olumsuzluk I
-m,-zsIn,-z,-yIz
Çýkýþ
-z
-(y)Adur
-(y)Hver
-(y)Agel
-(y)Agör
9 Olumsuzluk II
10
Karmaþýk
eylem I
-z
-zsInIz,-IAr
0
-mAksIzIn
-mAdAn
-(y)Abil,0
11
Olumsuzluk
Karmaþýk
eylem II
-mAk
12
-(y)ArAk
-(y)HncA
14
13
Zarf I
-DAn,0
-(y)Hp
-(y)AlI
-DHkçA
Zarf II
Mastar
-DAn,-DA
-(y)IA,-(y)A
Çýkýþ
-(y)HcH
-mAzlHk
-ma
-(y)Hþ
-(y)An
-(y)AcAk
Dhk
-(y)AsH
mHþ
Ek Eylem
-yA,0
Çýkýþ
Þekil-2.8: Eylem Çekim Ekleri Soldan Saða Sonlu Durum Makinesi [2][4]
Ýsim kökü
Bul ve Deðiþtir
Çizelge-2.4: Eylem Çekim Eklerinin numaralandýrýlmasý [2]
Ek No:
Ek
Açýklama
Örnek
1
–m
1. tekil kiþi
gel-me-m
2
–zsIn
2. tekil kiþi
gel-me-zsin
3
–z
3. tekil kiþi
gel-me-z
4
–yIz
1. çoðul kiþi
gel-me-yiz
5
–zsInIz
2. çoðul kiþi
gel-me-zsiniz
6
–zlAr
3. çoðul kiþi
gel-me-zler
7
–mA
Olumsuzluk
gel-me
8
–(y)AmA
Olumsuzluk
gel-eme
9
–(y)Adur
sürerlik bileþik eylem kipi
gel-edur
10
–(y)Hver
tezlik bileþik eylem kipi
gel-iver
11
–(y)Agel
ol-agel
12
–(y)Agör
gel-egör
13
–(y)Abil
yeterlik bileþik eylem kipi
gel-ebil
14
–(y)Ayaz
yaklaþma bileþik eylem kipi
gel-eyaz
15
–(y)Akal
don-akal
16
–(y)Akoy
al-ýkoy
17
–mAk
Mastar
gel-mek
18
–(y)HcH
görev eki
gör-ücü
19
–(y)Hp
zarf eki
gel-ip
20
–(y)AlI
zarf eki
gel-eli
21
–DHkçA
zarf eki
gel-dikçe
22
–(y)ArAk
zarf eki
gel-erek
23
–(y)HncA
zarf eki
gel-ince
24
–DAn
zarf eki
gör-erek-ten
25
–yA
zarf eki
gel-ince-ye
26
–(y)An
sýfat fiil
gel-en
27
–(y)AcAk
fiilden isim yapma eki
gel-ecek
28
–(y)AsI
sýfat fiil
gel-esi
29
–DHk
sýfat fiil
görül-dük
30
–mHþ
sýfat fiil
gel-miþ
31
–mAzlIk
gel-mezlik
32
–mA
mastar eki
gel-me
33
–(y)Hþ
gel-iþ
34
–DAn
-den hali
gel-me-den
35
–DA
-de hali
gel-me-de
36
–(y)lA
Birliktelik
gel-me-yle
37
–(y)A
-e hali
gel-me-ye
38
–mAksIzIn
zarf eki
gel-meksizin
39
–mAdAn
zarf eki
gel-meden
40
–(H)n
Edilgen dönüþlü
gör-ün
41
–(H)þ
Ýþteþ
gör-üþ
42
–(H)l
Edilgen dönüþlü
gör-ül
43
–DHr
Oldurgan
ol-dur
44
-(H)t
Ettirgen
oku-t
Çizelge-3.4`teki eklerin numaralarý yardýmýyla eylem çekim ekleri için de týpký önceki 3 ek
grubunda yapýldýðý gibi oluþturulmuþ numaralandýrýlmýþ solda saða sonlu durum makinesi
Þekil-2.9`da görülmektedir.
34,35,36,37
Ek eylem
0,42
3
6
41
0,9,10,11,12
13,14,15
16
0,44
0,42
43
12
18
10
Ad kökü
17
0
26,27,28
29,30,31
32,33
38,39
1
0
7
0,40
0,42
2
44
43
0,42
5
8
9
3
0,13
0,9,10
11,12
Olumsuz
44
4
19,20,21
7
3
43
11
1,2,3
4,5,6
8
23
22
Çýkýþ
1,2,3,4,5,6
0,25
13
14
0,24
Þekil-2.9: Numaralandýrýlmýþ eylem çekim ekleri soldan saða sonlu durum makinesi
Bul ve Deðiþtir
2.4.5 Tüm SDM'lerinin Ortak SDM'de Toplanmasý
Þekil-2.3, Þekil-2.5, Þekil-2.7 ve Þekil-2.9 soldan saða doðru numaralandýrýlmýþ sonlu durum
makinelerinin tümünde birbirlerine geçiþler mevcuttur.
Örneðin:
Þekil-2.2 Ad kökü sonlu durum makinesinin 5 numaralý durumunda Ek Eylem makinesine geçiþ
vardýr. Benzer þekilde Þekil-2.9 eylem çekim ekleri makinesinde 8 ve 9 numaralý durumlardan
eylem zaman ekleri sonlu durum makinesinin OLUMSUZ durumuna, 10 ve 11 numaralý
durumlardan ad kökü sonlu durum makinesine ve 12 numaralý durumdan da ek eylem sonlu
durum makinesine geçiþler vardýr. Tüm bu geçiþlerin tek bir sonlu durum makinesinde bir araya
alýnmasýnýn ardýndan, 0 (sýfýr) boþ geçiþlerin elenmesi gerekmektedir. Tüm eklerin bir arada
kullanýlabilmesi amacýyla her bir ek grubunda 1`den baþlanarak numaralandýrýlan ekler için
tekliði saðlamak amacýyla 1 ile 115 arasýnda numaralar verilmiþtir.
Ortak olarak oluþturulmuþ sonlu durum makinesinin boyutu büyük olduðundan
gösterilmemiþtir. Ayrýca boþ geçiþlerin de nasýl elendiðini küçük bir örnek kümesi ile
göstermekte fayda vardýr. Bu sayede son oluþturulan büyük sonlu durum makinesinde boþ
geçiþlerin nasýl elendiði ile ilgili fikir sahibi olunabilir.
2.4.5.1 Boþ Geçiþlerin Elenmesi
Þekil-2.10 ve Çizelge-3.2 yardýmýyla Þekil-2.11 oluþturulmuþtur. Þekil-2.11 de 0 (sýfýr) boþ
geçiþlerin elenmesi için birkaç iþlem yapýlacaktýr. Tüm iþlemler aþaðýda adým adým
Durum 1
ee-5
-(Y)DH,-(y)sA
-(Y)mHþ
Ek eylem 1
ee-8
Ek eylem 2
ee-9
-m,n
0,-k
-nHz
-lAr
-Hm,sHn,0
-Hz,-sHnHz,-lAr
Ek eylem 2
kiþi ee-10
-(Y)mHm
-sHn,0
-yHz
-sHnHz
-lAr
Çýkýþ
-DHr
Ek eylem 3
kiþi ee-11
-(Y)ken
Çýkýþ
-lAr,0
Çýkýþ
Çýkýþ
-DHr,0
-cAsInA
Çýkýþ
Çýkýþ
Þekil-2.10: Ek eylem ekleri soldan saða sonlu durum makinesi [2][4]
gösterilmiþtir. Ýlk olarak hangi durumlara hiçbir iþlem yapmadan ulaþýlabilir ona bakýlýr ve A
kümesine bu durumlar eklenir. Þekil-2.11’de A kümesinde ee5 durumu bulunmaktadýr. A
kümesinde hangi ekler ile hangi kümelere gidileceðini gösteren aþaðýdaki iþlemler yapýlmýþtýr.
Ee-5
ee-8
13,12
14
Ee-9
0,1,2
3,4,5
Ee-10
0,10,11
0,5,6
7,8,9
10
Ee-11
0,1,2,3,4,5,15
0,5
Çýkýþ
Þekil-2.11: Numaralandýrýlmýþ ek eylem ekleri soldan saða SDM
A={ee5}
—————————————————
ee5 durumunda çýkan ekler 1,2,3,4,5,10,12,13,14,15
1 eki ile Çýkýþ
2 eki ile Çýkýþ
3 eki ile Çýkýþ
4 eki ile Çýkýþ
5 eki ile Çýkýþ
10 eki ile {ee11}à{ee11,Çýkýþ}=B
12 eki ile {ee8}à{ee8,Çýkýþ}=C
13 eki ile C
14 eki ile {ee9}à{ee9,ee10,Çýkýþ}=D
15 eki ile Çýkýþ
—————————————————
B={ee11,Çýkýþ}
—————————————————
ee11 durumunda çýkan ekler 5
5 eki ile Çýkýþ
—————————————————
Bul ve Deðiþtir
C={ee5,Çýkýþ}
—————————————————
ee8 durumunda çýkan ekler 5,6,7,8,9
5 eki ile Çýkýþ
6 eki ile Çýkýþ
7 eki ile Çýkýþ
8 eki ile Çýkýþ
9 eki ile Çýkýþ
—————————————————
D={ee9,ee10,Çýkýþ}
—————————————————
ee9 durumunda çýkan ekler 1,2,3,4,5
1 eki ile {ee10}à{ee10,Çýkýþ}=E
2 eki ile E
3 eki ile E
4 eki ile E
5 eki ile E
—————————————————
ee10 durumunda çýkan ekler 10,11
—————————————————
E={ee10,Çýkýþ}
—————————————————
ee10 durumunda çýkan ekler 10,11
—————————————————
Tüm bu iþlemlerin sonucunda aþaðýdaki 6 küme oluþmaktadýr.
A={ee5}
B={ee11,Çýkýþ}
C={ee8,Çýkýþ}
D={ee9,ee10,Çýkýþ}
E={ee10,Çýkýþ}
Çýkýþ
Yukarýda örneklendirdiðimiz boþ geçiþlerin elenmesi tüm sonlu durum makinelerinin bir arada
olduðu sonlu durum makinesi için yapýldýðýnda 36 kümeden oluþan bir yapýya ulaþýlmaktadýr.
Durumlarýn kolay anlaþýlmasý için bazý kýsaltmalara baþvurulmuþtur. Bunlar ; ez: eylem zaman,
ik: ad (isim) kökü ve ee: ek eylem dir.
A={1,2,6,7,10,11,ez4}
B={2,6,7,10,11,ez4}
C={3,6,7,10,11,ez4}
D={5,6,7,10,11,ez4}
E={4,6,7,10,11,ez4}
F={6,7,10,11,ez4}
G={7,10,11,ez4}
H={8,11,ez4}
I={9,11,ez4}
J={10,11,ez4}
K={ik1,ik2,ik3,ik4,ik5,ee}
L={ez2,ez7,ez6,OLUMSUZ,ARA}
M={ez3, ARA}
MA={ez5, ARA}
N={14}
O={13}
P={12}
R={OLUMSUZ,ARA}
S={11,ez4}
T={ik2,ik3,ik5,ee}
U={ik4,ik5,ee}
V={ik3,ik5,ee}
Y={ik5,ee}
Z={ik5,ik6,ee}
A1={ee8}
B1={ee9,ee10}
C1={ee11}
D1={ez6,ez7,ez8}
E1={ez7}
F1={ez8}
G1={ez9}
H1={ez10}
I1={ee}
J1={ik7,ik5,ee}
K1={ee10}
CIKIS={}
A kümesi baþlangýç kümesi iken ÇIKIÞ kümesi sonlanmayý ifade etmektedir. Eklerin
çözümlenmesi aþamasýnda tüm durumlarda sonlanma olabilmektedir. Ek katarýnýn
parçalanmasý hangi durumda biterse orada ek çözümlemesi sonlanmýþ demektir. Bu bilgiler
ýþýðýnda yazýlýmda kullanýlan geçiþ kümeleri oluþturulmuþtur.
Bul ve Deðiþtir
2.5 Bulma Ýþlevinde Karþýlaþýlan Sorunlar
Türkçe için karþýlaþýlan birçok bulma ve deðiþtirme sorunu vardýr. Bu sorunlarýn bazýlarýna ve
çözümlerine aþaðýda deðinilmiþtir.
• Bazý sözcüklerde ünlü düþmesi yaþanýr.
Örneðin:
“Ayþe oðlunu gezmeye götürdü.” tümcesinde “oðul” sözcüðü arandýðýnda mevcut bul iþlevleri
“oðlunu” sözcüðünü bulamamaktadýr. Bu nedenle ünlü düþmesi yaþayan sözcükler bir dosyada
tutularak bul denen sözcük bu dosyada var ise ünlü düþmesi yaþamýþ hâlinin de aramaya
katýlmasý saðlanmýþtýr.
• Son harfi “p, ç, t, k” sert süreksiz ünsüzü olan sözcükler ünsüz yumuþamasýna
uðradýklarýnda deðiþirler. Aramaya hem deðiþmemiþ hem de deðiþmiþ hallerinin
katýlmasý saðlanmýþtýr.
Örneðin:
“Kemal kitabýný kitaplýktan aldý.” tümcesinde “kitap” sözcüðü arandýðýnda sözcüðün
yumuþamaya uðradýðý “kitab” sözcüðü de aramaya katýlarak, hem “kitap” hem de “kitab”
aranmalýdýr. Böylece hem “kitabýný” hem de “kitaplýktan” sözcükleri yakalanarak bulunmalýdýr.
• Son harfi “p, ç, t, k” sert süreksiz ünsüzü olduðu hâlde ünsüz yumuþamasýna
uðramayan sözcükler de vardýr. Bu özelliðe sahip sözcükler bir dosyada tutularak
yumuþamaya uðratmadan olduðu gibi aranmasý saðlanmýþtýr.
Örneðin:
“aþk” sözcüðü ünsüz yumuþamasý kurallarýna göre ünlü bir harf ile baþlayan ek aldýðýnda
sondaki “k” ünsüzünün “g” ünsüzüne dönüþmesi beklenir, fakat deðiþme olmaz. Bu nedenle bu
özelliðe sahip sözcükler bir dosyada tutularak bu örnek için hem “aþk” hem de “aþg”
katarlarýnýn aramaya katýlýp verimin azalmasý engellenmiþtir.
• Bazý eylem köklü sözcüklere “yor” eki eklendiðinde eylem soylu sözcükte deðiþimler
olur. Bu deðiþimler göz önüne alýnarak bir arama yapýlmasý saðlanmýþtýr.
Örneðin:
“anla” eylem soylu sözcüðüne “yor” eki eklendiðinde “anla+yor” yerine “anlýyor” hâline dönüþ
olur. “Kenan her söyleneni anlýyor.” tümcesinde “anla” sözcüðü arandýðýnda bulunamýyor. Bu
nedenle bu þartlarý saðlayan eylem soylu sözcükler için özel bir çözümleme yapýlmýþtýr.
• “de” ve “ye” eylem soylu sözcüklerinde “ecek” eki eklendiðinde eylem soylu sözcükte
deðiþimler olur. Bu deðiþimler göz önüne alýnarak bir arama yapýlmasý saðlanmýþtýr.
Örneðin:
“de + ecek” à “diyecek”
“ye + ecek” à “yiyecek”
Þekil-2.12`de görüldüðü üzere bul iþlevinde aranan sözcük bulunmadan önce sorun yaratan
durumlarýn denetimlerinin yapýldýðý, denetimlerden geçildikten sonra bulunan sözcüðün
ardýndaki ek katarý bir çözümleyiciden geçirilerek her bir ek katarý için ek numaralarýndan
oluþan bir dizi oluþturulur.
Bulunacak sözcük
Bulunacak sözcük ses düþmesi
denetiminden geçirilir
Bulunacak sözcük ses yumuþamasý
denetiminden geçirilir
Bulunacak sözcük veya sözcük kümesi
metin içinde aranýr
Her satýrda bulunan sözcük ve eklerinin
indisleri bir diziye deðer olarak atanýr
Þekil-2.12: Bul iþlevinin adýmlarý
2.6 Deðiþtirme Ýþlevinde Karþýlaþýlan Sorunlar
Deðiþtir iþlevinde de týpký bul iþlevinde olduðu gibi dile özgü sorunlarla karþýlaþýlmaktadýr. Bu
sorunlarýn baþlýca nedenleri Türkçenin sondan eklemeli bir dil olmasýndan ve eklerinin neyin
ardýna eklendiðine göre deðiþmesinden kaynaklanmaktadýr.
Bul ve Deðiþtir
Örneðin:
“Özkan aldýðý kitaplarýndan bazýlarýný yenileriyle deðiþtirdi.” tümcesinde “kitap” sözcüðü
bulunup yerine “defter” sözcüðü konulmaya çalýþýldýðýnda tümce “Özkan aldýðý defterlarýndan
bazýlarýný yenileriyle deðiþtirdi.” hâlini almaktadýr. “defterlarýndan” sözcüðü Türkçede anlamlý
bir sözcük deðildir. Bunun yerine “defterlerinden” sözcüðü olmalýdýr. Bu ve benzeri sorunlarý
çözebilmek için yazýlýmda çözümler üretilmiþtir. Deðiþtir iþlevinde karþýlaþýlan sorunlar ve
çözümleri þöyledir. Türkçede sözcükler ve ekleri arasýnda nasýl bir iliþki olduðu tanýmlanmýþ ve
buna göre eklerin yapýlandýrýlmasý saðlanmýþtýr.
Örneðin:
“kedilerimizden” sözcüðünde “kedi” sözcüðü yerine “tavþan” deðiþikliði yapýlmaya
çalýþýldýðýnda “kedi” sözcüðünün ardýnda hangi ekler olduðuna bakýlarak “ler” çoðul, “imiz”
1.çoðul iyelik ve “den” ayrýlma durum eki çözümlemesi yapýlmasý saðlanmýþtýr. Bu
çözümlemenin ardýndan “tavþan” sözcüðüne ilgili ekler “tavþan” sözcüðünün sahip olduðu ses
özelliklerine göre eklenmiþ ve “tavþanlarýmýzdan” son sözcüðünün yapýlandýrýlmasý
saðlanmýþtýr.
• Eðer Bul iþlevinde deðinilen ünlü düþmesi olan sözcüklerden biri bulunmuþ sözcüðün
yerine konacak sözcük olarak seçildiyse olasý deðiþiklikler göz önüne alýnarak deðiþtir
iþlevinin yapýlmasý saðlanmýþtýr.
Örneðin:
“Ahmet Bey kýzýnýn okuluna hiç gitmedi.” tümcesinde “kýz” yerine “oðul” deðiþikliði yapýlmaya
çalýþýldýðýnda, “oðul” sözcüðünün ses düþmesi yaþayan sözcüler dosyasýnda olduðu ve ne
durumlarda ses düþmesi yaþadýðý bilgileri ýþýðýnda deðiþiklik yapýlarak tümcenin “Ahmet Bey
oðlunun okuluna hiç gitmedi.” halini almasý saðlanmýþtýr.
• Son harfi “p, ç, t, k” ünsüzlerinden biri olan sözcük bulunan sözcük yerine konacak
sözcük olarak seçildiyse ardýna eklenen eklerin bazý özelliklerine göre bu sözcüklerde
oluþabilecek deðiþiklikler göz önüne alýnarak çözümleme yapýlmasý saðlanmýþtýr.
Örneðin:
“Özge defterini Selimìn defteriyle karýþtýrýnca olanlar oldu.” Tümcesinde “defter” yerine
“kitap” konulmaya çalýþýldýðýnda “kitap” sözcüðünün son harfinin “p, ç, t, k” harflerinden biri
olmasý ve ek alýrken aldýðý ekin ünlü ile baþlamasý nedeniyle sözcüðün son ünsüzü yumuþamaya
uðrar. Bu nedenle tümcenin “Özge kitabýný Selimìn kitabýyla karýþtýrýnca olanlar oldu.” hâlini
almasý saðlanmýþtýr.
Þekil-2.13`te görüldüðü üzere bulunacak sözcüðün ardýndaki ek katarlarý çözümlendikten sonra
yerine konacak sözcüðün ardýna ek yapýlandýrýlmasý akýþ þemasýndaki adýmlarý takip ederek
yapýlmaktadýr.
Hem deðiþtir hem de bul iþlevlerinin nasýl çalýþtýðý Þekil-2.12 ve Þekil-2.13`te görülmektedir.
Bulma iþlevinin ardýndan ek katarýnýn çözümlenmesi ve ek dizisinin oluþturulmasý da önemli bir
adýmdýr. Bu adýmýn akýþ þemasý da Þekil-2.14`te verilmiþtir.
Þekil-2.14`teki akýþ þemasýnýn oluþturduðu ek dizileri kullanýlarak yerine konacak sözcüðün ek
Yerine konacak sözcük ve ek indisleri dizisi
H
Ek indisleri dizisinde
sýrada eleman var mý?
E
Sonlandýrma
H
Ek indisleri dizisinde
sýradaki eleman boþ mu?
E
Yerine konacak sözcüðü sýradaki ek
indisleri dizisi elemaný ile
ek yapýlandýrmaya gönder
Ek indisleri dizisinde bir adým ilerle
Þekil-2.13: Deðiþtir iþlevinin adýmlarý
kýsýmlarý yapýlandýrýlýr. Bu yapýlandýrmanýn adýmlarý da Þekil-2.15'de gösterilmiþtir.
Giriþ Metni
Osmanlý devleti nedensiz bir þekilde Osman beyin ölümü ile osmanlýlaþma yolunda
osmanlýsýzlaþtýrýlmaya çalýþýlmaktadýr. Osman beyin yerine osmancýk aðasý
getirilecektir. Ve osmanlýlaþtýramadýklarýmýzdan olma durumu ortaya çýkacaktýr.
“osman” sözcüðü yerine “sipahi” sözcüðü konulmak istendiðinde aþaðýdaki çýkýþ metni elde
edilmektedir..
Bul ve Deðiþtir
Bir sonraki durum << Baþlangýç durumu
Eski durum << Baþlangýç durumu
H
E
Ek katarý var mý?
Baþarýlý sonlandýrma
E
Bu ek ile gidilen kurallý
bir durum var mý?
Eski durum, þu anki durum yapýlýr.
Þu anki durum, bu ek ile gidilen
durum yapýlýr
H
Þu anki durum, eski durum yapýlýr
Çözüm dizisinden son eleman çýkarýlýr
ve alternatif geçiþlere bakýlabilmesi
için bu elamanýn sonraki adýmda
çözüm dizisine eklenmesi engellenir.
Ek’in numarasý çözüm dizisine eklenir
Ek katarýnýn baþýna, çýkarýlan ek
eklenir
Ek katarýnýn baþýndan bu numaralý ek
kýsmý çýkarýlýr
Þekil-2.14: Ek dizisi aramanýn akýþý
Çýkýþ Metni
Sipahili devleti nedensiz bir þekilde Sipahi beyin ölümü ile sipahilileþme yolunda
sipahilisizleþtirilmeye çalýþýlmaktadýr. Sipahi beyin yerine sipahicik aðasý
getirilecektir. Ve sipahilileþtiremediklerimizden olma durumu ortaya çýkacaktýr.
Programý daha büyük dosyalarda da çalýþtýrarak baþarým saðlanmýþtýr. Bunun sonucunda
dosyanýn büyüklüðünün programýn çalýþmasýnda yavaþlamaya neden olmadýðý görülmüþtür.
Metnin içerisine bulunacak olan sözcüðün hem çözümlenebilen hem de çözümlenemeyen
þekilleri de konarak programýn nasýl bir sonuç vereceði sýnanmýþtýr. Çözümleyicide
Yeni sözcük ve ek dizisi
Ýþlenen sözcük << Yeni sözcük
Ýþlenen dizi << ek dizisi
E
Ýþlenen dizisi boþ mu?
Ek yapýlandýrmasý
bitti sonlandýrmasý
H
Ýþlenen sözcüðe, iþlenen dizinin ilk
elemaný ek olarak alýnýr
Ýþlenen sözcük << iþlenen sözcük + Ek
Ýþlenen dizi << Ýþlenen dizinin ilk elemaný çýkarýlarak oluþan dizi
Þekil-2.15: Ek yapýlandýrma iþlevi akýþ þemasý
çözümlenebilen ekleri olan tüm bulunmuþ sözcükler çözümlenerek yerine konacak sözcüðün
ardýna yapýlandýrýlmýþtýr ve baþarýlý bir þekilde kural tabanlý bul ve deðiþtir saðlanmýþtýr.
Kaynakça
[1] Delibaþ, A., 2008. Doðal Dil Ýþleme Ýle Türkçe Yazým Hatalarýnýn Denetlenmesi, Yüksek
Lisans Tezi, Ý.T.Ü. Fen Bilimleri Enstitüsü,Ýstanbul.
[2] Eryiðit, G., 2002. Sözlüksüz Köke Ulaþma Yöntemi, Yüksek Lisans Tezi, Ý.T.Ü. Fen
Bilimleri Enstitüsü, Ýstanbul.
[3] Bilgin, O., Çetinoðlu Ö., Oflazer K., 2005. Efficient Find and Replace in Agglutinative
Languages: The Case of Turkish, 1 Mayýs 2008 tarihinde
http://www.hlst.sabanciuniv.edu/archive/patras.pdf kaynaðýndan alýnmýþtýr.
[4] Oflazer K., 1994. Two-level Description of Turkish Morphology, Literary and Linguistic
Computing, Vol.9, Number 2.
3. Bilgisayarlý Çeviri
Doðal dil iþlemenin en ilgi çekici alanlarýndan biri diller arasý çeviridir. Diller arasý çeviri
denildiðinde insanýn aklýna farklý dillerde konuþan iki insanýn arada çevirmen olmadan birbirini
anlayabileceði çözümler gelmektedir. Daha açýk bir anlatýmla bir Türk Türkçe konuþacak
karþýsýndaki Japon bu konuþmayý Japonca dinleyecektir. Japon'un konuþmasýný da Türk Türkçe
olarak dinleyecektir. Ýnsanlarýn ve araþtýrmacýlarýn düþleri bu yönde olmakla beraber
günümüzdeki biliþim olanaklarý bu kadar yetenekli çeviri dizgelerini saðlayamamaktadýr.
Ancak, belli alanlarda çalýþan örnekler üretilmeye baþlanmýþtýr. Örneðin, askerî emirleri, hava
raporlarýný çevirebilen dizgeler üretilmeye baþlanmýþtýr.
Günümüzde bilgisayar desteðiyle yapýlan çeviriler en basit olandan en karmaþýk olana doðru
sýralanabilir: Sözcük çevirisi, tümcecik çevirisi, tümce çevirisi. Gerçekleþtirilen, metinden
metne çeviri dizgelerinin bazýlarý insan gözetimi gerektirirken bazýlarý insan yardýmý olmaksýzýn
çeviri yapabilmektedir.
Bir dilden diðer bir dile çeviri yapan kiþinin, iki dili iyi þekilde bilmesi yetmemekte çeviri
yaptýðý metnin konusu hakkýnda da bilgi sahibi olmasý gerekmektedir. Söz gelimi týp
konusundaki bir kitabý çevirecek kiþinin týp konusunda uzman olmasýnýn gerekeceði açýktýr.
Bilgisayar yardýmýyla yapýlan çevirilerde de benzer bir güçlüðün olacaðý kolayca söylenebilir.
Dünyada konuþulan diller belli dil ailelerinin üyeleridir. Ayný dil ailesinin üyesi olan iki dil
arasýnda çeviri yapmak doðal olarak farklý iki dil ailesinin üyesi olan iki dil arasýnda çeviri
yapmaya göre daha kolaydýr. Bilgisayarlý çeviri dizgeleri gerçekleþtirilirken kullanýlabilecek
yöntemler, dillerin ayný dil ailesinden olup olmadýðýna göre deðiþmektedir.
Bilgisayarlý çeviri amacýyla kullanýlan yöntemler, kural temelli ve istatistiksel temelli olmak
üzere genel iki kümeye ayrýlabilir. Bu iki kuralýn birlikte kullanýldýðý örnekler de
bulunmaktadýr. Kural temelli çeviri yöntemleri, yabancý dil eðitiminde izlenen yöntemlere
benzer. Öncelik her iki dilin dil bilgisi kurallarýný bilgisayara öðretmektir. Buna ek olarak çeviri
sözlüðü bilgisayara yüklenir. Ýstatistiksel temelli çeviri çevirmenler tarafýndan yapýlmýþ olan
çeviri metinler içinde, çevirisi yapýlmak istenen tümce veyaa tümceciðe en yakýn olan karþýlýðý
bulmaya dayanýr.
Bilgisayar kullanarak yapýlan çevirilerin baþarýmlarýný karþýlaþtýrabilmek için çeviri
dizgesinden beklentilerin tanýmlanmýþ olmasý gerekir. Bir bilgisayarlý çeviri dizgesi aþaðýdaki
özellikleri saðlamalýdýr:
• Ýnsan desteksiz : Çeviri dizgesi insan katký ve desteði olmadan çalýþabilmelidir.
• Kaliteli : Çeviri dizgesinin ürettiði sonuçlar aslýna uygun ve anlaþýlýr olmalýdýr.
• Konu baðýmsýz : Çeviri dizgesi her türlü konuyu içeren metinleri çevirebilmelidir.
3.1 Dillerin Benzerlikleri ve Farklýlýklarý
Dünyada 4000 dolayýnda dilin konuþulduðu bilinmektedir. Ancak bu dillerden bazýlarý yaygýn
olarak ve çok kiþi tarafýndan konuþulurken bazýlarý çok dar alanda, binden az kiþi tarafýndan
konuþulmaktadýr. UNESCO kaynaklarýna göre, diller þöyle sýralanmaktadýr:
Konuþan sayýsýna göre:
• Çince
• Ýngilizce
• Ýspanyolca
• Hintçe
• Turkçe
• Arapça
• Portekizce
• Bengalce
• Rusça
• Japonca
• Almanca
• Fransýzca
Yine ayný kaynak, dillerin dünya üzerindeki yayýlýþýný Þekil-3.1'deki gibi vermektedir.
Yeni bir dili öðrenmeye çalýþanlarýn ilk yaptýklarý sözcüklerin karþýlýðýný ezberlemektir.
Ardýndan, öðrenmeye çalýþtýklarý dilde tümce kurabilmektir. Bazý dillerde sözcükler yalýn hâlde
bulunmasýna karþýn bazýlarýnda sözcükler ekler alarak anlamlarýný deðiþtirmektedir. Tümce
içinde, sözcüklerin niteliklerine göre diziliþi de dilden dile benzerlik ve farklýlýk
göstermektedir. Bu açýklamalara baðlý olarak diller arasýndaki benzerlikler ve farklýlýklarýn
aþaðýda sýralanan özellikler baðlamýnda incelenmesi gerektiði sonucuna varýlýr:
•
•
•
•
•
•
•
Biçim bilimsel
Söz dizimsel
Dilimleme
Anlatým biçimi
Sözlüksel
Olay ve tartýþma
Yapýsal
Bilgisayarlý Çeviri
Þekil-3.1: Dünyada dillerin yaygýnlýk haritasý (Kaynak UNESCO)
• Konusal
3.1.1 Biçim Bilimsel Benzerlik ve Farklýlýklar
Dünyada yaygýn olarak kullanýlan diller ana hatlarý ile þöyle kümelenmektedir:Tek heceli
• Tek heceli diller
• Bitiþken diller
• Bükümlü diller
• Kaynaþtýran diller
Tek heceli dillerde sözcükler tek hecelidir ve sözcükler ek almazlar. Sözcükler tümce içinde
vurguya baðlý olarak anlam kazanýrlar. Çince, Vietnamca, Himalaya dili bu küme içinde yer
alýr.
Bitiþken dillerde sözcüðün temeli kök sözcüktür. Kök sözcüðe yapým ekleri kurallý biçimde
eklenerek yeni sözcükler oluþturulur. Kök sözcüðe eklenebilecek eklerin sayýsýnda bir sýnýrlama
yoktur. Bu nedenle bir kök sözcükten çok sayýda sözcük üretilebilir. Bitiþken dil kümesi içinde
Türkçe, Macarca, Fince, Moðolca, Japonca gibi diller yer almaktadýr.
Hint-Avrupa ve Sami dilleri, bükümlü dil kümesine girmektedir. Bükümlü dillerde gövde
sözcük ön ve son ek alarak yeni anlam kazanýr. Bir gövdeye eklenen ön ek ve son ek sayýsý
genelde biri aþmaz. Dolayýsýyla ekler, gövde sözcüðe kýsýtlý katký saðlarlar.
Kaynaþtýran dillerde, eylem tümcenin diðer ögeleri ile kaynaþmaktadýr. Dolayýsýyla eylem
tümcenin tamamý olabilmektedir. Amerika yerlilerinin dilleri bu küme içinde sayýlmaktadýr.
Yalýnlayan dillere en güzel örnek Vietnamcadýr. Bu dilde sözcükler ek almazlar. Dolayýsýyla her
sözcük tekil olarak yorumlanabilir. Tek heceli bir dilde yazýlmýþ tümcenin karþýlýðý, bükümlü
bir dilde kolayca gösterilebilir. Þekil-3.2'de Vietnemca dilinde yazýlmýþ bir tümcenin Ýngilizce
karþýlýðý verilmiþtir.
Khi
toi
den
nha
ban
When
I
come house friend
toi chung
I
“çoðul”
toi
I
bat dau lam
begin
do
bai
lesson
Þekil-3.2: Vietnamca dilince yazýlmýþ bir tümcenin Ýngilizce karþýlýðý
Vietnamca yazýlmýþ olan bu tümcenin Türkçe karþýlýðý þöyledir: Arkadaþýmýn evine geldiðimde
ders çalýþmaya baþladýk.
Bitiþken diller ek açýsýndan en zengin dillerdir. Ek açýsýndan zengin olan kaynak dildeki bir
sözcüðü, ek bakýmýndan fakir olan hedef dile çevirirken tek bir sözcük karþýlýk getirilemez.
Örneðin bitiþken bir dil olan Türkçede "göz" sözcüðünün alacaðý ekler ile türetilmiþ sözcüklerin
Ýngilizcedeki karþýlýklarýndan bazýlarý Çizelge-3.1'de verilmiþtir: Çizelge-3.1'den de görüldüðü
gibi, Türkçe sadece sondan eklemeli bir dildir. Osmanlýca diyebileceðimiz eski Türkçede ön
eklerin de kullanýldýðý bilinmektedir. Örneðin "mevcut", "namevcut" gibi.
Çizelge-3.1: Türkçe ile Ýngilizcenin Biçim Bilimsel Açýdan Karþýlaþtýrýlmasý
Türkçe (tekil)
Türkçe (çoðul)
Ýngilizce (tekil)
Göz
Gözler
Eye
Gözlük
Gözlükler
Eyeglasses
Gözlükçü
Gözlükçüler
Optician
Gözlükçülük
Gözlükçülükler
Opticians
Gözcü
Gözcüler
Watchman
Gözcülük
Gözcülükler
ophthalmology
Gözlem
Gözlemler
Observation
Gözleme
Gözlemeler
Observing
Gözlemci
Gözlemciler
observer
Gözlemcilik
Gözlemcilikler
Observation
Gözde
Gözdeler
favourite
3.1.2 Söz Dizimsel Benzerlikler ve Farklýlýklar
Toplumsal geliþmeye koþut olarak geliþtiði düþünülen dillerin tümce yapýlarý birbirinden
farklýdýr. Bu fark, doðal olarak farklý dil aileleri için daha açýktýr. Tümce yapýlarýndaki farklýlýk
ve benzerlikleri göstermek üzere ayný tümcenin, Türkçe, Japonca, Fince, Macarca, Ýngilizce ve
Fransýzca karþýlýklarý Þekil-3.3 ve Þekil-3.4'te gösterilmiþtir.
Þekil-3.3'e baktýðýmýzda þu yorumu yapabiliriz. Türkçe tümce yapýsýna en yakýn olan dil
Japonca olarak görülmektedir. Ayný þekil bize Fince ve Macarcanýn tümce yapýlarýnýn birbirine
benzediðini söylemektedir. Þekil-3.4'e baktýðýmýzda Ýngilizce bir tümcenin yapýsý Fransýzca
tümcenin yapýsýyla bire bir aynýdýr.
Japonca
O
kalemini
tek
silahý
olarak
Kereha pendakewo
görür
O
Macarca
O
ugy
karenojuu tosite
kalemini tek
silahý
olarak
miru
görür
FÝnce
tekinti
O olarak görür
a tollat
kalemini
mint
gibi
sajat
kendi
fegyver
silah
Han
pitaa
O
görür
kynaansa
ainoana
kalemini olarak tek
aseenaan
silahý
Þekil-3.3: Türkçe, Japonca, Macarca ve Fince tümce yapýlarý
Tümce kuruluþlarýnda benzerlik olan diller arasýndaki çeviri doðal olarak benzerliði az olan
dillere oranla daha kolay olacaktýr.
Ýngilizce
He
O
regards
görür
his pen as his
kalemini olarak
only
tek
arm
silahý
Fransýzca
Il considere son crayon
He regards
O görür
his pen
kalemini
comme
sa
as
olarak
his only arm
tek silahý
seul arme
Þekil-3.4: Ýngilizce ve Fransýzca tümce yapýsý
Altay dil ailesi içinde yer alan
Türkçenin,
zaman
içinde
deðiþikliklere
uðramasý doðal
karþýlanmalýdýr. Bugün Türkiye'de
konuþulan Türkçe ile Asya'nýn orta
kýsmýnda
yaþayan
Uygurlarýn
konuþtuðu Türkçe çok farklý
görülebilir. Özellikle sözcüklerin
zaman içinde deðiþtikleri veya ayný
sözcüklerin söyleniþ biçimlerinin
epey farklý olduðu bilinmektedir.
Ancak bu dillerin tümce yapýlarý
birbirine çok yakýndýr. Yaklaþýk bin
yýldýr birbirinden uzak yaþayan topluluklarýn dillerinde bu kadar deðiþikliklerin olmasý olaðan
karþýlanmalýdýr. Türk dillerinin birbirine benzerlikleri coðrafi konumlarýna çok baðlýdýr.
Öðneðin, Azerbaycan ve Ýranda yaþayan Azarilerin ve Irakta yaþayan Türkmenlerin konuþtuðu
dil Türkiye'de konuþulan Türkçeye çok yakýndýr. Bu yüzden farklý dil olarak nitelemek yerine
farklý lehçe olarak nitelemek daha doðru olur.
Türk dilleri ailesi içinde, Azeri, Uygur, Horasan, Tatar, Kazak, Özbek, Kýrgýz, Türkmen,
Gökoðuz (Gagavuz) ve Kýrgýz dilleri bulunmaktadýr.
Türkçeye yakýn olan diller içinde Moðolca, Korece ve Japonca sayýlabilir. Tümce yapýlarý
açýsýndan benzerlik ve farklýlýklar Þekil-3.5'teki gibi gösterilebilir:
Tümce yapýsý birbirine benzer
olan dillerde, bir tümcenin
çevirisi yapýlýrken sözcüklerin
tümce içindeki sýrasý büyük
ölçüde ayný tutulabilir; kaynak
dildeki sözcüðün yerine hedef
dildeki karþýlýðý yerleþtirilir.
Örneðin "ben kitap okuyorum"
tümcesini sýrasýyla Ýngilizce,
Fransýzca, Almanca, Ýspanyolca
ve Ýtalya yazdýðýmýzda sözünü
ettiðimiz benzerliði kolayca
görebiliriz. Þekil-3.6
Özne
Tümleç
Yüklem
Bitiþken diller
Özne
Yüklem
Tümleç
Bükümlü diller
Yüklem
Özne
Tümleç
Arapça
Þekil-3.5: Deðiþik dillerde tümce yapýsý
Bu örneklere dikkatli bakýldýðýnda bazý sözcüklerin birebir ayný veya benzer olduðu da
söylenebilir. Örneðin "book-buch, livre-libro" gibi. Ayný tümceyi Türkçe yazdýðýmýzda
sözcüklerin diziliþinin çok farklý
olduðunu görürüz.
I am
reading a book
Je lis un
Ich
Estoy
Sto
1.3 Dilimleme
livre
lese ein Buch
leyendo
leggendo
un libro
un libro
Þekil-3.6: Ayný tümcenin, Ýngilizce, Fransýzca, Almanca,
Ýspanyolca ve Ýtalyanca'daki karþýlýklarý
Bazý dillerde yazýlmýþ metinlere
baktýðýmýzda, her bir sözcüðü ve
tümceyi kesin biçimde ayýrt
edebiliriz. Buna karþýn bazý dillerde
sözcükleri birbirinden ayýrt etmek
çok zordur. Çin, Japon, Tayland
dillerinde
sözcüklerin
nerede
baþlayýp nerede bittiðini anlamak,
dolayýsýyla sözcükleri ayýrt etmek
zordur.
Bazý dillerde tümceler çok uzun kurulmaktadýr. Bir tümcenin beþ on satýr tuttuðu, bir paragraf
kadar uzun olduðu görülmektedir. Arap metinleri bu özelliktedir. Benzer duruma XIX. yüzyýl
Osmanlý metinlerinde de rastlanmaktadýr. O devirde uzun tümce kurmak bir hüner olarak
görülmüþtür.
Uzun tümcelerin taþýdýðý anlamý ortaya çýkarmak için önce tümceyi dilimlemek ve her bir dilimi
ayrý çevirmek gerekir. Benzer durum sözcükler için de geçerlidir. Bitiþik sözcükleri önce
sözcük dilimlerine ayýrmak ve dilimlenmiþ sözcüklerin hedef çeviri dilindeki karþýlýklarýný
bulmak gerekir.
Hint-Avrupa dillerinde ana ve yardýmcý tümce kesin hatlarla ayrýlabilmesine karþýn Türkçede
böyle dilimlemenin yapýlacaðý yeri bulmak kolay deðildir. Aþaðýdaki tümceler bu durumu
açýklayacak niteliktedir:
"Kitabý okuyan adam babamdýr."
"The man who is reading the book is my father."
Ýngilizce tümce þöyle iki parçaya ayrýlabilir:
"The man ..................................... is my father."
"The man is reading the book."
Ayný anlamdaki Türkçe tümceye baktýðýmýzda, dilimlemenin bu kadar kesin yapýlamayacaðý
görülmektedir.
"Kitabý okuyan adam babamdýr."
"....................... adam babamdýr."
"Kitabý okuyan adam.................."
3.1.3 Anlatým Biçimi
Ýnsanlar, istek niyet ve amaçlarýný karþýsýndakine anlatabilmek için konuþur veya yazar.
Karþýmýzdakine isteðimizi tam, eksiksiz ve kesin biçimde aktarmak için seçtiðimiz sözcüklerin
anlaþýlýr ve kurduðumuz tümcelerin düzgün ve anlaþýlýr olmasý beklenir.
Bazý dillerde tümce yapýsý ve seçilen sözcükler yukarýda açýkladýðýmýz düþünceye uygun
düþerken bazý dillerde dolaylý anlatým yeðlenir. Türkçe, Ýngilizce gibi dillerde sözcükler ve
tümce kuruluþu istek, niyet ve amacý doðrudan ve açýk biçimde karþý tarafa iletecek biçimde
gerçekleþtirilir. Buna karþýn Çince ve Japoncada üstü kapalý, yakýþtýrmaya dayalý anlatým
yöntemi yeðlenir.
Çeviri sýrasýnda, sözcüklerin ve tümcelerin gerçek anlamlarýný çýkarmak önemlidir. Dolayýsýyla
çevirisi yapýlan dilin anlatým biçimini bilmek önemlidir.
3.1.4 Sözlüksel Benzerlikler ve Farklýlýklar
Kaynak dildeki bir sözcüðün karþýlýðýný diðer bir dilde her zaman bulamayabiliriz. Ayný duygu
ve istek farklý dillerde farklý biçimde anlatýlabilir. Sözlüksel benzerlik ve farklýlýklar aþaðýda
sýralanan bakýþ açýlarýndan ortaya konacaktýr:
• Eksiklik
• Bire bir karþýlýk
• Tek karþýlýk olmamasý
• Nitelik deðiþmesi
• Cinsiyetli sözcükler
• Anlamsal zenginlikler
Eksiklik
Toplumlarýn ilgi alanlarý kültürel özellikleri dillerinin söz varlýðýnýn oluþmasýnda
etkindir. Çiftçi bir toplumda çiftçilikle ilgili terimlerin zenginleþmesi doðaldýr.
Denizcilik ile ilgili olan bir toplumda, denizcilik terimlerinin sayýsý, denizi olmayan
bir toplumun dilindekine oranla çok olacaktýr. Bu tür özellikler kaynak dildeki bir
sözcüðün, çeviri yapýlacak hedef dilde karþýlýðýnýn bulunamayabileceði sonucunu
doðurur.
Türkçede akrabalýk terimleri oldukça zengin sayýlabilir. Örneðin amca, dayý, hala,
teyze, yeðen, eniþte, görümce, elti, yenge, bacanak vb. Ýngilizce ve Fransýzcada örnek
olarak verdiðimiz sözcüklerin karþýlýðýný bulamayýz. Bu dillerde hala ile teyze ve dayý
ile amca için kullanýlan sözcük aynýdýr. Eniþte ve bacanak sözcüklerinin karþýlýðý ise
yoktur.
Çevirinin yapýlacaðý hedef dilde, kaynak dildeki sözcüðün karþýlýðý yok ise bu sözcük
birçok sözcük veya bir tümce ile anlatýlmaya çalýþýlýr.
Bire Bir Karþýlýk
Kaynak ve hedef dilde ayný anlamý veren sözcükler olabilir. Ancak, bir dilde tek
sözcükle anlatýlan bir taným diðer dilde iki hatta üç sözcük kümesiyle anlatýlýyor
olabilir.
Karpuz (Tr)
- Water melon (Ýng)
Baþ parmak (Tr) - Thumb (Ýng)
Tek Karþýlýk Olmamasý
Bir dilde bir sözcüðün deðiþik anlamlarda kullanýlmasýna kaþýn diðer bir dilde her
deðiþik anlam için bir sözcük olabilir.
Söz gelimi Türkçede ayak sözcüðü, insan ayaðý, hayvan ayaðý, masa ayaðý, yarýþ ayaðý
anlamlarýnda kullanýlmaktadýr. Kavram belirsizliðine neden olacaðý düþünülse bile
kullanýldýðý yere göre anlamý belirlidir. Örneðin, "ayaðým aðrýyor" dediðimizde insan
ayaðýný; "yedinci ayaðý Nilüfer kazandý" dediðimizde at yarýþýnýnýn sonucu hakkýnda
konuþtuðumuz kolayca anlaþýlýr.
Türkçede farklý anlamlarda kullanýlan ayak sözcüðü için Fransýzcada deðiþik
karþýlýklar bulunmaktadýr. Örneðin, jambe (insan ayaðý), patte (hayvan ayaðý) pied
(masa ayaðý), etape (yarýþ ayaðý).
Nitelik Deðiþmesi
Sözcüklerin kullanýþ biçimleri dilden dile deðiþebilmektedir. Bir dilde eylem ile
anlatýlan bir durum bir baþka dilde isim veya sýfat ile anlatýlmaktadýr. Örneðin;
Açým (eylem) (Tr) - I am hungry (sýfat) (Ýng)
Men grosne hesten (Ben aç olmak) (sýfat) (Farsça)
Aç olma hâli Türkçe ve Ýngilizcede eylem ile anlatýlýrken Ýtalyancada isim ile
anlatýlmaktadýr.
Cinsiyetli Sözcükler
Almanca, Fransýzca, Arapça gibi dillerde adlar cinsiyet bilgisini de içermektedir.
Ýngilizcede sadece üçüncü tekil þahýs zamiri cinsiyet bilgisi içerir. Türkçe sözcüklerde
(Arapçadan alýnmýþ rahip, rahibe gibi sözcükler hariç) cinsiyet bilgisi yoktur. Çeviri
yapýlacak hedef dil Türkçe gibi cinsiyet bilgisi içermiyor ise sözcüðün veya zamirin
baþýna cinsiyet bilgisinin eklenmesi gerekir. Örneðin:
Katibe (Arb)
- Bayan yazman
She is going
- O (bayan) gidiyor
Anlamsal Zenginlikler
Türkçede abla, abi, kardeþ sözcükleri kiþinin kardeþinin cinsiyeti ve yaþý hakkýnda
bilgi içerirken bunlarýn karþýlýklarý Ýngilizcede bulunmaz.
Türkçede el baþparmaðý ve ayak baþparmaðý olarak tanýmladýðýmýz parmaklar için
Ýngilizcede iki ayrý sözcük bulunmaktadýr.
3.1.5 Eylem Ýþlevindeki Farklýlýklar
Anlatým biçimi, özellikle eylemlerin neden olduðu olaylar açýsýndan deðerlendirdiðimizde
dilleri iki sýnýfa ayýrabiliriz:
Yönü Belirli Eylemler
Bazý eylemler, eylemin yönünü açýkça belirler. Dolayýsýyla ayrýca yön belirtmeye
gerek yoktur. Örneðin Türkçede "ödemek" eylemi borç olarak alýnmýþ veya kabul
edilmiþ bir görevin yerine getirilmesi; karþýlýðýnýn verilmesi anlamýný taþýr.
Dolayýsýyla "insan aldýðý borcu öder". Bazýlarýnýn söylediði gibi "geri borç ödemesi"
gibi anlatýmlara gerek yoktur ayrýca yanlýþtýr.
Benzer biçimde "inmek" eylemi, bu eylemin aþaðýya doðru yapýldýðý, "týrmanmak"
eylemi, bu eylemin yukarý doðru yapýldýðý bilgisini içermektedir.
Yön Eki Gerektiren Eylemler
Bazý eylemlere yön belirleyen bir ek eklenir. Ýngilizcede bu tür eylemlerin sayýsý çok
sayýlacak kadar fazladýr. Bu tür eylemlerin bir yön belirtici ile birlikte kullanýlmalarý
gerekir. Örneðin "I will pay back" (borcumu ödeyeceðim), "I jump down" (atladým)
gibi.
3.2 Bilgisayarla Çeviri Yöntemleri
Bir dilde yazýlmýþ olan bir metni veya konuþmayý, diðer dilde yazýlý bir metne veya konuþmaya
çevirme iþleminde bilgisayar kullanýlýyor ise bu eyleme "Bilgisayarla Çeviri- BÇ" adý
verilmektedir. Bu tanýmdan da anlaþýlacaðý gibi diller arasý çeviri eyleminde bilgisayar
desteðinden yararlanýlmasý en genel baðlamda BÇ olarak deðerlendirilmektedir. Bilgisayarla
gerçekleþtirilecek çeviriler þu özelliklere sahip olmalýdýr:
• Çeviriler insan desteði ve katkýsý olmadan gerçekleþebilmelidir.
• Hedef dildeki çeviri doðru anlaþýlabilecek nitelikte olmalýdýr.
• Çeviri yazýlýmý, çeviri iþlemini konudan baðýmsýz yapabilmelidir.
Bilgisayarlý çeviri sürecinde kullanýlan;
• Kural tabanlý
• Ýstatistiksel ve
• Örnek tabanlý
yöntemler aþaðýda açýklanmýþtýr:
3.2.1
Kural Tabanlý Çeviri Yöntemleri
Kural tabanlý çeviri yöntemlerinde, kaynak tümcesinin çeþitli bilgi seviyelerinde gösterimlerini
oluþturduktan sonra bu bilgi seviyesinde aktarým yapýlmasýný öngören bir dizi yöntem kullanýr.
Bu yöntemleri görselleþtirmek için Vauquois Üçgeni yaygýn olarak kullanýlýr, Þekil-3.7.
Dilden baðýmsýz
Anlamsal Yapý
Baðlamsal
Çözümleme
Baðlamsal
Üretim
Bilgi tabanlý aktarým
Anlamsal Yapý
Anlamsal Aktarým
Anlamsal
Çözümleme
Sözdizimsel Yapý
Anlamsal Yapý
Anlamsal
Üretim
Sözdizimsel Aktarým
Sözdizimsel
Çözümleme
Sözdizimsel Yapý
Sözdizimsel
Üretim
Sözcükler
Doðrudan aktarým
Biçimbilimsel
Çözümleme
Kaynak dilde metin
Sözcükler
Biçimbilimsel
Üretim
Hedef dilde metin
Þekil-3.7:: Bilgi tabanlý yöntemlerin sýnýflandýrýlmasý-Vauqouis Üçgeni
3.2.1.1 Doðrudan Aktarým
En temel çeviri türü, kaynak dildeki sözcüklerin karþýlýklarýnýn bulunarak hedef dile
çevrilmesidir. Ancak bu basit yöntemde bile birçok sorunla karþýlaþýlmaktadýr. Bunlarýn en
önemlisi çevrilecek sözcüðün bire bir karþýlýðýnýn bulunmadýðý durumlardýr. Bu sorunlara
sözlüksel belirsizlik denilmektedir. Önceki kýsýmda bu konu ayrýntýlý biçimde açýklanmýþtýr.
Her ne kadar doðrudan aktarým yönteminde tümce üzerinde çözümleme yapýlmasý gerekmese de
birçok uygulamada biçim bilimsel çözümleme de yapýlmaktadýr.
3.2.1.2 Söz Dizimsel Gösterimin Aktarýmý
Bilgisayarlý çeviri yöntemleri arasýnda diðer bir yöntem de söz dizimsel temelde çeviri
yapmaktýr. Buna göre kaynak dildeki sözcük öncelikle söz dizimsel olarak ayrýþtýrýlýr ve elde
edilen aðaç yapýsý, hedef dilde ayný anlamý taþýyan aðaç yapýsýna çevrilmeye çalýþýlýr Þekil-3.8.
Söz dizimsel yapýnýn aktarýlmasýndan sonraki süreç ise sözcüklerin aktarýlmasýdýr. Týpký
doðrudan aktarým yönteminde olduðu gibi bu aþamada da her iki dilde sözcükleri içeren bir
Kaynak dilde
sezgisel aðaç
Hedef dilde
sezgisel aðaç
Aktarým
Ayrýþtýrma
Oluþturma
Kaynak dilde tümce
Hedef dilde tümce
Þekil-3.8: Sözdizimsel gösterimin aktarýmý
aktarým sözlüðü kullanýlýr. Bazý sistemlerde bu aþamada ortaya çýkan sözcüksel belirsizliklerin
giderilmesi için kaynak tümce çözümlemeleri sýrasýnda anlamsal belirsizlik giderici yöntemler
uygulanmaktadýr.
3.2.1.3 Anlamsal Gösterimin Aktarýmý
Anlamsal çeviri, önce kaynak dildeki tümcenin söz dizimsel ayrýþtýrmasý yapýldýktan sonra
ayrýþtýrýlan yapýlara anlamsal görevlerin yüklenmesi ve aktarýmýn bu görevlere göre yapýlmasý
temeline dayanmaktadýr. Yöntem söz dizimsel çeviride karþýlaþýlan yapý uyuþmazlýklarýnýn
bazýlarýný çözebilmektedir.
3.2.1.4 Dilden Baðýmsýz Anlamsal Gösterimin Aktarýmý
Bilgisayarlý dil çevirisi yöntemlerinin sonuncusu ise “interlingua” adý verilen ve tümcenin
taþýdýðý anlamý, dilden baðýmsýz bir yapýda ifade eden yapýlarý kullanýlmasýdýr. Bu yöntemin
temel dayanak noktasý, farklý dillerde anlamlarýn ifade edilme biçimlerinden baðýmsýz bir anlam
temsilidir. Örnek olarak aþaðýdaki tümcenin gösterimi Þekil-3.9’da verilmiþtir:
Mehmet, bu güzel çöreði yemedi.
é Olay
ê Etmen
ê
ê Kip
ê
ê Olumluluk
ê
ê
êTema
ê
ë
yemek
Mehmet
ù
ú
ú
geçmiº
ú
ú
olumsuz
ú
é çörek
ùú
ê
úú
bu ú ú
ê Ýþaret
êë Özellikler tatlý úû úû
Þekil-3.9 :Dilden baðýmsýz anlamsal gösterim
Bu yöntemin en yararlý yönü, ikiden fazla dil arasýnda çeviri yapýlacaðý zaman (1®N) ortaya
2
çýkmaktadýr. Diðer yöntemlerde bu tür bir iþlem, toplam N çeviri yapýlmasý anlamýna gelir.
Oysa kaynak tümcenin dilden baðýmsýz anlamsal gösterimi elde edildikten sonra, bu gösterime
iliþkin tümcenin N adet dil için üretilmesi yeterlidir. Bu tür çeviri yöntemi, Avrupa Birliði gibi
birçok dilin kullanýldýðý ortamlar için kullanýþlý olmaktadýr.
Ancak “interlingua” adý verilen bu yapýnýn kullanýlmas, doðal dil ile ifade edilen anlamý baþka
bir biçimde sunacak olan “bilgi temsil diline” çevirmedeki güçlük gibi sorunlara neden
olmaktadýr. Her dilin belirttiði özellikler farklýlýk göstermektedir. Örneðin Türkçede 3. tekil
þahýslar için cinsiyet bilgisi yokken Ýngilizcede bulunmaktadýr. Benzer þekilde Türkçede amca
ve dayý ayrý sözcüklerle ifade edilirken Ýngilizcede her ikisi de uncle sözcüðü ile belirtilir.
Anlamsal gösterimin dilden baðýmsýz olabilmesi için her dilde farklý ifade edilen kavramlarý
içermek için de bir yol bulunmasý gerekmektedir. Bu farklýlýklardan dolayý dilden baðýmsýz bir
gösterimin tam olarak nasýl saðlanabileceði konusunda halen büyük eksiklikler bulunmaktadýr.
3.2.2 Ýstatistiksel Yöntemler
Bilgi tabanlý bilgisayarlý çeviri yöntemlerinin ana konusu, kaynak dildeki tümcelerin hangi bilgi
seviyesinde (sözcük, söz dizimsel yapý, anlamsal yapý gibi) iþlem göreceðini belirlemek ve
seçilen gösterimin hedef dile nasýl aktarýlacaðýnýn yollarýný araþtýrmak üzerine yoðunlaþýr.
Ýstatistik tabanlý yöntemler ise tamamen sonuç odaklý çalýþýr ve aktarma iþleminin nasýl
yapýlmasý gerektiðinden çok nasýl sonuçlanmasý gerektiði üzerinde dururlar.
Ýstatistiksel çeviri yöntemi kavramý 1950’li yýllarda ortaya atýlmýþ olsa da gerçek anlamdaki
çalýþmalar 1990’lý yýllarda baþlamýþtýr Elektronik ortama aktarýlmýþ, koþut çevirilerden oluþan
metinlerin sayýsýnýn giderek artmasý ve bilgisayarlarýn yeteneklerinin hýzla artmasý, kural
tabanlý aktarým için kural karmaþasýnda zorlanan araþtýrmacýlarýn, istatistiksel çeviri
yöntemlerine doðru hýzlý bir kaymalarýna neden olmuþtur.
Ýstatistiksel yöntemlerin çalýþma mantýðý, çeviri iþlemini, Shannon’un Gürültü Kanal Modeli
(Noisy Channel Model) uyarýnca bozulmuþ bir iþareti düzeltme olarak deðerlendirmektedir. Bu
yaklaþýma göre hedef dildeki tümce H, iletim kanalýndan geçerken kanaldaki gürültü nedeniyle
deðiþmiþ ve çýkýþta kaynak dildeki tümce K oluþmuþtur. Yöntemin ilkesi, iletim kanalýnýn çýkýþ
ucunda gözlenen kaynak dildeki tümce K’den yola çýkarak gönderilen asýl metne yani “hedef
dildeki” tümceye ulaþmaktýr. Bunu saðlamak üzere aþaðýdaki denklemin çözümünün bulunmasý
yeterli olacaktýr:
H = argmax P ( H | K )
HÎHedef Dil
Denklem (1) ’deki olasýlýk deðerini Bayes kuralýna göre tekrar yazarsak:
(1)
Ýletme (Üretme)
P(H)
P(K|H)
Giriþ
H
Gürültülü iletiþim kanalý
Çýkýþ
K
En olasý
tümce H
Argmax
Dil modeli P(H)
X
Aktarým modeli
P(K|H)
Kaynak
Tümce
Çözme
Þekil-3.10: Gürültü Kanal Modeli uyarýnca çeviri iþlemi
P (K | H )P (H )
HÎHedef Dil
P (K )
H = argmax
(2)
Bu denklemde P(K) olasýlýðý bütün H tümceleri için sabit olduðundan argmax iþlemi için
sonucu deðiþtirmez. Bu durumda denklem (2)’yi aþaðýdaki gibi yazabiliriz:
H = argmax P ( K | H ) P ( H )
424
3 123
HÎHedef Dil 1
(3)
Çeviri modeli Dil modeli
Bu denklemde iki bileþen göze çarpmaktadýr. Bunlardan P(K|H), çeviri modeli olarak
adlandýrýlýr ve hedef dildeki H tümcesinin, kaynak dildeki K tümcesinin çevirisi olma olasýlýðýný
belirtir. Ýkinci bileþen ise H tümcesinin, hedef dildeki olasýlýðýný belirtir. Bu iki olasýlýk
deðerinin çarpýmýný en çoklayan H tümcesi sonuç olarak üretilir.
Denklem (3)’ün sezgisel açýdan yorumu ise, kaynak dildeki K tümcesinin en yakýn çevirisi olma
(çeviri modeli bileþeni) ve ayný zamanda da hedef dil için akýcý ve geçerli bir tümce olma (dil
modeli bileþeni) koþullarýný birlikte saðlayan en olasý H tümcesinin bulunmasýdýr.
Sonuç olarak istatistiksel yöntemlerle bilgisayarlý çeviri yapabilmek için aþaðýdaki üç bileþenin
elde edilmesi gereklidir:
• P(H)’nin hesaplanabilmesi için hedef dil için bir Ýstatistiksel Dil Modeli (ÝDM)
• P(K|H)’nin hesaplanabilmesi için bir çeviri modeli
• Bütün bu olasýlýk deðerlerini kullanarak verilen bir K tümcesi için en olasý H
tümcesini üretebilen bir çözücü
Gerekli dil modelleri sadece hedef dil için üretilmek zorunda olduðundan bu dil modellerinin
oluþturulmasý çeviri modelinin üretilmesine göre daha kolaydýr.
Çeviri modelinin oluþturulmasý için kaynak tümcedeki sözcük veyaa sözcük öbeklerinin, hedef
dilde hangi sözcük veya sözcük öbeklerinin karþýlýðý olduðu (ürettiði) bilgisi gereklidir. Bu
bilgileri içeren çok sayýda tümce üzerinde çeþitli tekniklerle gerçekleþen hesaplamalar
sonucunda çeviri modeli hesaplanmaktadýr. Bu amaçla, birbirlerinin çevirisi olan, hedef ve
kaynak dildeki büyük miktarda (genellikle milyonlarca tümceden oluþan) metinler önce tümce
temelinde daha sonra da sözcük/sözcük öbeði temelinde paralelleþtirilir. Bu iþlemlere tümce
hizalama, sözcük hizalama, sözcük öbeði hizalama adý verilir.
Ýstatistiksel çevirinin son bileþeni ise çözücüdür. En olasý çeviri olan H tümcesinin nasýl
bulunacaðý matematiksel olarak bilinse de hedef dildeki olasý bütün tümceleri üreterek
bunlardan denklem (3)’e göre en olasý H tümcesini belirlemek pratik olarak olanaksýzdýr. Bu
amaçla demetli arama gibi daha verimli arama yöntemleri kullanýlabilir.
3.2.3 Örnek Tabanlý Yöntemler
Örnek tabanlý yöntemler her iki dilde karþýlýklý tümceler içeren tümcelerden oluþan bir derlemi
kullanarak “örnekseme” yoluyla çeviri ilkesini kullanýr. Çalýþma ilkesinden dolayý
“örneksemeyle çeviri” olarak da isimlendirilir. Yöntemin çeviri üzerindeki temel varsayýmlarý
þunlardýr:
• Ýnsanlar basit tümceleri derinlemesine dil bilgisi kurallarýyla çevirmezler.
• Aksine, insanlarýn çeviri yaparken ilk adýmlarý kaynak tümceyi belirli alt öbeklere
parçalamaktýr. Daha sonra bu öbekleri hedef dile çevirir ve son adýmda da bu öbekleri
uygun biçimde birleþtirerek daha uzun sonuç tümcesini üretir.
• Öbeklerin çevrilmesinde ise daha önceden “akýlda kalan” örneklere örnekseme yapýlýr.
Örneðin aþaðýdaki iki çeviriyi ele alalým:
A man eats vegetables
Acid eats metal
«
Hito wa yasai o taberu
«
San wa kinzoku o okasu
Bu iki örnek tümceye benzetilerek aþaðýdaki girdi tümcesi çevrilmek istensin:
He eats potatoes
Kuþkusuz çeviri iþlemi için bir aktarým sözlüðü gereklidir. Ama buradaki asýl sorun Ýngilizce eat
eylemi için olasý iki Japonca karþýlýktan (taberu ve okasu) hangisinin kullanýlacaðýna karar
vermektir. Yöntem, doðru karar vererek taberu eylemini seçer çünkü tümcenin diðer ögeleri he
ve potatoes sözcükleri, örneklerden man ve vegetables sözcüklerine, acid ve metal
sözcüklerinden anlamsal olarak daha yakýndýr. Benzer mantýkla aþaðýdaki giriþ tümcesi için de
okasu eylemi seçilir:
Sulfric acid eats iron.
Sözcüklerin anlamsal olarak birbirlerine yakýnlýk ve uzaklýklarý, bir sözlük ve kavramlar dizini
kullanýlarak bulunur. Kavramlar dizini, sözcüklerin eþ/zýt anlamlýlarýný, alt/üst kavramlarýný,
parça/bütün iliþkinlerini de içeren geniþ kapsamlý bir sözlük olarak deðerlendirilebilir.
Eðitim derlemindeki tümceler çoklukla birbirinden sadece tek sözcük farklý olacak þekilde
seçilir. Bu sayede yöntemin tümcelerin alt parçalarýný daha kolay öðrenmesi saðlanýr.
How much is that red umbrella? « Ano akai kasa wa ikura desu ka?
How much is that small camera? « Ano chiisai kamera wa ikura desu ka?
Bu örneklerden aþaðýdaki bilgiler çýkartýlýr:
• How much is that X? « Ano X wa ikura desu ka?
• red umbrella « akai kasa
• small camera « chiisai kamera
Öðrenilen bu bilgiler daha sonraki çevirilerde kullanýlmak üzere saklanýr. Son geliþmelerle bu
kurallarýn saklanmadan çalýþma anýnda çýkartýlarak kullanýlmasý yoluna gidilmiþtir. Bu yöntem
yayýmlandýktan sonra Türkçe dâhil birçok dilde çalýþmalar yapýlmýþtýr.
3.3 Çeviri Kalitesinin Deðerlendirilmesi
Geliþtirilen bilgisayarlý çeviri yöntemlerinin ve yöntemler üzerinde yapýlan deðiþikliklerinin
sonuçlarýnýn incelenmesi için üretilen sonuçlarýn, yani çevirilerin doðruluðu ve baþarýsý
ölçülmelidir.
Çeviri kalitesinin ölçülmesi için en basit yol, sistem çýktýlarýnýn insanlar tarafýndan çeþitli
yönlerden (üretilen tümcenin akýcýlýðý, kaynak tümcedeki anlamýn aktarýlmasýndaki doðruluk
gibi) derecelendirmesidir. Üretilen çýktýlarý insanlar kullanacaðý için en uygun deðerlendirme
yöntemi aslýnda bu olmasýna karþýn hem maliyet açýsýndan çok pahalý hem de hýz açýsýndan
oldukça yavaþtýr. Ayrýca aktarým sistemlerinin sürekli geliþtirildiði ve her yapýlan deðiþikliðin
etkilerini görmek için böyle bir deðerlendirmeye gereksinim duyulduðu göz önüne alýnýrsa bu
yöntemin yapýlabilirliði oldukça azalmaktadýr.
Bazý deðerlendirme sistemleri ise baþarým ölçütü olarak sistem tarafýndan üretilen çevirinin bir
çevirmen tarafýndan düzeltilmesi sürecinin karmaþýklýðýný ölçme esasýna dayanmaktadýr. Bu tür
yöntemlerin çýkýþ fikri, bilgisayarlý çeviri sistemlerinin çýktýlarýnýn genel olarak insan emeði ile
düzeltilerek kullanýldýðýný dolayýsý ile sistemin baþarýsýnýn, çevirmenin harcadýðý çaba ile
ölçülebileceði görüþüdür. Bu tür ölçme yöntemleri çevirmenin harcadýðý çabayý, aday çeviri
üzerinde tüm düzeltmeleri yapmak için tuþ takýmýnda kaç defa tuþa basýldýðý veya çevirmen
tarafýndan düzeltilen son sürümü ile aday arasýndaki en kýsa deðiþim uzaklýðý (minimum edit
distance) deðeri ile orantýlý olarak hesaplar.
Deðerlendirmede izlenebilecek bir baþka yol da otomatik yöntemlerle deðerlendirme
yapmaktýr.
3.3.1 BLEU/NIST
BLEU yöntemi, IBM tarafýndan 2002 yýlýnda geliþtirilmiþtir. Deðerlendirme mantýðý, sistem
çýktýsý aday tümcelerin, çevirmenler tarafýndan elle çevrilmiþ k adet referans çeviri ile olan
benzerliðinin ölçülmesine dayanýr. Benzerliðin ölçülmesi ise sistem çýktýsýndaki sözcüklerin
(1-gram) ve sözcük dizilerinin (2,3,4,…-gram), referans çevirilerdeki sözcük ve sözcük dizileri
ile eþleþtirilmesiyle yapýlýr. Uygulamada dörtten uzun sözcük dizilerinin eþleþtirilmesinin
gereksiz olduðu görülmüþtür.
Çevirinin doðasý gereði bir tümcenin, ayný anlamý taþýyan birden fazla çevirisi olabilir. Sözcük
ve ifade seçimlerindeki bu serbestlik derecesi deðerlendirme aþamasýnda birden fazla referans
çeviri kullanýlarak çözülmeye çalýþýlmýþtýr.
Her n-gram mertebesi için, C derlemi içindeki her S aday tümcesi için hesaplanan deðiþtirilmiþ
keskinlik deðeri pn þu þekilde bulunur:
Pn =
å å
å å
SeC
ngramÎS
SeC
A det eþleþen ( ngram)
ngramÎS
A det( ngram)
(4)
Bu denklemde, çeviri aday tümcesinde yer alan ngram (yani sözcük veya sözcük dizisi),
referans çevirilerde birden fazla defa geçse de bir eþleþme olarak sayýlýr.
BLEU yöntemi aðýrlýklý olarak keskinlik (precision) ölçütüne dayanmaktadýr. Birden fazla
referans çeviri kullanýlabildiði için anma deðerini hesaplamak zordur. Bu nedenle, referans
çevirilerden çok daha kýsa bir aday çevirinin, yüksek keskinlik deðeri sayesinde yüksek BLEU
puanlarý almasýný engellemek amacýyla bir kýsalýk cezasý tanýmlanmýþtýr:
ì 1
BP = í 1- r / e
îe
eð er c > r
eð er c £ r
(5)
Bu denklemde c derlemdeki aday çevirilerin tamamýnýn toplam uzunluðunu, r ise etkin
(effective) referans uzunluðunu göstermektedir. Etkin referans uzunluðu, referans tümceler
derlemi içerisinde kendi aday tümcesinin uzunluðuna en yakýn olan referanslarýn uzunluklarý
toplamýdýr. Bu tanýmlamalardan sonra BLEU puaný aþaðýdaki gibi hesaplanýr:
N
BLUE = BP éxp( å wn log Pn )
(6)
n= 1
BLEU deðeri temel olarak eþleþen n-gram oranlarýnýn geometrik ortalamasýnýn bulunmasýyla
hesaplanýr ve 0 ile 1 aralýðýndadýr. BLEU puanýn 1 olmasý aday çevirilerin referanslardan en az 1
tanesi ile bire bir ayný olduðunu göstermektedir.
Yapýlan çalýþmada bir deneme kümesindeki tümcelerin çevirilerinin BLEU puanlarý ile seçilen
hakemlerin çevirilere verdikleri puanlar karþýlaþtýrýlmýþ ve BLEU puanlarý ile bu kiþilerin
deðerlendirmeleri arasýnda ilinti olduðu gösterilmiþtir .
NIST yaklaþýmý da temel olarak BLEU ile ayný deðerlendirme adýmlarýný izlemesine karþýn
n-gram eþleþmelerinin geometrik ortalamasý yerine aritmetik ortalamasýný kullanýr ve
hesaplanan pn deðerlerini n-gramlarýn sýklýklarý ile iliþkilendirilir (daha az sýklýða sahip eþleþme
daha önemlidir) .
Son yýllarda yapýlan çalýþmalar sonucunda BLEU deðerlendirme sisteminin bazý olumsuz
yanlarý ortaya çýkartýlmýþtýr. Örneðin yüksek BLEU puanlarýnýn her zaman çevirilerin daha
kaliteli olduðunun bir göstergesi olmadýðý tersine BLEU puanlarýnda artýþ elde edilerek üretilen
çevirilerin kalitesinin yükseltilemeyebileceði ortaya çýkartýlmýþtýr. Ancak BLEU yönteminin
otomatik olmasý ve insan emeði gerektiren deðerlendirmelere oranla çok daha ucuz ve hýzlý
olmasý gibi nedenlerden dolayý günümüzde BLEU yöntemi yaygýn olarak kullanýlmaktadýr.
Anýlan nedenlerden ötürü BLEU yönteminin farklý (en azýndan istatistiksel - kural tabanlý gibi
farklý aktarým yaklaþýmlarý kullanan) sistemlerin baþarýlarýnýn karþýlaþtýrýlmasýnda
kullanýlmamasý gerektiði BLE'nun daha çok tek bir sistem üzerinde yapýlan ardýþýk
deðiþikliklerin etkilerini deðerlendirmede kullanýlmasýnýn uygun olacaðý görüþü aðýrlýk
kazanmýþtýr .
3.3.2 F Deðeri
F-deðeri, bilgi getiriminde kullanýlan keskinlik ve anma deðerlerinin harmonik ortalamasý
olarak tanýmlanabilir. Bu yöntem aday tümce ile referans tümce arasýnd, daha uzun sözcük
dizisi eþleþmelerini kayýracak biçimde “en uzun eþleþmeyi” bulmak üzerine yoðunlaþýr. Bu
eþleþmenin bulunmasýndan sonra keskinlik ve anma deðerleri, bulunan bu en uzun eþleþme EUE
sözcük sayýsý ile, sýrasýyla aday A ve referans R tümcelerindeki sözcük sayýlarýna bölünerek
bulunur:
Keskinlik ( A| R ) =
Anma ( A| R ) =
| EUE ( A, R )|
| A|
| EUE ( A, R )
| R|
(7)
(8)
3.3.3 Meteor
Meteor ölçütü, F-ölçütü’nü birkaç yönden deðiþtirerek kullanmaktadýr. Meteor deðerlendirme
sisteminde bazý dilbilimsel süreçler deðerlendirme aþamasýna dâhil edilerek doðrudan sözcük
eþleþmeleri yerine sözcük köklerinin de eþleþmesine olanak tanýnmýþtýr. Ayrýca Meteor
yönteminde, anma deðeri üzerinde aðýrlaþtýrma yapan bir harmonik ortalama kullanýlýr :
Fort =
10PR
R + 9P
(9)
Keskinlik ve anma deðerlerinin sözcük eþleþmesine (1-gram) baðlý olmasýndan dolayý daha
uzun eþleþmeler deðerlendirmeye alýnmamaktadýr. Yöntem bu açýðý kapatmak amacýyla bir ceza
katsayýsý içermektedir. Bu katsayý hesaplanmadan önce, aday ve referans tümcede birbirlerinin
karþýlýðý olan sözcük gruplarý (chunks) oluþturulur. Bu sözcük gruplarýnýn oluþturulmasýnda tek
ölçütt, hem aday hem de referans tümcede birbirlerinin karþýlýðý olan sözcüklerin sýralarýnýn
grup içinde de ayný kalmasýdýr. Örneðin “daha sonra beraber eve gittiler” aday çevirisi ile
“daha sonra hep beraber eve gittiler” referans çevirisinde iki grup oluþur : (1) “daha sonra” (2)
“beraber eve gittiler”. Bu gruplamadan sonra ceza katsayýsý ve sonuç puaný aþaðýda formüllere
göre hesaplanýr:
é
ù
| gruplar|
Ceza = 0,5 ´ ê
ú
ë| eþleþen sözcükler| û
3
METEOR = Fort ´ (1 - Ceza )
(10)
(11)
Meteor yönteminin en önemli olumsuz yönü birden fazla referans çeviri olduðunda ortaya
çýkmaktadýr. Her referans çeviri için bir puan hesaplanarak en yüksek puan çýktý olarak
kullanýlýr. Oysa bazý durumlarda çevirinin bir bölümü (örneðin özneyi oluþturan ad öbeði)
referanslardan bir tanesinin bir bölümü ile eþleþirken çevirinin baþka bir bölümü (örneðin eylem
öbeði) baþka bir referans ile eþleþebilir. Yöntemin baþka bir olumsuz tarafý ise puanlamada
kullanýlan katsayýlarýn deðerlerinin belirlenmesidir. Geçerli katsayýlar deneme-yanýlma
yöntemi ile bulunduðundan en uygun katsayýlar olup olmadýðý þüphelidir.
3.4 Akraba ve Bitiþken Diller Arasýnda Çeviri
Akraba diller arasýndaki yapýsal benzerlikler yardýmý ile bu diller arasýnda bilgisayarlý çevirinin
gerçekleþtirilmesi farklý dil aileleri arasýnda çeviri yapmaktan en azýndan sezgisel olarak daha
kolay görünmektedir. Tamamen farklý dil ailelerinde sýnýflandýrýlan diller arasýnda çeviri
yapmanýn zorluðu.
A. C. Tantuð tarafýndan gerçekleþtirilen çalýþmada akraba diller arasýnda bilgisayarlý metin
çevirisi için istatistiksel ve bilgi tabanlý yöntemlerin beraber kullanýldýðý karma modeller
önerilmiþtir. Önerilen bu karma modeller sayesinde hem istatistiksel yöntemlerin en maliyetli
yönü olan hizalanmýþ eðitim kümesi gereksinimi ortadan kaldýrýlmýþ olmakta hem de yüksek
baþarýlar elde eden istatiksel yöntemlerin sunduðu getirilerden faydalanýlmýþ olunmaktadýr.
Geliþtirilen modeller temelde bitiþken yapýdaki akraba diller için tasarlanmýþtýr. Çalýþma
kapsamýnda önerilen modeller Türk dil ailesindeki dillerin birbirine çevrilmesi amacýyla
incelenmiþ, seçilen bir dil çifti için uygulama gerçekleþtirilerek modellerin baþarýmý ortaya
konulmuþtur. Ancak geliþtirilen modeller Türk dillerine özgü olmayýp dilden baðýmsýz
düþünülmüþ, akraba ve bitiþken olan tüm dil çiftleri için kullanýlabilir niteliktedir.
Modellerin çýkýþ noktasý (12) baðýntýsýyla verilmiþtir. Bu denklem aþaðýdaki tekrar verilmiþtir :
H = argmax P ( K | H ) P ( H )
424
3 123
HÎHedef Dil 1
(12)
çeviri modeli Dil modeli
Ýki bileþenden oluþan bu denklemin dil modeli bileþeni sadece hedef dil için hazýrlandýðýndan
çeviri modeline göre daha kolay oluþturulabilir. Çeviri modelinin oluþturulmasý için çok sayýda
hizalanmýþ tümce çiftlerine gereksinim duyulmaktadýr. Ancak günümüzde dahi her dil çifti için
birbirlerinin çevirisi olan hizalanmýþ tümcelerin yeterli miktarlarda bulunmasý mümkün
olmamaktadýr. Amacýmýz bu olumsuz koþullarda da istatistiksel çevirinin kullanýlabilir hâle
gelmesi için istatistiksel çevirideki bu “çeviri modeli olasýlýk daðýlýmý” yerine kullanýlabilecek
bir modelin oluþturulmasýdýr.
Kuramsal açýdan denklem (12) hedef dildeki bütün tümceler içerisinden çeviri ve dil
modellerine göre en yüksek olasýlýða sahip tümcenin bulunmasý anlamýna gelmektedir.
Ancak bir dildeki olasý tümcelerin sayýsýnýn sonsuz olmasý nedeni ile uygulamada çeviriyi
üreten çözücü hedef dildeki H tümcesini adým adým (sözcük veya sözcük öbeði adýmlarý ile)
üretmeye baþlar . Her adýmda, çeviri modeline ve dil modeline göre en yüksek olasýlýða sahip
seçenek veya seçeneklerden devam ederek sonunda tüm çeviri tümcesini oluþturur. Bu çalýþma
düzeninde çeviri modeli, kaynak tümcenin sözcüklerinin veya sözcük öbeklerinin karþýlýðý
olabilecek tümceleri (olasýlýklarýna göre) oluþtururken dil modeli bileþeni de oluþan bu tümceler
içinden hedef dil için en uygununu bulmaya çalýþýr. Bir anlamda “çeviri modeli”, hedef dildeki
tüm tümcelerde arama yapmak yerine kaynak tümcenin çevirisi olabilecek tümceleri
olasýlýklarýna göre seçerek aramayý yönlendirmektedir.
Bu çalýþmada önerilen yaklaþým, akraba diller, örneðin Türk dilleri arasýnda çeviri söz konusu
olduðunda olasýlýk daðýlýmý esasýna göre çalýþan “çeviri bileþeninin”, kural tabanlý çalýþan
“aktarým fonksiyonu” ile deðiþtirilerek istatistiksel dil modeli ile beraber kullanýlmasý
yönündedir. Bu yaklaþým sezgisel olarak dil modeline göre en uygun tümceyi, “çeviri modelinin
yönlendirmesi ile hedef dildeki bütün tümceler kümesinde aramak yerine, aktarým fonksiyonu
tarafýndan aktarýlan sözcük/sözcük öbekleri ile oluþturulabilecek tüm olasý tümceler kümesinde
aramak” olarak yorumlanabilir. Bu sayede Türk dilleri gibi birbirleri ile benzer akraba diller
arasýnda kullanýlabilecek bilgi tabanlý yöntemler ve istatistik tabanlý yöntemlerin birleþimi olan
karma bir çeviri modeli önerilmiþtir.
Önerilen bu modele göre denklem (12)’nin güncellenmiþ hâli aþaðýdaki gibidir:
^
H = arg max P ( H )
23
( K) 1
HÎ F
123
aktarým
fonksiyonu
(13)
dil modeli
Önerilen çeviri modeli de iki bileþenden oluþmaktadýr. Aktarým fonksiyonu, K tümcesinin
karþýlýðý olabilecek tüm tümceleri üreten bir fonksiyon olarak görev yaparken dil modeli ise
klasik anlamda kullanýlarak üretilen karþýlýklar arasýndan hedef dile göre en yüksek olasýlýk
deðerine sahip tümcenin seçilmesini saðlar.
Ancak önerilen bilgisayarlý çeviri yöntemi ile istatistiksel çeviri yöntemi arasýnda vurgulanmasý
gereken önemli bir farklýlýk bulunmaktadýr. Ýstatistiksel çeviri sisteminde yer alan çeviri modeli,
kaynak dildeki tümcenin karþýlýðý olabilecek aday tümceler kümesini üretirken ayný zamanda
bunlar için birer olasýlýk deðeri de atamaktadýr. Bu olasýlýk deðeri, dil modeli olasýlýðý ile
birleþtirilerek en yüksek olasýlýklý çevirinin belirlenmesinde rol oynar. Oysa A. C. Tantuð
tarafýndan önerilen aktarým modelindeki aktarým fonksiyonu, sadece kaynak tümcenin karþýlýðý
olabilecek tümceler üretmektedir; bunlara herhangi bir olasýlýk deðeri atanmamaktadýr. Bu
tümcelerden en uygun olaný ise dil modeli bileþeni tarafýndan en yüksek olasýlýklý tümcenin
seçilmesi ile belirlenir.
Seçilen dil çiftinin bitiþken olmasý durumunda aktarým fonksiyonu ve dil modeli bileþeni
özelleþtirilerek kullanýlmalýdýr. Sonraki bölümlerde önerilen aktarým fonksiyonu ve dil modeli
türlerinin ayrýntýlarý ele alýnmýþtýr.
3.4.1 Aktarým Fonksiyonu Modelleri
Akraba diller söz konusu olduðunda diller arasýndaki benzerlikleri kullanarak çeviri sürecini
basitleþtirmenin en kolay yolu sözcük temelinde çalýþan doðrudan aktarým modelinin
kullanýlmasýdýr. Özellikle söz dizimi açýsýndan büyük farklýlýklar göstermeyen akraba diller
arasýnda daha uygun olan bu doðrudan aktarým modeli, bitiþken diller için sözcük kökleri ile
birlikte biçim bilimsel yapýlarýn da aktarýlmasýný saðlayacak biçimde deðiþtirilmiþtir.
3.4.1.1 Aktarým Modeli 0 – Temel Model
Temel aktarým modelinin matematiksel açýklamasý aþaðýda verilmiþtir.
K, toplam N adet sözcükten oluþan (k1,k2,....kn) kaynak dilde bir tümce olsun.
K = k 1 k 2 .... k n = k 1N
(14)
Bitiþken diller söz konusu olduðunda, her bir sözcüðün hedef dile aktarýlmasý için öncelikle
biçim bilimsel çözümlemesinin yapýlmasý, sözcük kökünün ve diðer biçim bilimsel yapýlarýn
bulunmasý gereklidir. Buna göre biçim bilimsel çözümleme aþamasý, giriþi kaynak dilde
yüzeysel biçimdeki sözcük ki, çýkýþý ise bu sözcüðün olasý tüm biçim bilimsel çözümlemelerini
içeren bir küme olan C(ki) çözümleme fonksiyonu ile modellenir.
C ( k i ) = {ci 1 , ci 2 , ..., cini }
(15)
Burada ni , ki sözcüðü için üretilen biçim bilimsel çözümlemelerin toplam sayýsýdýr ve ni ³ 1
þeklinde alttan sýnýrlýdýr. Üretilen her bir biçim bilimsel çözümleme, kök ve bu köke eklenen
deðiþken sayýda biçim bilimsel özelliklerden oluþur:
cij = kök ij + bij 1 +...+bijk +... bijmi
(16)
Biçim bilimsel özellikler bijk ve sözcük kökleri kokij aktarýlmasý A(cij) aktarým fonksiyonu ile
saðlanýr. Bu aktarým fonksiyonu giriþ deðeri olarak biçim bilimsel bir çözümleme cij’yi almakta,
çýkýþ olarak ise sözcük kökünün ve biçim bilimsel özelliklerin hedef dile aktarýlmýþ hâlini
üretmektedir:
{
A ( cij ) = a ij 1 , ..., +a ijk , ..., a ijnij
}
(17)
Sözcük köklerinin çevrilmesinde birden-çoða iliþki olduðu için bir çözümlemeye karþýlýk
birden fazla çeviri oluþabilmektedir. Dolayýsý ile A fonksiyonu çokdeðerli bir fonksiyon olarak
iþlev görmektedir. Bu koþullarda üretilen sözcük sayýsý nij ³ 1 olacaktýr. Kaynak tümcedeki ki
sözcüðünün cj çözümlemesine karþýlýk olarak üretilen her bir aijk çýktýsý, çözümleme ile benzer
yapýya sahiptir:
(18)
a ijk = kökhijk + bhijk 1 + bhijk 2 +...+bhijkmijk
Burada kokh hedef dildeki kökü, bh ise hedef dildeki biçim bilimsel özellikleri göstermektedir.
Bütün bu tanýmlamalardan sonra transfer fonksiyonun tanýmý yapýlabilir. Aslýnda tanýmlanmasý
amaçlanan aktarým fonksiyonu F, bir fonksiyon deðildir. F, bir baðýntý olarak tanýmlanmalýdýr.
Hedef dildeki tüm tümceler üzerinde tanýmlý olan bu baðýntý, yalnýzca “kaynak dildeki
sözcüklerin hedef dildeki karþýlýklarýndan oluþan bir dizi sözcüðü içeren” bir alt kümedir:
F ( K ) = F ( k 1N ) =
U A(C
1j
)´
c1 j ÎC ( k1)
N
=Õ
U
c2 j ÎC ( k2 )
U A(c
1j
A ( c2 j )´...´
U A(c
Nj
)
cNj ÎC ( kN )
(19)
)
i = 1 cij ÎC ( ki )
Eðer fi(K), F(K), baðýntýsýnýn i. elemaný olarak tanýmlanýrsa geliþtirilen aktarým modelimizin
^
amacý olasý bütün çeviriler içerisinden en yüksek olasýlýklý H B ‘yi bulmak olarak ifade edilebilir.
Buradaki alt indis B, oluþan tümcenin sözcüklerinin yüzeysel biçim yerine yapýsal biçimde
olduðunu belirtmektedir. En yüksek olasýlýklý tümcenin bulunmasý ise, E eðitim derlemi
üzerinde eðitilen bir L(E) dil modeli ile saðlanýr:
^
H B = arg max p( f i ( K )| L( E )
(20)
f i ( K) ÎF ( K)
Aktarým modelinin son aþamasý ise hedef dildeki biçim bilimsel üretici tarafýndan dönüþtürülen
sözcük kökleri ve biçim bilimsel yapýlardan yüzeysel biçimlerin elde edilmesidir. Bu üretim
aþamasý ise bir U fonksiyonu ile temsil edilir:
^
^
H = U ( H B ) = h1 h2 ... hM
(21)
Modelin son çýktýsý olan, kaynak dildeki sözcüklerin hedef dildeki karþýlýklarýnýn sýralandýðý
tümceyi göstermektedir. Aktarým aþamasýnda birden çoða bir yöntem izlendiðinden oluþan
çeviri tümcesinin sözcük sayýsý M ³ N’dir.
3.4.1.2 Aktarým Modeli I
Temel modelin en önemli olumsuzluðu sözcük bazýnda sadece bire bir veya birden çoða aktarým
yapýlmasýna izin vermesidir. Temel modelin bu kýsýtlamasý sonucu kaynak tümcede birden çok
sözcükle ifade edilen yapýlar hedef dile doðru aktarýlamayacaktýr. Bu sorunu gidermek amacý ile
temel modele çoktan çoða aktarým yapmak üzere birtakým eklemeler yapýlarak "Aktarým Modeli
I" elde edilmiþtir. Bu eklemelerle öncelikle Çoklu Sözcük Gruplarý (ÇSG) belirlenmiþ, daha
sonra bu gruplar uygun þekilde hedef dile aktarýlmýþtýr.
Bitiþken diller için çoklu sözcük gruplarýnýn bulunma süreci, Ýngilizce, Çince gibi tek heceli
veya tek heceliye yakýn dillerdeki kadar basit deðildir. Bunlar ve benzeri dillerde basit bir liste
kullanýlarak çoklu sözcük gruplarý belirlenebilirken Türkçe, Fince, Japonca, Macarca gibi
bitiþken dillerde çoklu sözcük kümelerininn bileþenleri çeþitli biçim bilimsel deðiþikliklere
uðrayabilirler. Bu deðiþiklikler ÇSG’lerin, basitçe bir listeden bakýlarak belirlenmesini
engellemektedir. Sonuç olarak bitiþken dillerde ÇSG’lerin bulunmasý için tümcedeki
sözcüklerin kökleri ve diðer biçim bilimsel özellikleri gibi daha ayrýntýlý bilgilerle düzenli
ifadeler veya sonlu durumlu dönüþtürücüler gibi daha karmaþýk araçlara gerek duyulur.
Temel model tanýtýlýrken verilen matematiksel altyapýya baðlý kalýnarak ÇSG’lerin iþlenmesi ile
ortaya konulan yeni modelin matematiksel ifadesi aþaðýdaki gibi kurulmuþtur.
ÇSG’leri, bir veya birden fazla sözcüðe ait biçim bilimsel çözümleme kümeleri arasýndan belirli
bir yönteme veya kural dizisine göre seçilen elemanlardan oluþan sýralý eþleþmeler (ordered
pairs) olarak adlandýrýlabiliriz. Örneðin aþaðýda bir K tümcesinin ardýþýk üç sözcüðü (ki ki+1 ki+2)
için biçim bilimsel çözümleme sonuçlarý bulunmaktadýr:
C ( k i ) = {ci ,1 , ..., ci ,2 , ..., ci ,x , ..., ci ,ni }
C ( k i + 1 ) = {ci + 1,1 , ..., ci + 1,2 , ..., ci + 1,x , ..., ci + 1,ni +1 }
(22)
C ( k i + 2 ) = {ci + 2,1 , ..., ci + 2,2 , ..., ci + 2,x , ..., ci + 2,ni + 2 }
Varsayalým ki ÇSG bulucu kurallar, bu üç sözcüðün çözümlemeleri içerisindeki ci,x , ci+1,y ve
ci+2,z çözümlemelerinin bir ÇSG oluþturduðunu belirlesin. Bu durumda bu üç elemanlý sýralý
eþleþmeler (ci,x , ci+1,y , ci+2,z) , G(K) kümesinin bir elemaný olur. Bu durumda G(K) aþaðýdaki
kümeler üzerinde tanýmlý bir baðýntý olmaktadýr:
N
G (K ) Í Õ C (k i )
(23)
i =1
Tümceyi oluþturan bütün sözcüklerin tüm çözümlemelerinin kartezyen çarpýmý içerisinde
arama yapýlarak kurallara uyan sýralý çiftler G(K) baðýntýsýnýn elemaný olarak belirlenir. Ancak
ifade bu þekli ile matematiksel olarak yanlýþtýr. Çünkü kartezyen çarpýmý ile oluþturulan
kümenin elemanlarýnýn hepsi mutlak olarak N sözcükten oluþmalýdýr. Bu ise þu anlama
gelmektedir: sadece N sözcükten oluþmuþ ÇSG’leri iþlenebilir, yukarýda örnekteki (ci,x , ci+1,y ,
ci+2,z) gibi üç elemanlý bir sýralý eþleþme girdisi G(K) kümesinin elemaný olamaz.
Bunu düzeltmek için G(K) baðýntýsýnýn üzerinde tanýmlý olduðu kümelere etkisiz bir eleman
eklemek yeterli olacaktýr:
N
G ( K ) Í Õ (C ( k i ) È {e})
(24)
i =1
ÇSG belirleyici kurallarýn, e girdisini boþ katar olarak yorumlayacaðý ve göz ardý edeceði
düþünüldüðünde (ci,x , ci+1,y , ci+2,z) girdisi artýk (e, e,…, ci,x ,ci+1,y ,ci+2,z ,…,e,e) biçimine
dönüþerek G(K) kümesine eklenebilir.
Sözcük sözcük aktarma yapýlýrken, eðer sýradaki sözcüðün herhangi bir çözümlemesi cij, G(K)
içerisindeki ÇSG’lerin bir parçasý ise bu sözcüðün hiçbir çözümlemesi aktarýlmaz. Ancak eðer
cij, bu ÇSG’nin son sözcüðü ise cij yerine bu ÇSG birleþtirilerek aktarým fonksiyonuna
gönderilir. Buna göre yukarýda verilen (ci,x , ci+1,y , ci+2,z) örneðinin aktarýlma süreci aþaðýdaki
gibidir:
C ( k i ) = {ci ,1 + ci ,2 , ..., ci ,x , ... ci ,ni }
E (C ( k i )) = {Æ, Æ, ... Æ, ... Æ}
C ( k i + 1 ) = {ci + 1,1 + ci + 1,2 , ..., ci + 1,x , ... ci + 1,ni +1 }
E (C ( k i + 1 )) = {Æ, Æ, ... Æ, ... Æ}
(25)
C ( k i + 2 ) = {ci + 2,1 + ci + 2,2 , ..., ci + 2,x , ... ci + 2,ni + 2 }
E (C ( k i + 2 )) = {Æ, Æ, ... B ( ci ,x , ci + 1, y , ci + 2,z ), ... Æ}
Bu çalýþma düzenini saðlayan E fonksiyonunun tanýmý aþaðýda verilmiþtir:
eð er ( "j:1 £ j £ ni )( "p:1 £ p £ N ) cij ¹ x p
(1)
ìC ij
ï
E (C ij ) = íÆ
eð er ($j:1 £ j £ ni )( "p:1 £ p £ N ) cij = x p Ù x p + 1 ¹ e (2) (26)
ï B ( X ) eð er ($j:1 £ j £ n )( "p:1 £ p £ N ) c = x Ù x = e (3)
i
ij
p
p+ 1
î
Denklem (26)’da yer alan xp, XÎG(K) sýralý eþleþmesinin p. elemanýdýr. B fonksiyonu ise X
sözcük dizisini geçerli bir biçime getirmek için uygun þekilde birleþtirerek tek bir kök ve uygun
biçim bilimsel özellikleri içeren yapýya dönüþtüren bir birleþtirme fonksiyonudur.
E fonksiyonun üzerinde biraz açýklama yapmak uygun olacaktýr. Fonksiyonun (1). alt taným
aralýðýnda, K tümcesinin i. sözcüðü ki‘nin j. çözümlemesi cij’nin aktarýlýp aktarýlmayacaðýna
karar verilir. Eðer ki‘ye ait çözümlemelerden hiçbirisi G(K)’da belirlenen ÇSG yapýlarýnýn
herhangi birisinin bileþeni olarak geçmiyorsa cij olduðu gibi çýkýþ olarak üretilir. (2) ile
numaralandýrýlmýþ alt taným aralýðý ise eðer ki sözcüðünün herhangi bir çözümlemesi, G(K)’deki
herhangi bir ÇSG’nin son bileþen (xp+1 ¹ e) dýþýndaki bir bileþeni ise, ki‘ye ait bütün
çözümlemelerin göz ardý edileceðini söylemektedir. Son taným aralýðý (3) bölgesinde ise ki‘ye
ait bir çözümleme, G(K) baðýntýsýndaki herhangi bir ÇSG’nin son sözcüðü ise (xp+1 = e), cij
yerine ÇSG’nin tamamý (X) B fonksiyonu tarafýndan dönüþtürülerek üretilir.
ÇSG’lerin aktarýlmasý için bu tanýmlamalar yapýldýktan sonra kaynak tümcenin olasý bütün
karþýlýklarýný üreten transfer fonksiyonun denklemi aþaðýdaki gibi deðiþtirilir:
F ( K ) = F ( k 1N ) =
U A(E (c
1j
)) ´
c1 j ÎC ( k1)
N
=Õ
U A(E (c
1j
U A(E (c
2j
c2 j ÎC ( k2 )
))
)) ´...´
U A(E (c
1Nj
))
cNj ÎC ( kN )
(27)
i = 1 cij ÎC ( ki )
Dil modelini kullanarak en yüksek olasýlýklý tümcenin seçildiði bundan sonraki denklemlerde
herhangi bir deðiþme olmaz.
3.4.1.3 Aktarým Modeli II
Geliþtirilen modellerdeki bir diðer eksiklik de aktarým kurallarýnýn sözcük temelinde iþlem
görmesidir. Akraba diller arasýnda çeviri yapýlsa bile sözcükler arasý iliþkiler her zaman
bulunur. Çeviri modelinin baþarýsýnýn arttýrýlabilmesi için bu iliþkiler göz önüne alýnarak
aktarým yapýlmalýdýr. Örneðin bazý Türk dilleri arasýnda çeviri yaparken ortaçlarýn, niteledikleri
isimden bazý biçim bilimsel özellikleri almasý gerekmektedir. Bu ve buna benzer durumlarý
baþarýlý çevirebilmek için tümce genelinde iþlem gören birtakým aktarým kurallarý
tanýmlanmalýdýr. Tümce genelinde çalýþan aktarým kurallarý tümcedeki sözcüklerin biçim
bilimsel bilgilerini kullanabileceði gibi bazý kurallar da sözcüklerin yüzeysel biçimlerine gerek
duyabilir.
Ancak mevcut aktarým fonksiyonu A, sadece sözcük kökleri ve sözcüðe iliþkin bilimsel
yapýlarýn aktarýmýný saðlamaktadýr. Bunu geliþtirmek üzere denklem (21) aþaðýdaki gibi
deðiþtirilmiþtir:
^
^
H = S Y (U ( S B ( H B ))) = h1 h2 ... hM
(28)
Bu denklemde hedef dilde oluþturulan tümceler üzerinde iþlem gören bir SB fonksiyonu
tanýmlanmýþtýr. Bu fonksiyona giriþ olarak yapýsal gösterimde sözcüklerden oluþmuþ tümceler
kümesi gelir. Fonksiyon her bir tümce üzerinde sözcükler arasýnda tanýmlanan kurallara uygun
olarak aktarýmý gerçekleþtirilir. Tümcedeki sözcüklerin yüzeysel biçimlerine gerek duyarak
yapýlan deðiþiklikler ise SY fonksiyonu modellenmiþtir.
3.4.2 Bitiþken Diller Ýçin ÝDM Oluþturulmasý
Ýngilizce, Almanca gibi dillerden farklý olarak Türkçe için dil modelleri oluþturulurken
sözcüklerin yüzeysel biçimlerinin kullanýlmasý Türkçenin türetken ve çekimli yapýsýndan dolayý
seyrek veri sorununa yol açmaktadýr. Bu yüzden eðitim verisi olarak sözcüklerin yüzeysel
biçimleri yerine sözcüklerin köklerinin ve diðer bazý biçim bilimsel özelliklerin kullanýlmasý
yoluna gidilmiþtir.
Yüzeysel biçim yerine, sözcüklere ait biçim bilimsel çözümleme sonuçlarýnýn tamamýnýn
kullanýlarak bir ÝDM oluþturulmasý durumunda gene seyrek veri sorunu oluþmaktadýr. Seyrek
veri sorununu azaltmak için biçim bilimsel çözümlemedeki tüm etiketler yerine bunlarýn
gruplanarak kullanýlmasý fikri ortaya çýkmýþtýr . Örneðin Türkçedeki her sözcük, kök ve bir veya
birden fazla çekim grubundan oluþmaktadýr. Çekim gruplarý birbirlerinden ^DB (derivation
boundary) ile ayrýlmaktadýr:
kök+ÇG1^DB+ÇG2^DB+…^DB+ÇGn
Burada ÇGi, sözcük türü ve çekim özelliklerini de içeren ilgili çekim grubunu ifade etmektedir.
Örnek olarak aþaðýda bir biçim bilimsel çözümleme sonucu verilmiþtir:
yararlanmanýn : yarar+Noun+A3sg+Pnon+Nom
ÇG1
^DB+Verb+Acquire+Pos
ÇG2
^DB+Noun+Inf2+A3sg+Pnon+Gen
ÇG3
Bu örnekte, isim türlü yarar sözcüðünün sözcük türü, +lan yapým eki ile önce eyleme daha
sonra da +ma mastar eki ile de tekrar isme dönüþmüþtür. Bu dönüþme süreci içerisinde oluþan
her sözcük türünün de kendisine ait çekim özellikleri bulunabilir. Türetilmiþ bir sözcüðün etkin
sözcük türü son ÇG’nin sözcük türü olarak kullanýlýr (örneðin etkin sözcük türü “isim”dir).
Çizelge-3.2’de 1 M sözcükten oluþan bir derlem üzerinde gözlenen kök hariç bütün etiketlerin
bulunduðu tam çözümlemelerin ve ÇG’lerin sayýlarý verilmiþtir. Bir köke eklenebilecek ek
sayýsýnýn sýnýrsýz olmasýna karþýn, derlem üzerinde yapýlan sayýma göre 10.531 farklý tam
çözümlemeye rastlanmýþtýr. Tam çözümlemeler ÇG’lere ayrýlarak ÇG’ler sayýldýðýnda 2.194
farklý ÇG’ye bulunmuþtur. Bu sonuçlar seyrek veri sorununun indirgendiði ortaya koymaktadýr.
Çizelge-3.2: Derlemde Gözlenen Tam Çözümleme ve Çekim Grubu Sayýlarý
Kuramsal Üst Sýnýr
Gözlenen Adet
Tam Çözümleme
µ
10.531
Çekim Grubu
9.129
2.194
Sadeleþtirme açýsýndan yapýlan bir baþka genelleme de ÇG’lerden oluþan türetilmiþ bir
sözcüðün söz dizimsel açýdan baðlantýsýnýn son ÇG’den çýkarak sonraki sözcüklerin
ÇG’lerinden herhangi bir tanesine baðlanmasý þeklinde ifade edilir.
3.5 Türk Dilleri Arasýndaki Benzerlikler
Türk dilleri anlam ve biçim açýsýndan incelendiðinde birçok benzerlik ve aynýlýk olduðu
görülür. Benzerlikler sözcük daðarcýklarýndaki ortak sözcükler açýsýndan incelendiðinde baskýn
olarak adýllar, sýfatlar, ilgeçler, belirteçler, zamanla ilgili sözcükler, organ isimleri, doða, bitki
ve hayvan isimlerinde ortak kullanýmlarýn olduðu görülmektedir. Ayrýca söz dizimsel açýdan
bütün Türk dilleri özne-nesne-yüklem (SOV) sýrasýný kullanmaktadýr. Ortak sözcüklerin dýþýnda
Türk dillerinin benzerlikleri biçim bilimsel açýdan incelendiðinde ise ek türlerinin ve ekleniþ
biçimlerinin çoðu kez ayný olduðu görülmektedir. Çizelge-3.3'te bazý Türk dilleri için isim
durum ekleri verilmiþtir . Hemen hemen bütün Türk dillerinde özellikle adlara eklenen çekim
eklerinin türleri ve sýralarý aynýdýr. Büyük ünlü uyumu, küçük ünlü uyumu, ünsüz benzeþmesi
gibi bazý yazým kurallarý hepsinde görülmese de bazý Türk dillerinde ortak olarak bulunur. Tüm
bu benzerliklere örnek olarak aþaðýda farklý Türk dillerinde ortak olarak kullanýlan iki deyim
verilmiþtir.
Türkçe
Azerbaycan
Türkmen
Özbek
Kýrgýz
Kazak
: Aðýr kazan
: Aðýr qazan
: Agyr gazan
: Çuqur därya
: Oor kazan
: Awur qazan
Türkçe
Azerbaycan
Türkmen
Özbek
Kýrgýz
Kazak
: Dað
: Dað
: Dag
: Tåð
: Too
: Taw
geç
geç
giç
tinç
keç
keþ
daða
daða
daga
tåð bilän
tooðo
tawða
kaynar.
qaynayar.
gaýnar.
aqar.
kaynayt.
qaynaydý.
kavuþmaz,
govuþmaz,
duþmaz
qavuþmas,
koþulbayt,
qosýlmas,
insan insana
insan insana
adama adama
adam adam bilän
adam menen adam
adam adamða
kavuþur.
govuþur.
duþar.
qavuþar.
koþulat.
qosýldý.
Görüldüðü gibi sözcük sýralarý çoðunlukla aynýdýr. Yalnýzca bazý sözcükler bazý Türk dillerinde
iki veya daha fazla sözcükle ifade edilmektedir.
+dan (+dNn)
+ýn (+in,+un,+ün)
+nýn
(+nin,+nun,+nün)
+a (+e)
+ya (+ye)
+da (+de)
+ta (+te)
+dan (+den)
+tan (+ten)
+ýn (+in,+un,+ün)
+nýn
(+nin,+nun,+nün)
Yönelme
Durumu
Kalma
Durumu
Çýkma
Durumu
Tamlayan
Durumu
+da (+dN)
+a (+N)
+ya (+yN)
+ý (+i,+u,+ü)
+ný (+ni,+nu,+nü)
+ý (+i,+u,+ü)
+yý (+yi,+yu,+yü)
Belirtme
Durumu
Azerice
Türkçe
Ad
Durum
Ekleri
+yñ (+iñ,+uñ,+üñ)
+nyñ (+niñ)
+dan (+den)
+da (+de)
+a (+e, +ä)
+y (+i)
+ny (+ni)
Türkmence
+dan (+den)
+ t a n ( +t e n )
+nan (+nen)
+nýñ (+niñ)
+ d ý ñ ( +d i ñ )
+týñ (+tiñ)
+dan(+den,+don,+dön)
+tan (+ten,+ton,+tön)
+nan(+nen,+non,+nön)
+nýn (+nin,+nun,+nün)
+dýn (+din,+dun,+dün)
+týn (+tin,+tun,+tün)
+niñ
+dän
+niñ
+din
+tin
+da (+de)
+t a ( +t e )
+nda (+nde)
+da (+de)
+t a ( +t e )
+nda (+nde)
+da (+de,+do,+dö)
+ta (+te,+to,+tö)
+dä
+ga (+ge)
+ka (+ke)
+ða (+ge)
+ q a ( +k e )
+a (+e)
+ga (+ge,+go,+gö)
+ka (+ke,+ko,+kö)
+na (+ne,+no,+nö)
+a (+e, +o,+ö)
+gä
+k ä
+qa
+ni
uygurca
+ný (+ni)
+ d ý ( +d i )
+t ý ( +t i )
+n
Kazakça
+ný (+ni,+nu,+nü)
+dý (+di,+du,+dü)
+tý (+ti,+tu,+tü)
+n
Kýrgýzca
+ni
Özbekçe
Çizelge-3 : Bazý Türk Dilleri için Ýsim Durum Ekleri
3.6 Türk Dilleri Arasýndaki Farklýlýklar
Tümceler arasýnda sözcük sýralarý açýsýndan çoðunlukla benzerlik söz konusu olsa da bazý
durumlarda tümce içindeki sözcüklerin yerleri de deðiþebilir. Örnek olarak çoðu Türk dilinde
bulunan Þekil-3.11'deki atasözü verilmiþtir:
Akýlý
düþman,
akýlsýz
Aqlsiz
döstdan
epchil
dosttan
yeðdir.
düþman yagþýdýr.
Türkçe
Özbekçe
Þekil-3.11 : Türkçe-Özbekçe tümcelerde sözcük sýralarý farklýlýðý örneði
Ancak Türk dillerinde sözcük öbeklerinin tümce içerisinde yer deðiþtirebilmesi özelliði
bulunduðundan Özbekçe tümce Türkçeye çevrilirken sözcük sýralarýnda bir deðiþikliðe
gidilmese bile anlamý koruyan Türkçe tümce üretilebilir:
Akýlsýz dosttan akýllý düþman yeðdir.
Türk dilleri arasýnda gözlenebilen diðer farklýlýklar özellikle eylem çekimlerinde ortaya çýkan
farklý zaman kullanýmlarý, dillere özel kipler ve özne yüklem uyumlarýndaki farklýlýklardýr.
Örneðin Türkçedeki geniþ zaman kalýbý Türkmencede gelecek zaman anlamýný taþýr. Ayrýca
Türkmencede, Türkçede bulunmayan +makçý/+mekçi ekleri ile kurulan ve “bir eylemi yapmayý
düþünmek/yapmaya niyetlenmek” anlamýnda bir eylem kipi bulunur.
3.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri
Türk dilleri arasýnda çeviri yaparken ortaya çýkan en büyük sorun Türkçe dýþýndaki diðer Türk
dilleri için doðal dil iþleme çalýþmalarýnýn yok denecek kadar az olmasýdýr. Birçok Türk dili için
biçim bilimsel çözümleme, söz dizimi çözümleme gibi araçlar veya elektronik ortama
aktarýlmýþ sözlükler veya iþlenmiþ metinler bulmak olasý deðildir. Türkçe için bile genel amaçlý
kullanýlabilecek yüksek baþarýmlý bir söz dizimsel çözümleme aracý bulunmamaktadýr.
Bütün bu olumsuzluklara karþýn özellikle Türk dillerinin sözdiziminin benzer olmasý (Azerice,
Türkmence gibi bazý diller için neredeyse ayný olmasý), daha önce anlatýlan aktarým yöntemleri
arasýnda en temel yöntem olan doðrudan aktarým yönteminin bile baþarýlý sonuçlar
üretebileceðini düþündürmektedir.
Doðrudan aktarým yöntemi hariç diðer tüm kural tabanlý aktarým yöntemlerinde söz dizimi
çözümlemesi, anlamsal çözümleme gibi üst düzey bilgiler gerekmektedir. Ancak Türk dilleri
söz konusu olduðunda bu bilgileri üretecek araçlar dahi bulunmamaktadýr.
Ýstatistiksel ve örnek tabanlý çalýþan yöntemleri kullanabilmek için ise birbirlerinin karþýlýðý
olan hizalanmýþ eðitim verilerine büyük miktarlarda gerek duyulur. Bu þekilde hazýrlanmýþ
koþut eðitim verilerinin bulunmamasý, ayrýca bu tür bir eðitim kümesinin hazýrlanmasýnýn çok
emek gerektirmesinden dolayý bu yöntemlerin uygulanabilirliði düþüktür.
Sözcük sýralarýný deðiþtirmeden, sadece sözcükleri bire bir çevirerek gerçekleþtirilecek
doðrudan aktarým yöntemi gerek söz dizimi çözümlemesi gibi daha üst seviyede bilgilere
gerekse de istatistiksel yöntemlerin kullandýðý gibi büyük miktarlarda paralel eðitim verilerine
ihtiyaç duymadýðý için en uygun yöntem olarak görülmektedir. Ayrýca doðrudan aktarým
yöntemi sadece sonlu durum yöntemleri kullanýlarak gerçekleþebilmektedir. Bunun sonucu
olarak düzenli ve hýzlý çalýþan bir aktarým yöntemi gerçeklenebilir. Türk dilleri gibi bitiþken
diller söz konusu olduðunda doðrudan aktarým yöntemi aþaðýdaki sýrayla geliþtirilmiþtir:
1- Kaynak dilin biçim bilimsel çözümlemesi
2- Biçim bilimsel yapýlarýn hedef dile aktarýlmasý
3- Sözcük kökünün hedef dile aktarýlmasý
4- Hedef dilde biçim bilimsel üretici ile sözcüðün yüzeysel biçiminin üretilmesi
Türk dillerinin bitiþken yapýsýndan dolayý kaynak tümcedeki bir sözcüðün karþýlýðýný sözlükte
olduðu gibi arayýp bulmak mümkün deðildir. Bu noktada bir ön iþlem olarak biçim bilimsel
çözümlemenin yapýlmasý gereklidir. Biçim bilimsel çözümleme sonucunda sözcük kökü ve
diðer biçim bilimsel yapýlar ortaya çýkar. Doðrudan aktarým kaynak dildeki bu yapýlarýn (sözcük
kökü ve biçim bilimsel yapýlar) hedef dile iki aþamalý olarak aktarýmý biçiminde algýlanmalýdýr.
Her ne kadar Türk dillerinin söz dizimsel ve biçim bilimsel yapýlarý birbirlerine yakýn olsa da bu
diller arasýnda biçim bilimsel farklýlýklar da azýmsanmayacak boyuttadýr. Biçim bilimsel
farklýlýklarý gidermek üzere bir takým biçim bilimsel dönüþüm kurallarý gerçeklenmeli ve bu
kurallarýn iþletilmesi sonucunda kaynak dildeki biçim bilimsel yapýlar, hedef dil için geçerli
biçim bilimsel yapýlar hâline gelmelidir.
Ýkinci aþama olarak kaynak dilde çözümlenen sözcük kökünün karþýlýðý aktarým sözlüðünden
bulunmalý ve hedef dildeki karþýlýðý veya karþýlýklarý ile deðiþtirilmelidir.
Son adýmda ise elde edilen biçim bilimsel yapý, hedef dilin biçim bilimsel üreticisi tarafýndan
yüzeysel biçime çevrilir.
Anlatýlan geliþtirilmiþ doðrudan aktarým yöntemine göre Türkmence bir sözcüðün Türkçe
karþýlýðýnýn oluþturulma süreci Þekil-3.12’de gösterilmiþtir.
eñrejekdirin
Biçimbilimsel çözümleme
eñre+Verb+Pos+Fut+Cop+A1sg
Biçimbilimsel aktarým
eñre+Verb+Pos+Fut+A1sg+Cop
Kök aktarma
aðla+Verb+Pos+Fut+A1sg+Cop
Biçimbilimsel üretme
aðlayacaðýmdýr
Þekil-3.12 : Örnek Türkmence sözcüðün Türkçe karþýlýðýnýn oluþturulmasý
Geliþtirilmiþ doðrudan aktarým yönteminde dahi biçim bilimsel çözümleme ve sözcük kökü
aktarýmýnda belirsizlikler ortaya çýkacaktýr. Bu belirsizliklerin çözülmesi, doðrudan aktarým
yöntemini kullanan sistemlerde karmaþýk kurallarla saðlanýr. Bunun yerine, doðrudan aktarým
yaklaþýmýný istatistiksel yöntemlerle birleþtiren modeller kullanýlarak Türk dilleri arasýnda BÇ
sistemleri gerçeklenebilir. Bu amaçla, Model 0 (temel model) üzerine gerçeklenmiþ kuramsal
bir çeviri sisteminin bileþenleri ve veri akýþý ’de verilmiþtir. Bu þekilde kesikli çizgili
dikdörtgenler veri kaynaklarýný, düz çizgili dikdörtgenler ise süreçleri göstermektedir.
3.7.1 Kaynak Dilde Biçim Bilimsel Çözümleme
Biçim bilimsel çözümleme Türk dilleri gibi bitiþken diller için doðal dil iþleme alanýnda
yapýlacak her iþlemde gerek duyulan bir aþamadýr. Sözcüðün yüzeysel biçimlerinin sayýsýnýn
çok fazla olduðu diller için biçim bilimsel çözümleme olmadan aktarým sözlükleri hazýrlamak
veya aktarým kurallarý geliþtirmek olanaksýzdýr. Dolayýsý ile kaynak dil olarak hangi Türk dili
seçilirse seçilsin, bu dil ile ilgili biçim bilimsel çözümleyicinin de hazýrlanmasý gerekmektedir.
Türkçe için geliþtirilmiþ geniþ kapsamlý ve yüksek baþarýmlý bir biçim bilimsel çözümleyici
Kaynak dilde tümce
Kaynak dilde biçimbilimsel çözümleyici
C(sk)
Biçimbilimsel yapýlarý aktarýcý
A(cij)
Aktarým sözlüðü
Eðitim derlemi
Kök sözcük aktarýcý
ÝDM
Arg max
c(S)
i
HB
Hedef dilde biçimbilimsel üretici
U(HB)
H
Hedef dilde tümce
Þekil-3.13 : Temel modeli gerçekleyen örnek bir çeviri sistemi
elimizde bulunmaktadýr. Diðer Türk dilleri için bu tür bir çözümleyicinin varlýðý (Kýrým
Tatarcasý hariç) bilinmemektedir.
Kaynak dil olarak seçilen dil Türkçenin dýþýnda bir Türk dili ise bu dil için bir biçim bilimsel
geliþtiricinin gerçekleþtirilmesi ön koþuldur. Burada dikkat edilecek en önemli nokta
geliþtirilecek çözümleyicinin var olan Türkçe biçim bilimsel çözümleyici ile benzer mantýkla
çalýþacak ve benzer biçim bilimsel etiketler üretecek þekilde tasarlanmasýdýr. Bu sayede aktarým
kurallarý (yani A fonksiyonu) daha basit hâle getirilebilir.
3.7.1.1 Kaynak Dilde Biçim Bilimsel Belirsizliðin Giderilmesi
Türkçe gibi karýþýk bir biçim bilimsel yapýya sahip dillerde biçim bilimsel çözümleme sonuçlarý
çoðu zaman birden fazladýr. Bu ise biçim bilimsel belirsizliðin ortaya çýkmasýna neden
olmaktadýr. Eðer kaynak Türk dili için biçim bilimsel belirsizliði gidermek üzere bir araç varsa
bu araç kullanýlarak istatistiksel sürecin karmaþýklýðý azaltýlabilir.
Türkçe için biçim bilimsel belirsizliklerin giderilmesi ile ilgili birçok çalýþma olmasýna karþýn
bu çalýþmalarýn sonucunda yüksek baþarýmlý bir araç henüz genel kullanýma sunulamamýþtýr.
iðer Türk dilleri için ise bu konuda bir çalýþmaya rastlanamamýþtýr. Biçim bilimsel belirsizlik
gidericilerin tasarlanmasý için kullanýlan birçok yöntem gözetimli çalýþtýðý için elle iþlenmiþ çok
miktarda eðitim verisine gerek duyulmaktadýr. Türkçe dýþýndaki diðer Türk dilleri için henüz
böyle bir eðitim kümesi olmamasýndan dolayý bilinen yöntemler kullanýlarak bu diller için bir
biçim bilimsel belirsizlik giderici tasarlanmasý yoluna gidilememektedir.
3.7.2 Sözcük Köklerinin Kaynak Dilden Hedef Dile Aktarýmý
Kural tabanlý bütün bilgisayarlý çeviri sistemlerinde olduðu gibi öngörülen temel model için de
bir aktarým sözlüðü gereklidir. Aktarým sözlüðünde kaynak dildeki sözcük bazýnda arama
yapýlabilmeli ve buna karþýlýk gelen hedef dildeki tüm sözcükler üretilebilmelidir. Bu noktada
altý çizilmesi gereken konu sözcük kökü aktarýmý sýrasýnda birden fazla karþýlýk
üretilebileceðidir. Yani bu bileþenin ürettiði sonuçlar içerisinde bir belirsizlik vardýr. Söz
konusu bu belirsizlik sözcüksel belirsizlik olarak adlandýrýlmaktadýr.
bar è var, bütün
Belirsizliði bir kademe azaltmak amacý ile sadece sözcük köküne bakarak arama yapmak yerine
sözcük kökü ve sözcük türüne göre arama yapýlabilir. Böylelikle yazýmý ayný ancak sözcük
türleri farklý olan sözcük kökleri daha az bir belirsizlikle aktarýlabilir:
bar (sýfat) è bütün (sýfat)
bar (eylem) è var (eylem)
Aktarým sözlüðü tasarlanýrken sözcük türlerine göre sýnýflandýrma yapýlabilirse bu sayede
belirsizliðin derecesi düþürülebilir.
3.7.3 Biçim Bilimsel Yapýlarýn Kaynak Dilden Hedef Dile Aktarýmý
Kaynak ve hedef dil arasýndaki biçim bilimsel farklýlýklarý gidermek üzere bir dizi dönüþümün
yürütüldüðü aktarým bileþenidir. Bu dönüþüm, kaynak dildeki biçim bilimsel çözümleme
sonucunda üretilen biçim bilimsel özelliklerin, hedef dil biçim bilimsel üreticinin beklediði
þekile dönüþtürme iþlemi olarak da nitelendirilebilir. Bu aþamada sözcük köküne
dokunulmadan sadece biçim bilimsel etiketler üzerinde dönüþtürme ve sýra deðiþtirme iþlemleri
yapýlýr. Bu kurallar iki dil arasýndaki biçim bilimsel farklýlýklar incelenerek geliþtirilir. Diðer bir
yöntem ise birbirlerinin çevirisi olan kaynak ve hedef dildeki biçim bilimsel yapýlarý içeren bir
eðitim kümesi üzerinde, bilgisayar öðrenmesi yöntemlerinden birisinin eðitilerek kurallarýn
otomatik olarak üretilmesidir.
3.7.4 ÝDM Bileþeni
Önerilen aktarým modellerinde yer alan bütün bileþenler içerisinde iki bileþenin çýktýlarý
belirsizlik içermektedir: kaynak dilde biçim bilimsel çözümleyici ve kök aktarýmý. Eðer önceki
bölümde anlatýlan kaynak dilde biçim bilimsel belirsizlik giderici kullanýlabilir durumda ise
biçim bilimsel belirsizlik elenir ve sadece sözcüksel belirsizlik kalýr.
Gerek biçim bilimsel belirsizlik, gerekse de sözcüksel belirsizliðin giderilmesini amaçlayan
ÝDM bileþeni, istatistiksel yöntemlerle en olasý sözcük dizisini (yani tümceyi) belirler. Bu
amaçla daha önce anlatýlan ÝDM’ler kullanýlmaktadýr. Ancak gene Türk dillerinin türetme ve
çekim özelliklerinden dolayý ÝDM’ler salt biçimde kullanýlamaz. Sözcüklerin sadece yüzeysel
biçimlerini içeren bir ÝDM’de seyrek veri sorunu ortaya çýkmaktadýr. Bunu önlemek için farklý
tiplerde ÝDM’lerin kullanýlmasý yoluna gidilebilir.
Örneðin, sözcüklerin yüzeysel biçimleri yerine sadece sözcük kökleri üzerine kurulmuþ bir
ÝDM kullanýlmasý durumunda, hedef dilde ortaya çýkan sözcüksel belirsizliðin giderilmesi
saðlanabilir.
Aktarým sistemindeki ÝDM bileþenine girdi olarak kaynak dildeki tümcenin bütün sözcüklerinin
aday çevirileri gelir. Bileþenin çýktýsý olarak ise tüm kombinasyonlar içerisinden seçilen
ÝDM’ye göre en yüksek olasýlýða sahip tümce üretilir.
Olasý tüm kombinasyonlarýn tamamýnýn olasýlýklarýnýn hesaplamasý yerine aday sözcüklerden
bir Hidden Markov Modeli (HMM) oluþturularak üzerinde Viterbi algoritmasýnýn
çalýþtýrýlmasýyla en yüksek olasýlýklý sözcük dizisi elde edilebilir.
Þekil-3.14'te Türkmence bir tümce Türkçeye çevrilirken oluþturulan bir HMM örneði
verilmiþtir. Þekil-3.14'teki özel simgeler <s> ile </s> sýrasýyla tümce baþýný ve sonunu iþaret
eden simgelerdir. HMM’deki gözlem olasýlýklarý 1 seçilerek sadece durum geçiþ olasýlýklarýnýn
kullanýlmasý saðlanmýþtýr. Þekilde durum geçiþlerini gösteren oklara iliþtirilmiþ olarak
sözcüklerin seçilen ÝDM’ye göre olasýlýklarý bulunmaktadýr. Örneðin ”ne” ile ”için” durumlarý
arasýndaki ok, P(“için”|”ne”) olasýlýðýný, <s> ile ”ne” arasýndaki ok ise P(“ne”|<s>)
Türkmence
Tümce
näme
näme
üçin
üçin
Ne
adamlar
adam
kim
dillerde
dil
türlü
Adam
gepleyärler
geple
konuþ
insan
Için
<s>
dürli
dürli
dil
</s>
söyle
Þekil-3.14 : Örnek bir tümcenin HMM ile çözümlenme süreci
olasýlýðýný (tümcenin baþýnda ”ne” sözcük kökünün olma olasýlýðýný) göstermektedir. Viterbi
algoritmasý ile de bu HMM üzerinde en olasý yol bulunur. Bu yol üzerindeki sözcükler seçilerek
oluþturulan tümce hedef dilde olasýlýðý en yüksek çeviridir.
Çizelge-4 ve Þekil-3.14’te kurulan HMM üzerinden hesaplanan en olasý 3 aday tümce
gösterilmiþtir. Farklý derecelerde kök dil modelleri kullanýlarak aday tümcelerin olasýlýklarý
hesaplanmýþtýr. Kalýn harflerle yazýlan tümce, doðru çeviriyi göstermektedir .
Çizelge-4 : ÝDM ile En Olasý Tümcenin Bulunmasý
ÝDM Derecesi
n=1
n=2
n=3
Sýra
Log.
Olasýlýk
ne için insanlar türlü dillerde söylüyorlar
1
-17.2978
ne için insanlar türlü dillerde konuþuyorlar
2
-17.5196
ne için adamlar türlü dillerde söylüyorlar
3
-17.7816
1
-18.1625
ne için adamlar türlü dillerde konuþuyorlar
2
-18.3105
kim için insanlar türlü dillerde konuþuyorlar
3
-18.6553
1
-18.2265
kim için insanlar türlü dillerde konuþuyorlar
2
-18.6196
ne için adamlar türlü dillerde konuþuyorlar
3
-18.6294
En Olasý 3 Tümce
Türkçede dil ismi ile birlikte söylemek yerine daha çok konuþmak eylemi kullanýlmaktadýr.
Buna uygun olarak da tek baþýna sözcük sýklýklarýna bakýldýðýnda (n=1) söylemek eylemi
konuþmak eyleminden daha çok geçmesine karþýn ÝDM derecesi arttýkça konuþmak eylemini
içeren tümcelerin olasýlýðýnýn yükseldiði görülmektedir.
3.7.5 Hedef Dilde Biçim Bilimsel Üretici
ÝDM bileþeninin çýktýsý yüzeysel biçimdeki sözcükler yerine yapýsal biçimdeki sözcüklerden
oluþan bir tümcedir. Bu tümcede yer alan tüm sözcükler, hedef dile iliþkin bir biçim bilimsel
üreticiden geçirilerek yüzeysel biçimler oluþturulmalý ve sistemin son çýktýsý olan tümce
üretilmelidir. Bu amaçla hedef dile iliþkin bir biçim bilimsel üreticiye gerek duyulmaktadýr.
Türkçe için geliþtirilen biçim bilimsel çözümleyici, SDD olarak tasarlandýðý için ters yönde
çalýþtýrýldýðýnda biçim bilimsel üretici olarak iþ görmektedir. Üstelik Türkçe için bu ters
çalýþtýrma durumunda herhangi bir belirsizlik oluþmamaktadýr. Yani yapýsal biçimde bir
sözcüðe karþýlýk, o sözcüðe ait sadece bir yüzeysel sözcük üretilmektedir. Türkçe dýþýndaki
diðer Türk dilleri için bilinen bir biçim bilimsel üretici yoktur.
3.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni
Bir önceki bölümde ayrýntýlarý açýklanan çeviri modellerinin bir uygulamasý olarak
Türkmenceden Türkçeye bir çeviri sistemi tasarlanmýþ ve gerçekleþtirilmiþtir. Çeviri sistemi ilk
olarak Model 0’a (temel model) uygun olarak gerçekleþtirilmiþ daha sonra ise bu temel model
üzerine Model 1 ve Model 2’nin getirdiði iyileþtirmeler eklenmiþtir.
Gerçekleþtirilen uygulamada aktarým fonksiyonunda yer alan bütün bileþenler SDD biçiminde
tasarlanmýþtýr.
3.8.1
Aktarým Modeli 0 Gerçeklemesi
Aktarým Modeli 0’ý temel alarak tasarlanan Türkmenceden Türkçeye çeviri sisteminin bileþen
þemasý Þekil-3.15’de verilmiþtir:
Türkmence
metin
Karakter Düzeltici
Tümce / sözcük Ayýrýcý
Biçimbilimsel Çözümleyici
Biçimbilimsel Yapýlarýn Aktarýmý
Türkçe
metin
Aktarým sözlüðü
Kök Sözcük aktarýmý
Eðitim derlemi
ÝDM
Karakter Düzeltici
Hedef dilde biçimbilimsel üretici
Þekil-3.15 : Aktarým Modeli 0 temelinde oluþturulan sistemin bileþenleri
3.8.1.1 Türkmence Biçim Bilimsel Çözümleyicinin Geliþtirilmesi
Ýki-düzeyli biçim bilimsel çözümleme ilkeleri esas alýnarak Xerox sonlu durumlu araçlarýyla
Türkmence için bir biçim bilimsel çözümleyici tasarlanmýþtýr. Bu biçim bilimsel
çözümleyicinin tasarým aþamalarý aþaðýdaki bölümlerde verilmiþtir.
3.8.1.1.1 Türkmen Dilinin Biçim Bilimsel Özellikleri
Türkmence dilinin biçim bilimsel yapýsý Türkçe ile benzerlik göstermektedir. Özellikle isim
çekimlerinde eklerin türleri ve geliþ sýralarý Türkçeye çok benzerdir. Bu benzerliklerden dolayý
Türkçe için gerçekleþtirilmiþ olan biçim bilimsel çözümleyici temel olarak alýnmýþtýr.
Her ne kadar Türkmence, Türkçeye en çok benzeyen dillerden birisi olsa da iki dil arasýnda
harfler, ses olaylarý, sözcük çekimleri ve anlamsal açýdan pek çok farklýlýklar bulunmaktadýr .
Türkmencenin Türkçeye benzerliði ilk bakýþta yararlý görülse de bazý açýlardan zararlý
olmaktadýr. Örneðin Türkçe ile bire bir ayný olan bazý sözcükler veya ekler Türkmencede farklý
anlamlara gelmektedir. Türkçe bilen birisi, Türkmence öðrenirken bu tür yanýlgýlara kolayca
düþebilmektedir.
Ses Olaylarý
Türkçeye en yakýn dillerden biri olsa da Türkmencede yazý dili ile konuþma dili
arasýnda büyük farklýlýklar bulunmaktadýr. Aslýnda Türkçede de bütün sözcükler
yazýldýðý gibi okunmaz ama Türkmencede bu durum istisna olmaktan çýkmýþ ve çok
sýk karþýlaþýlan bir durum olmuþtur. Maalesef kýsýtlý sayýdaki Türkmence dil bilgisi
kaynaklarýnýn çoðunda yazý dili ile konuþma dili arasýndaki ayrým net olarak
verilmemiþtir. Bu nedenle bazý kurallarýn sadece konuþma dili için geçerli olduðunu
ortaya çýkarmak oldukça zahmetli olmuþtur.
Türkmencede sözcüklerin okunuþlarý ile yazýlýþlarý arasýnda Türkçenin tersine çok
büyük farklýlýklar bulunmaktadýr. Bütün seslilerin kýsa ve uzun okunuþlarý
bulunmaktadýr. Ancak yazý dilinde herhangi bir seslinin kýsa mý uzun mu okunacaðýna
iliþkin bir iþaret yoktur. Aþaðýda bu konu ile ilgili örnekler verilmiþtir (uzun okunan
sesliler, “:” iþaretiyle belirtilmiþtir):
Uzun Okunuþ
Kýsa Okunuþ
at
(a:t)
ad, isim
at
(at)
at
ot
(o:t)
ateþ
ot
(ot)
ot
daþ
(da:þ)
taþ
daþ
(daþ)
dýþ
Türkmencede büyük ünlü uyumu vardýr. Sözcüklerin bazýlarý küçük ünlü uyumuna
uyarken bazýlarý da uymaz. Türkçede geniþ yuvarlak seslilerden (o, ö) sonra dar
yuvarlak (u, ü) veya geniþ düz (a, e) seslileri gelir. Türkmencede ise o, ö seslilerinden
sonra dar düz sesliler (y, i) gelir. Bu nedenle Türkmencede bazý sözcükler küçük ünlü
uyumuna uymaz.
Türkmencede de Türkçede olduðu gibi sessiz yumuþamasý vardýr. Sözcük sonundaki
p, ç, t, k sessizleri, sesli ile baþlayan bir ek aldýklarýnda b, c, d, g harflerine dönüþürler.
Sessiz benzeþmesi de kýsmen görülür.
Sesli düþmesi kuralý ise Türkmencede daha kurallýdýr. Bir seslinin düþmesi için:
1. iki heceli sözcük olmalý
2. ilk S kýsa, hece açýk olmalý (S, ZS)
3. ikinci hece kapalý olmalý (ZSZ)
Ancak ne yazýk ki 2. maddede söylenen S’nin yani ünlünün kýsa olmasý yazý dilinde
belirtilmemektedir.
Okunuþlarla ilgili birçok kurala, biçim bilimsel çözümleyicinin geliþtirilmesi ile ilgisi
olmadýðý için burada yer verilmeyecektir.
Tekillik / Çoðulluk
Çoðulluk ekleri +lar ve +ler Türkçedeki ile ayný þekilde kullanýlýr.
Belirtme Durumu
Belirtme durumu eki Türkçedekinden farklý olarak sadece +y ve +i eklerinden
oluþmaktadýr. Ancak Türkçede ekten önce ünlü harf bulunursa araya n harfi yerine y
harfi gelir:
kitaby (kitabý)
goly (kolu)
gözi
güli (güli)
(gözü)
baþy(baþý)
Yönelme Durumu
Türkçedeki gibi +a ve +e ekleri ile kurulur.
depdere (deftere)
göze(göze)
bilbile (bülbüle)
Ünlü ile biten isimlerde, yaklaþma durumu eki (+a, +e, +ä) farklýlýk göstermektedir.
i)
–a, –o ile biten sözcüklere yaklaþma durumu eki eklenmez, yaklaþma durumu
sadece sözcüðün sonunda seslinin uzun okunuþu ile belirtilir.
ata
(ata)
baba
ata
(ata:)
babaya
ii)
–i, –e, –ä ile biten sözcüklere yaklaþma durumu eki geldiðinde sözcüðün son
seslisi –ä olarak deðiþir.
Berdi Þ Berdä
Berdi Þ Berdi’ye
iii)
–y seslisi ile biten sözcüklere yaklaþma durumu eki geldiðinde, sözcüðün son
seslisi –a seslisi olarak deðiþir.
Mary Þ Mara
Marý Þ Marý’ya
Kalma Durumu
Türkçedekine benzer olarak +da, +de ekleri ile kurulur. Türkçedeki kullanýmdan tek
farký bu eklerin ünsüz benzeþmesine uymamasýdýr (+ta, +te hâlleri yoktur):
guþda (kuþta)
altda (altta)
kitapda (kitapta)
Kalma durumundan sonra –ki eki gelirse kalma durumu ekindeki sesli uzar:
depderdäki (defterdeki) bizdäki (bizdeki) süýtdäki (sütteki)
kitapdaki (kitapdaki) adamdaki (adamdaki) ondaki (ondaki)
Çýkma Durumu
Çýkma durumu, +dan ve +den ekleri ile kurulur. Bu ekler de ünsüz benzeþmesine
uymazlar:
öýden (evden) altdan (alttan) kitapdan (kitaptan)
Tamlayan Durumu
Tamlayan durumu ekleri +yñ, +iñ, +uñ ve +üñ ekleridir:
goluñ (kolun)
burnynyñ (burnunun)
diliñ (dilin)
Ýsim çekimi ve eylem çekimi açýsýndan incelendiðinde Türkmence isim çekimi
yönünden Türkçeye çok benzerken eylem çekiminde ciddi farklýlýklar vardýr.
Özellikle çatý kurulumu Türkmencede Türkçeye oranla çok daha karmaþýktýr.
Türkçede çatý kurulumu genelde aþaðýdaki gibidir:
gör"mek
(Yalýn)
görüþmek
(Ýþteþ)
görüþtürmek
(Ýþteþ-Ettirgen)
görüþtürülmek
(Ýþteþ-Ettirgen-Edilgen)
Sadece bazý durumlarda ettirgenlik birkaç defa tekrarlanabilir.
Türkmencede ise çatý eklerinin geliþ sýrasý çok daha karýþýktýr:
Çizelge-5 : Türkmencede Çatý Eklerinin Sýralanýþý
Ýki Çatý Ekli Eylemler
Üç Çatý Ekli Eylemler
Dört Çatý Ekli Eylemler
Ettirgen + Dönüþlü
Dönüþlü + Edilgen
Ýþteþ + Edilgen
Ettirgen + Edilgen
Dönüþlü + Ýþteþ
Edilgen + Ýþteþ
Ettirgen + Ýþteþ
Ýþteþ + Ýþteþ
Dönüþlü + Ettirgen
Ýþteþ + Ettirgen
Ettirgen + Ettirgen
Dönüþlü + Ettirgen + Edilgen
Ýþteþ + Ettirgen + Edilgen
Ettirgen + Edilgen + Ýþteþ
Dönüþlü + Ettirgen + Ýþteþ
Dönüþlü + Ýþteþ + Ettirgen
Edilgen + Ýþteþ + Ettirgen
Ettirgen + Ýþteþ + Ettirgen
Dönüþlü + Ettirgen + Ettirgen
Dönüþlü + Ýþteþ + Ettirgen + Edilgen
Ettirgen + Dönüþlü + Ettirgen + Edilgen
Ayrýca Türkmencede bazý eylem kipleri çekilmezler. Örneðin gelecek zamaný belirten +jek /
+jak ekinden sonra kiþi çekim eki gelmez. Örnek kullanýmý aþaðýdaki gibidir:
Men geljek (geleceðim)
Sen geljek (geleceksin)
O geljek
([o] gelecek)
Ayrýca gereklilik kipi +malý / +meli de benzer þekilde kiþi eki almaz.
Ancak bu kiplere kesinlik anlamý katan +dyr eki geldiðinde, bu +dyr ekinden sonra kiþi çekim
ekleri gelebilir.
Men geljekdirin.
(geleceðimdir)
Türkmencede, Türkçede bulunmayan bazý kipler de vardýr. Örnek olarak bir iþ için hazýrlýk
yapýldýðýný veya o iþin yapýlmasýnýn düþünüldüðünü gösteren +mekçi / +makçy eki
bulunmaktadýr. Bu ek de istisna olarak çekim eki almayan kipler grubundandýr.
Belirsiz geçmiþ zaman eki olarak kullanýlan +mýþ / +miþ eki Türkmencede ilk zaman olamaz.
Bunun yerine +ypdy / +ipdi / +updu / +üpdü ekleri gelmektedir. Ancak ikinci zaman olarak
+mýþ / +miþ eki gelebilmektedir.
Türkçede geniþ zaman olarak kullanýlan +ar / +er eki, Türkmencede gelecek zaman anlamýný
taþýmaktadýr.
Gene Türkçedekine benzer þekilde geniþ zamanýn 3. tekil þahsýnýn olumsuzu farklýdýr. Ancak
daha büyük bir farklýlýk olarak bazý kiplerde olumsuzluk eki olarak +ma / +me gelmemekte
bunun yerine eylemden sonra däl (“deðil”) getirilmektedir. Örnek:
Men gelcek däl
Kimi durumlarda däl eylemi de çekime uðramaktadýr.
Biçim Bilimsel Çözümleyicinin Gerçeklenmesi
Türkmence için biçim bilimsel çözümleyici geliþtirirken iki düzeyli biçim bilimsel çözümleme
yöntemi benimsenmiþ ve XEROX’un sonlu durumlu araçlarýndan yararlanýlmýþtýr. Öncelikle
kökler ve eklerle ilgili durum geçiþleri yani morfotaktik kurallar tasarlanmýþ ve LEXC
aracýlýðýyla gerçekleþtirilmiþ, daha sonra iki-düzeyli kurallar TWOLC ile oluþturulmuþtur. Ek
olarak bazý geçersiz durumlarýn elenmesi için XFST ortamýnda kurallar yazýlmýþ ve elde edilen
bu üç SDD birleþtirilerek tek bir SDD elde edilmiþtir. Oluþan bu çözümleyici ters yönde
çalýþtýrýldýðý zaman üretici olarak da çalýþabilmektedir.
3.8.1.1.2 Ýki Düzeyli Kurallar
Türkmencedeki çeþitli ses olaylarýný ve deðiþimlerini gerçekleþtirmek için bir dizi iki-düzeyli
kural tanýmlanmýþ ve TWOLC derleyicisi yardýmý ile bu kurallarý gerçekleþtirilen bir SDD
oluþturulmuþtur.
Ýki düzeyli kurallarý tanýmlamadan önce bu kurallarýn üzerinde iþlem göreceði abecenin
tanýmlanmasý gerekmektedir. Bu abece güncel Türkmen harfleri ile sadece ara aþamalarda
kullanýlan ve yazýda görünmeyen bazý ek karakterler içermektedir. Her ne kadar TWOLC
derleyicisi UTF-8 karakter kümesini destekleyerek standart olmayan ASCII karakterlerinin
kullanýmýna izin verse de bu tür bir kullanýmda hata ayýklama ve komut satýrýndan sýnamalarýn
yapýlmasý olanaksýz olmaktadýr. Bu nedenle standart ASCII tablosunda olmayan karakterler için
bir ASCII karakteri, Çizelge-6'daki gibi seçilmiþ ve kurallarda bu þekilde gösterilmiþtir.
Çizelge-6 : ASCII olmayan karakterler yerine kullanýlan karþýlýklar
ASCII dýþý karakterler
ü
ö
Ç
ñ
þ
ý
Ÿ
ä
Seçilen ASCII karþýlýk
U
O
C
N
S
Y
Z
E
3.8.1.2 Kök Sözcük Aktarým Kurallarý
Biçim bilimsel çözümlemesi yapýlmýþ Türkmence sözcük köklerinin Türkçeye aktarýlmasýný
saðlayan kurallar SDD’ler ile gerçekleþtirilmiþtir. Örnek bir aktarým kuralý aþaðýda verilmiþtir:
“tatlý” ¬ “Yakymly”
Daha önce belirtildiði gibi, bu aktarým kurallarýnda sözcük türlerinin kullanýlmasý sözcüksel
belirsizliði azaltmaktadýr. Yazýlan kurallar bu ilke çerçevesinde oluþturulmuþ ve kurallarýn sað
baðlamlarý sözcük türleri ile kýsýtlandýrýlmýþtýr:
“gri” ¬“boz” \/ _ “+Adj” .o.
“sil” ¬ “boz” \/ _ “+Verb”
Bu sayede sistemin rastladýðý bütün “boz” köklerini, “gri” ve “sil” kökleri ile deðiþtirmesinin
önüne geçilerek aktarýlacak sözcüðün sýfat veya eylem olma durumuna göre sadece uygun
karþýlýklarýn dönüþtürülmesi saðlanmýþtýr. Kök aktarým bileþenin örnek girdisi ve çýktýsý
Þekil-3.16'da verilmiþtir:
(Bozypdy)
Boz+Verb+Pos+Narr+Past+A3sg
Kök Aktarýcý
(Silmiþti)
Sil+Verb+Pos+Narr+Past+A3sg
Þekil-3.16 : Kök aktarým bileþeni
3.8.1.2.1 Birden Fazla Sözcükten Oluþan Kaþýlýklar
Dillerin doðasý gereði Türkmencede bir tek sözcükle ifade edilen bazý kavramlar Türkçede bir
tek sözcük ile ifade edilememekte ancak iki veya daha fazla sözcükten oluþan ÇSG’ler ile ifade
edilebilmektedir. Bu durumda kök deðiþtirmek yerine daha akýllý bir yönteme baþvurulmasý
gereklidir. Bu tür durumlara örnek olarak aþaðýdaki sözlük girdileri gösterilebilir:
Türkmence
boþatmak
dillenmek
entegem
Türkçe
özgür býrakmak
dile gelmek
uzun süre
Hedef dil karþýlýðý ÇSG olan sözlük girdileri için standart kök aktarým kurallarý yerine geliþmiþ
kurallarýn oluþturulmasý gereklidir. Önemli olan bir diðer nokta da, bu deðiþtirme sürecinde
ÇSG’nin son sözcüðü hariç bütün sözcüklerin yapýsal biçimde olmasý zorunluluðudur. Bu,
hedef dilde üretilecek tüm sözcüklerin biçim bilimsel özelliklerinin de bulunmasý zorunluluðu
anlamýna gelmektedir çünkü sistemin diðer bileþenleri yürütülürken, sözcüklerin yapýsal
biçimlerine gerek duymaktadýr.
Türkçede ÇSG’lerin türetme ve/veya çekim eklerinden etkilenen kýsmý sadece ÇSG’nin
sonunda yer alan sözcüktür. Bu gerçekten hareketle kaynak dildeki sözcüðe ait biçim bilimsel
özelliklerin hedef dildeki ÇSG’nin sonundaki sözcüðe ait olduðu, ÇSG’nin baþýnda yer alan
diðer sözcüklerin sabit bir yapýya sahip olduðu sonucuna varýlabilir. Bu koþullarla yukarýdaki
sözlük girdilerini aktarmak üzere oluþturulmasý gereken kurallar aþaðýda verilmiþtir:
“dil+Noun+A3sg+Pnon+Dat gel” <- “dillen”
“özgür+Adj býrak” <- “boSat”
“uzun+Adj süre+Noun+A3sg+Pnon+Nom”<-"entegem+Adverb"
Þekil-3.17'de ise kök aktarýcýnýn örnek bir ÇSG’yi aktarmasý gösterilmiþtir. Altý çizili olmayan
Türkmence biçim bilimsel yapýlarýn, ÇSG’nin son sözcüðüne eklendiði görülmektedir.
boþa+Verb+Pos+Narr+Past+A3sg
Kök Aktarýcý
Özgür+Adj býrak+Verb+Pos+Narr+Past+A3sg
Þekil-3.17 : ÇSG’lerin Aktarýlmasý
3.8.1.2.2 Sözcüksel Aktarým Kurallarý
Uygulamada ortaya çýkan bazý durumlar göstermiþtir ki birtakým sözcükler için sadece sözcük
kökünü deðiþtiren basit bir kural yeterli olmamaktadýr. Örneðin Türkmencedeki ulumsy
sözcüðü Türkçedeki kibirli sözcüðünün karþýlýðýdýr. Standart kurallar uygulanarak sadece
sözcük kökü deðiþtirildiðinde aþaðýdaki dönüþtürme iþlemi gerçeklenir:
kibirli+Adj <- ulumsy+Adj
Ýlk bakýþta göze çarpan herhangi bir sorun olmamasýna karþýn oluþan yapýsal biçimdeki sözcük,
Türkçe biçim bilimsel üretici tarafýndan yüzeysel biçime dönüþtürüleceði zaman herhangi bir
çýktý üretilememektedir. Bunun altýnda yatan neden ise Türkçedeki kibirli sözcüðünün aslýnda
türemiþ bir sözcük olmasý ve bu sözcüðün doðru yapýsal biçiminin aþaðýdaki gibi olmasýdýr:
kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With
Ortaya çýkan bu sorunun düzeltilmesi için Türkmencedeki ulumsy sözcüðü için aþaðýdaki gibi
özel bir kural oluþturulmalýdýr:
“kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With”<-"ulumsy+Adj"
Örnekte açýklandýðý gibi sözcüðe baðlý özel durumlarý kotaran kurallar, sözcüksel kurallar
olarak adlandýrýlmýþtýr.
Ancak her iki dilde de ortak olan türetme ekleri ile türetilebilecek sözcükler için ayrý kurallarýn
oluþturulmasýna gerek yoktur. Örneðin Türkmencedeki +lyk eki ile Türkçedeki +lýk eki, sýfattan
isim yapan ayný göreve sahip iki yapým ekidir. Dolayýsýyla Türkmencede bulunan ulumsylyk
sözcüðünün karþýlýðý da kibirlilik sözcüðüdür. Her iki sözcüðün biçim bilimsel çözümlemesi
aþaðýda belirtilmiþtir:
ulumsy+Adj^DB+Noun+Ness+A3sg+Pnon+Nom
kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With^DB+Noun+Ness+A3sg+Pnon+Nom
Örnekten de görüldüðü gibi kalýn ve altý çizili olarak gösterilmeyen biçim bilimsel yapýlar
aynýdýr. Dolayýsýyla bu iki sözcük için ayrý bir sözcüksel aktarým kuralý hazýrlanmasýna gerek
yoktur, yukarýda anlatýlan ve ulumsy sözcüðünü aktaran sözcüksel aktarým kuralýnýn çalýþmasý
yeterli olmaktadýr.
3.8.1.2.3 Biçim Bilimsel Aktarým Kurallarý
Türkmence ve Türkçe arasýndaki biçim bilimsel farklýlýklarýn giderilerek Türkmence biçim
bilimsel çözümleme sonucu üretilen yapýlarýn, kabul edilebilir Türkçe biçim bilimsel yapýlara
dönüþtürülmesini saðlayan kurallardýr.
Örneðin Türkmencede bulunan ve emir kipinin 1. tekil ve 1. çoðul kiþiler için çekimi Türkçede
istek kipine karþýlýk gelmektedir:
Türkmence
alaYyn (al+Verb+Pos+Imp+A1sg)
algyn (al+Verb+Pos+Imp+A2sg)
alsyn (al+Verb+Pos+Imp+A3sg)
Türkçe Karþýlýðý
alayým (al+Verb+Pos+Opt+A1sg)
al
(al+Verb+Pos+Imp+A2sg)
alsýn (al+Verb+Pos+Imp+A3sg)
Her iki dil arasýndaki biçim bilimsel farklýlýklardan bir tanesi de Türkmencede olup da Türkçede
olmayan eylem kipleridir. Örneðin Türkmencede "+makçy/+mekçi” eki ile kiþinin, ekin geldiði
eylemi yapmayý düþündüðü veya niyetlendiði anlamý kurulur. Bunun Türkçede doðrudan
karþýlýðý olmadýðý için ÇSG üreten bir kural geliþtirilmiþtir:
3.8.1.2.4 Ýstatistiksel Dil Modeli Bileþeni
Aktarým sýrasýnda ortaya çýkan biçim bilimsel ve sözcüksel belirsizliklerin giderilmesi için
ÝDM’leri kullanan bu bileþenin görevi ve iþleyiþ tarzý, daha önce açýklanmýþtýr. Bu amaçla,
bitiþken diller için önerilen farklý türlerde ÝDM’ler üretilmiþtir. ÝDM’lerin oluþturulmasý için
yaygýn olarak kullanýlan iki farklý yardýmcý araç bulunmaktadýr: CMU-Cambridge Language
Modeling Toolkit ve SRILM. Bu çalýþmada kullanýlan ÝDM’ler, En Büyük Olabilirlik Kestirimi
yöntemi ile SRILM kullanýlarak oluþturulmuþtur. Olasýlýklar oluþturulurken yumuþatma için
Good-Turing yöntemi ile derece düþürme modelleme yöntemi beraber kullanýlmýþtýr.
Uygulamada önerilen farklý ÝDM tiplerinin baþarýmlarý ayrý ayrý incelenmiþ ve en baþarýlý sonuç
üreten ÝDM belirlenmeye çalýþýlmýþtýr.
Kaynaklar
[1]
M. Nagao, “A Framework of a Mechanical Translation Between Japanese and English
by Analogy Principle,” in Artificial and Human Intelligence, A. E. a. R. Banerji, Ed.
North-Holland, 1984.
[2]
J. Hajiè, “RUSLAN - An MT System Between Closely Related Languages,” in Third
Conference of the European Chapter of the Association for Computational Linguistics
(EACL’87) Copenhagen, Denmark, 1987.
[3]
J. Hajiè, J. Hric, and V. Kuboò, “Machine translation of very close languages,” in
Proceedings of the sixth conference on Applied natural language processing Proceedings of
the sixth conference on Applied natural language processing Morgan Kaufmann Publishers
Inc., 2000, pp. 7-12.
[4]
C. A. i. Oller and M. L. Forcada, “Open-source machine translation between small
languages : Catalan and Aranese Occitan,” in LREC-2006: Fifth International Conference on
Language Resources and Evaluation. 5th SALTMIL Workshop on Minority Languages:
“Strategies for developing machine translation for minority languages” Genoa, Italy, 2006.
[5]
Ý. Hamzaoðlu, “Machine translation from Turkish to other Turkic languages and an
implementation for the Azeri languages,” in Institute for Graduate Studies in Science and
Engineering. vol. MSc Thesis Ýstanbul: Bogazici University, 1993.
[6]
K. Altýntaþ, “Turkish to Crimean Tatar Machine Translation System,” in Bilgisayar
Mühendisliði Bölümü. vol. MSc Ankara: Bilkent Üniversitesi, 2000.
[6]
K. Oflazer, “Two-level Description of Turkish Morphology,” Literary and Linguistic
Computing, vol. 9, pp. 137-148, 1995.
[7]
K. Altýntaþ and Ý. Çiçekli, “A Morphological Analyser for Crimean Tatar,” in
Proceedings of the 10th Turkish Symposium on Artificial Intelligence and Neural Networks,
TAINN North Cyprus, 2001, pp. 180-189.
[8]
K. Koskenniemi, “Two-Level Morphology : A General Computational Model for
Word Form Recognition and Production,” Department of General Linguistics, University of
Helsinki 1983.
100 - 3. Bilgisayarlý Çeviri
[9]
L. Karttunen, “KIMMO : A General Morphological Processor,” in Texas Linguistic
Forum, Texas, USA, 1983, pp. 163-186.
[10] E. L. Antworth, “PC-KIMMO: A Two-Level Processor for Morphological Analysis,”
Summer Institute of Linguistics, Dallas, Texas, USA 1990.
[11] L. Karttunen and K. Wittenburg, “A Two-Level Morphological Analysis of English,”
in Texas Linguistic Forum, Texas, USA, 1983, pp. 217-228.
[11] K. Koskenniemi, “An Application of the Two-Level Model to Finnish,” University of
Helsinki Department of General Linguistics (1985.
[12] L. Karttunen, T. Gaal, and A. Kempe, “Xerox Finite-State Tool,” XEROX Research
Centre, Europe, Technical Report 1997.
[13] D. Jurafsky and J. H. Martin, Speech and Language Processing: An Introduction to
Natural Language Processing, Computational Linguistics and Speech Recognition: Prentice
Hall, 2000.
[14] J. Chandioux, “MÉTÉO : un systéme opérationnel pour la traduction automatique des
bulletins météorologiques destinés au grand public.,” Meta, vol. 21, pp. 127-133, 1976.
[14] P. F. Brown, J. Cocke, S. A. D. Pietra, V. J. D. Pietra, F. Jelinek, J. D. Lafferty, R. L.
Mercer, and P. S. Roossin, “A Statistical Approach to Machine Translation,” Computational
Linguistics, vol. 16, pp. 79-85, 1990.
[15] P. F. Brown, V. J. D. Pietra, S. A. D. Pietra, and R. L. Mercer, “The mathematics of
statistical machine translation: parameter estimation,” Computational Linguistics vol. 19, pp.
263 - 311, 1993.
[16] P. Koehn, “Noun Phrase Translation.” vol. PhD Thesis Los Angeles: University of
Southern California, 2003.
[17] R. D. Brown, “Example-Based Machine Translation in the Pangloss System,” in The
16th International Conference on Computational Linguistics (COLING-96) Copenhagen,
Denmark, 1996.
[18] H. A. Guvenir and I. Cicekli, “Learning Translation Templates from Examples,”
Information Systems, vol. 23, pp. 353-363, 1998.
[19] H. Somers, “Review Article: Example-based Machine Translation.” vol. 14: Kluwer
Academic Publishers, 1999, pp. 113-157.
[20] K. Papineni, S. Roukos, T. Ward, and W.-J. J. Zhu, “BLEU : A Mehtod for Automatic
Evaluation of Machine Translation,” in Association of Computational Linguistics, ACL’02
Philadelphia, PA, USA, 2002.
[21] “NIST Report - Automatic Evaluation of Machine Translation Quality Using N-gram
Co-Occurrence Statistics,” 2002.
[22] C. Callison-Burch, M. Osborne, and P. Koehn, “Re-evaluating the Role of BLEU in
Machine Translation Research,” in Conference of the European Chapter of the Association
for Computational Linguistics (EACL’06) Trento, Italy, 2006.
3.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 101
[23] I. D. Melamed, R. Green, and J. P. Turian, “Precision and Recall of Machine
Translation,” in HLT-NAACL 2003, 2003.
[24] S. Banerjee and A. Lavie, “METEOR: An Automatic Metric for MT Evaluation with
Improved Correlation with Human Judgments,” in ACL Workshop on Intrinsic and Extrinsic
Evaluation Measures for Machine Translation and/or Summarization Ann Arbor, MI, USA,
2005.
[25] K. Oflazer, Ö. Çetinoðlu, and B. Say, “Integrating Morphology with Multi-word
Expression Processing in Turkish,” in The ACL 2004 Workshop on Multiword
Expressions:Integrating Processing Barcelona, Spain, 2004.
[26] D. Z. H. Tür, K. Oflazer, and G. Tür, “Statistical Morphological Disambiguation for
Agglutinative Languages,” Computers and the Humanities, vol. 36, pp. 381-410, 2002.
[27] K. Oflazer, “Dependency Parsing with a Extended Finite State Approach,” in College
Park, Maryland, 1999.
[28] D. Yüret and F. Türe, “Learning Morphological Disambiguation Rules for Turkish,” in
North American Chapter of the Association for Computational Linguistics Annual Meeting
(HLT-NAACL 2006) New York City, 2006.
[29] G. Tür, “A Statistical Information Extraction System for Turkish,” in The Department
of Computer Engineering. vol. PhD Thesis Ankara: Bilkent University, 2000.
[30] A. C. Tantuð, E. Adalý, and K. Oflazer, “A Prototype Machine Translation System
Between Turkmen and Turkish,” in Fifteenth Turkish Symposium on Artificial Intelligence
and Neural Networks, TAINN Gökova, Muðla, Türkiye, 2006.
[31] A. C. Tantuð, E. Adalý, and K. Oflazer, “Computer Analysis of the Turkmen Language
Morphology,” in FinTAL, Lecture Notes in Computer Science. vol. 4139: Springer, 2006, pp.
186-193.
[32] S. Arnazarow, A. Borjakow, M. Saruhanow, M. Söyegow, and B. Hojayew, Türkmen
Dilinin Grammatikasy. Ankara: Türk Dil Kurumu, 2000.
[33] M. Kara, Türkmence (Giriþ-Gramer-Metinler-Sözlük). Ankara: Kültür Bakanlýðý
Yayýnlarý, 2000.
[34] B. Sarý and N. Güder, Türkmencenin Grameri - I (Fonetika-Ses Bilgisi): Türk Dünyasý
Gençlerinin Mahtumkulu Yayýn Birliði, 1998.
[35] B. Sarý and N. Güder, Türkmencenin Grameri - II (Morfologiya – Þekil Bilgisi): Türk
Dünyasý Gençlerinin Mahtumkulu Yayýn Birliði, 1998.
[36] B. Sarý and N. Güder, Türkmencenin Grameri - III (Sintaksis): Türk Dünyasý
Gençlerinin Mahtumkulu Yayýn Birliði, 1998.
[37]
L. V. Clark, Turkmen reference grammar. Wiesbaden: Harrassowitz Verlag, 1998.
[38] K. R. Beesley and L. Karttunen, Finite State Morphology. Stanford: CSLI
Publications, 2003.
102 - 3. Bilgisayarlý Çeviri
[39] P. Clarkson and P. R. Rosenfeld, “Statistical Language Modeling Using
CMU-Cambridge Toolkit,” in ESCA Eurospeech’97, 1997.
[40] A. Stolcke, “SRILM - An Extensible Language Modeling Toolkit,” in International
Conference on Spoken Language Processing Denver, Colorado, 2002.
[41] Y.-L. Chow and R. Schwartz, “The N-Best Algorithm: An Efficient Procedure for
Finding Top N Sentence Hypotheses,” in Proceedings of a Workshop on Speech and Natural
Language Philadelphia, 1989.
[42] L. S. Oliveira, R. S. F. Bortolozzi, and C. Y. Suen, “Automatic Recognition of
Handwritten Numerical Strings: A Recognition and Verification Strategy,” IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 24, pp. 1438-1554, 2002.
[43] L. E. S. Oliviera, “Automatic Recognition of Handwritten Numerical Strings,” in
ÉCOLE DE TECHNOLOGIE SUPÉRIEURE. vol. PhD Quebec: UNIVERSITÉ DU
QUÉBEC, 2003.
[44] K. Oflazer and G. Tür, “Morphological Disambiguation by Voting Constraints,” in The
Thirty-Fifth Annual Meeting of the ACL and Eighth Conference of the EACL Somerset, New
Jersey, 1997.
[45] E. E. Erguvanlý, “The Function of Word Order in Turkish.” vol. PhD Los Angeles:
University of California, 1979.
[46] T. Tekin, M. Ölmez, E. Ceylan, Z. K. Ölmez, and S. Eker, Türkmence-Türkçe Sözlük.
Ýstanbul: Simurg Yayýnlarý, 1995.
[47] S. Stamou, K. Oflazer, K. Pala, D. Christoudoulakis, D. Cristea, D. Tufis, S. Koeva, G.
Totkov, D. Dutoit, and M. Grigoriadou, “Balkanet: A multilingual Semantic Network for
Balkan Languages,” in First International WordNet Conference Mysore India, 2002.

1. Yazım Hatalarını Düzeltme - Prof. Dr. Eşref Adalı`nın Bireysel Sayfası

Transkript

Benzer belgeler

redhouse quız box • synonyms

Tam Metin

Makaleyi Yazdır

REDHOUSE QUIZ BOX • ANTONYMS İlk seti büyük ilgi gören Quiz

Ainuca ve Japonca

(2010). Türkçenin Biçimbirim ve Sözcük Türü

Bu PDF dosyasını indir - Dilbilim Araştırmaları Dergisi