(2010). Türkçenin Biçimbirim ve Sözcük Türü
Transkript
(2010). Türkçenin Biçimbirim ve Sözcük Türü
TÜRKÇENİN BİÇİMBİRİM VE SÖZCÜK TÜRÜ İŞARETLEMESİ 1 Ümit MERSİNLİ ve Mustafa AKSAN Mersin Üniversitesi [email protected], [email protected] 1. GİRİŞ Türkçe bilgisayarlı dil işleme ve derlem dilbilim alanlarında sözcük türü ve biçimbirim işaretleme pek çok çalışmanın konusu olmuştur. Kullanılan işaretler biçimbirim sıralamasına dönük olsa da, alanda ilk çalışma olarak Hankamer (1989)’u gösterebiliriz. Oflazer (1994a, 1994b) ve Çiçekli ve Temizsoy (1997) iki-düzeyli biçimbilim yöntemleri kullanılarak yapılan ilk çalışmalardır. Biçimbirim ayrıştırma konusunda ise ekten-köke yönelimli çalışmalar arasında Sever (2003), Adalı (2002, 2004) ve Çilden (2006)’yı sayabiliriz. Akın ve Akın (2007) ise biçimbirim işaretleme de yapabilen açık kaynak kodlu bir yazım denetçisi olarak güncel çalışmalar arasındadır. Çizelgelerle Türkçe’nin biçimbirim ayrıştırma ve işaretlemesi konulu çalışmalar arasında ise Bisazza (2009)’u gösterebiliriz. Ancak anılan çalışma da kullanılan sözlükler, kapsadığı biçimbirimler ve tasarım yönünden bu alanda bir deneme ve uyarlama niteliği taşımaktadır. Anılan çalışmaların dışında; erişim, kullanım ve sınamaya açık, Türkçe’nin biçimbirim sıralaması konusunda başka bilgisayarlı dil işleme çalışmalarına katkı sunacak, geliştirilebilir, derlem temelli biçimbirim ayrıştırıcı ve işaretleyici uygulamalara gereksinim vardır. Bu çalışmada kural-tabanlı, çizelge gösterimli, kökten-eke yönelimli ve sözcük türü/biçimbirim ayrıştırma ve işaretleme amaçlı bir sonlu-durum çeviricinin tasarımı ve sonuçları özetlenecektir. Çalışma, veri kaynağı olarak geliştirilmekte olan Türkçe Ulusal Dil Derlemi Projesinin veritabanlarından yararlanmıştır. Elde edilen sonuçların diğer çalışmalarla karşılaştırılması çalışmanın kapsamı dışındadır. Yine bu çalışma, günümüz Türkçe’sindeki kök-sözcük türü ve türetim/çekim eklerinin işaretlenmesiyle sınırlıdır. Artsüremli ayrıştırmalar, bağlama göre belirginleştirme ve çok sözcüklü birimlerin işaretlenmesi çalışmanın kapsamı dışında bırakılmıştır. 2. YAZILIM Kullanılan yazılım Silberztein (2003)’te ayrıntılandırılan NooJ adlı derlem işleyicidir. Yazılım değerlendirme sırasında göz önüne alınan ölçütlerden en önemlileri erişime açıklık, çizelgelerle sonlu-durum çevirici tasarımı olanakları, sözlük oluşturma ve derlem yönetimi araçlarını barındırması olmuştur. Ayrıca yazılım, her dil için özelleştirilmiş eklentilerle çalıştığından çoğunlukla dile özel olmayan, tümce sonu belirleme, teksözcük dizinleme gibi araçları da içermektedir. Yazılım, oluşturulan Türkçe eklentinin kullanıcılarca da sınanmasına olanak sağlayan bağlam içinde sözcük arama araçları barındırmaktadır. İşaretleme, sözlükler ve kural dosyalarından oluşan dil eklentileri aracılığıyla yapılmaktadır. Bu çalışmanın konusu NooJ Türkçe eklentisinin v1b sürümüdür3. Eklentinin tasarımı sırasında, ilgili bölümlerde ayrıntılandırılacak olan, 4 sözlük ve biri sözlük derlemede kullanılmak üzere 2 kural dosyası oluşturulmuştur. 367 3. VERİ Veri kaynağı olarak Türkçe Ulusal Dil Derlemi (TUDD) kapsamında oluşturulan yaklaşık 3,300,000 sözcük (token) büyüklüğünde bir alt-derlem kullanılmıştır. Seçilen 100 metin TUDD içindeki çeşitli konu alanlarını temsil etmektedir. 4. DİZİNLER Alt-derlem metinlerindeki tekrarlayan sözcükler NooJ yardımıyla dizinlendiğinde yaklaşık 280,000 teksözcük (type) elde edilmiştir. Teksözcükler öncelikle kök ve eklerine ayrılarak bir başsözcük (lemma) dizini oluşturulmuştur. Biçimbirim işaretlemesi içinse yine bir ek dizini oluşturulmuştur. 5. SÖZLÜKLER Sözlüklerin derlenmesi sırasında, oluşturulan başsözcük dizini ve bu sözcüklerin kök-içi ses değişimlerini içeren bir kural dosyası kullanılmıştır. Öncelikle, başsözcükler Tablo 1’deki sözcük türü işaretleri kullanılarak (1)’deki gibi sözlük girdilerine dönüştürülmüşlerdir. Tablo 1 Sözcük türü işaretleri İşaret <VB> <NN> <PN> <NB> <AJ> <AV> <PP> <ITJ> <CJ> <ON> <NP> <AB> <MI> Sözcük Türü Eylem Ad Adıl Sayı Sıfat Belirteç İlgeç Ünlem Bağlaç Yansıma Özel Ad Kısaltma Soru eki Örnek git, gel, dur, bak, kal, sus, gör, dök gece, hava, renk, fark, dost, oyun bu, kendi, hepsi, herkes, kim, öteki iki,üç, beş, sekiz mavi, yeni, düz, dürüst, zeki acaba, asla, bazen gibi, göre, için, kadar, karşı, rağmen aferin, sağol, haydi, hoşçakal, lütfen ama, çünkü, meğer, üstelik takır, vızıl, gürül Atatürk, Mersin, Ümit TBMM, TDK mi, mı, mu, mü (1) akıl, NN yüz,NB yüz,VB yüz,NN git,VB güzel,AJ Sözcük türü belirlemede çoğunlukla biçimbilimsel özellikler dikkate alınmış, zorunlu durumlarda anlamsal belirlemelere gidilmiştir. Bazı köklerin sözcük türü belirlemesinde 368 sıfat/ad, bağlaç/ilgeç gibi güçlüklerle karşılaşılmış, bu gibi durumlarda bağlam içi kullanımlara göre sözcük türü belirlenmiştir. Ardından, oluşturulan ham sözlük, Tablo 2’deki kök-içi ses değişimlerini içeren kural dosyası çalıştırılarak derlenmiş ve yine Tablo 2’nin örnekler bölümündeki gerçekleşmelerin ilgili kök sözcüklerle eşlenmesini sağlayacak sözlükler elde edilmiştir. Ses değişimlerinin belirlenmesinde olası tüm ses değişimlerinin kapsanması amaçlanmış, çok az sayıda karşılaşılan “tıp > tıbbın” gibi ses değişimleri de kural olarak eklenmiş ve ilgili kök sözcüklerde gerekli sözlüksel işaretleme yapılmıştır. Tablo 2 Kök-içi ses değişimleri Ad double Kural <D> drop <L><B><R > dropsoften1 <B2>b dropsoften2 <B2>d dropsoften3 <B2>c compound1 compound2 <B> <B2> compound3 compound4 compound5 compound6 compound7 soften_ch <B2>ç <B2>k <B2>ul <B2>p <B2>t <B>c soften_k <B>ğ soften_g soften_p <B>g <B>b soften_t <B>d softenpdouble <B>b<D> softentdouble change_an <B>d<D> <B2>an change_m <B>m Örnek af > affı zam > zamma akıl > aklını fikir > fikrimin vakit > vaktinde kayıp > kaybına kutup > kutbuna kayıt > kaydına nakit > nakde avuç > avcuna kutup > kutbuna anaokulu > anaokulları elyazısı > elyazıları başağrısı > başağrıları ipucu > ipuçları ayçiçeği > ayçiçekleri sultanoğlu > sultanoğulları elkitabı > elkitapları kesekağıdı > kesekağıtları ağaç > ağacı süreç > süreci emek > emeği diyalog > diyaloğu renk > rengi kitap > kitabı mektup > mektubu cilt > cilde dört > dördünü tıp > tıbbın muhip > muhibbi zıt > zıddı ben > bana sen > sana saklan > saklambaç dolan > dolambaç 369 Kural yazımında Tablo 3’de açıklanan işleçler kullanılmıştır. Tablo 3 Metinsel kural yazımında kullanılan işleçler <B> son yazımbirimi sil <B2> son iki yazımbirimi sil <D> <L> bir yazımbirim sola git <R> bir yazımbirim sağa git son yazımbirimi tekrarla <B>m son yazımbirimi sil ve “m” ekle Yazılım, oluşturulan sözlüklere işlemlemede öncelik sırası vermeye olanak tanımaktadır. Böylelikle (2)’deki gibi çoklu işaretlemelerde işlev sözcüklerine öncelik verilebilmektedir. (2) için <iç,VB+In(Iz)[IMP]> <iç,NN+I+n> <için,PP> Kullanıcı tarafından atanabilecek sözkonusu önceliklere olanak tanımak için, alt-derlemden elde edilen sözvarlığı; içerik sözcükleri, işlev sözcükleri ve özel ad/kısaltmaları içerecek şekilde gruplanmış ve çok sözcüklü yapılar da eklendiğinde, Tablo 4’te içerik ve büyüklükleri belirtilen 4 sözlük derlenmiştir. Tablo 4 Derlenen sözlükler ve kapsamları Dosya Adı content_TR.nom function_TR.nom multiword_TR.nom proper_TR.nom Kapsam içerik sözcükleri işlev sözcükleri çok sözcüklü birimler özel ad ve kısaltmalar Girdi Sayısı 20,618 76 18,837 35,295 6. ÇİZELGELER Sonlu-durum çevirici düzeneklerinin tasarımında metinsel ya da çizgisel gösterimlerden yararlanılabilmektedir. Yazılım, Şekil 1 ve Şekil 2’de örneklendiği üzere, her iki kural gösterimine de olanak tanımaktadır. 370 Şekil 1. Metinsel kural yazımı örneği. Şekil 2. Çizgisel kural yazımı örneği. Bu çalışmada kök-içi ses değişimi kuralları için metinsel, türetim ve çekim süreçlerinin modellenmesi içinse çizgisel gösterim tercih edilmiştir. Türetim ve çekim eklerinin belirlenmesinde Bölüm 4’te belirtilen ve (3)’te örneklenen ek bütünü dizini kullanılmıştır. (3) VB+yabiliyorsunuzdur VB+amayacağındandı NN+larındasınızdır NN+larındandırlar Eşsesli biçimbirimlerin çokluğu ve pek çok ekin çok işlevli olması nedeniyle, ekler için kullanılan işaretler, dilbilim alanyazınındaki yaygın biçeme uygun olarak (4)’teki gibi hazırlanmış, çoğunlukla işlev bildiren işaretler/kısaltmalar kullanılmamıştır. Yalnızca, biçimbirim sıralamasının işlev farkını belirgin olarak ortaya koyduğu (5)’teki gibi örneklerde, işlev bildiren kısaltmalar ek işaretine eklenmiştir. 371 (4) +lAr +DI = +ler, +lar = +di, +dı, +du, +dü, +ti, +tı, +tu, +tü (5) ki[PN] = NN+Genitive+ki[PN] Çalışmanın bu aşamasında kapsanan ek sayıları Tablo 6’da görülebilir. Tablo 6 Ayrıştırılan ve işaretlenen ek sayıları Türetim Çekim (AD) Çekim (EYLEM) TOPLAM 86 46 48 180 Eklentinin güncel sürümü yukarıda belirtilen sayıda biçimbirimi ayrıştırmakta ve işaretlemektedir. Sonraki sürümlerde özellikle ayrıştırılan ve işaretlenen türetim eklerinin saysının arttırılması hedeflenmektedir. Sözkonusu eklerin sıralama kuralları için üretilen çizelgeler; türetim ve çekim olmak üzere 2 alt başlık altında özetlenecektir. 6.1. Türetim Türkçe’nin türetim ekleri için kullanılan işaretler, Tablo 7’de örneklendiği üzere, taban sözcük türünü değil, türetilen sözcük türünü belirtecek biçimde tasarlanmıştır. Tablo 7 Örnek türetim eki işaretleri İşaret (A)nAk_NN CI_NN lIk_NN Türetim Eylemden Ad Addan Ad Addan Ad Türetim eklerinin sıralamasını ve kullanımını belirleyen kısıtlamalar konusunda, Uzun (1992, 1993, 2008)’te tartışılan kısıtlılıklar, sözlüklere hece sayısı ve benzeri başsözcük özellikleri olarak eklenmiş ve çizelgelerde ilgili başsözcük ve türetim eklerinin bağlantıları kurulmuştur. Türetim çizelgeleri Şekil 3’te örneklendiği üzere üç düzeyli olarak tasarlanmış, 1. Düzeyde sözcük türü, 2. Düzeyde diğer kısıtlamalar ve 3. Düzeyde ise türetimler arası geçişler düzenlenmiştir. 372 Şekil 3. Örnek Türetim Çizelgesi / Sonlu-Durum Düzeneği 6.2. Çekim Çekim eki dizilimlerinin modellenmesinde Ad ve Eylem çekimi olmak üzere 2 alt-çizelge kullanılmıştır. Ad çekimi düzeneğinde, ara-ses ve eşyazımlı biçimbirim ya da biçimbirim birleşimlerinin çokluğu nedeniyle oluşan yapay belirsizlikleri gidermek amacıyla, iki alt çizelgeye gerek duyulmuştur. Bunlardan birisi ünsüzle biten tabanlara, diğeri ise ünlüyle biten tabanlara uygulandığında çoğunlukla ara-seslerden kaynaklı ayrıştırma güçlükleri giderilmiştir. Ek sıralaması konusunda Oflazer (1994a), Külekçi ve Özkan (2001), Adalı ve Eryiğit (2004) ve Makedonski (2005)’teki düzeneklerden de yararlanılmıştır. Eylem çekimi düzeneğinde ise Sebüktekin (1974)’teki dizimsel görünümler ve Sezer (2001)’deki kuramsal belirlemelerden yararlanılarak Şekil 4’teki düzenek elde edilmiştir. Şekil 4. Türkçe’nin Eylem Çekimi için Sonlu-Durum Düzeneği 373 7. KULLANIM Bu çalışma sonucunda oluşturulan NooJ_Türkçe, kullanıcılara kişisel derlem oluşturma, yönetme, işaretleme, belirginleştirme ve bağlam içinde sözcük ya da ek aratma gibi olanakları sağlamaktadır. Diğer kullanım olanakları Silberztein (2003)’te ayrıntılandırılmıştır. Şekil 5 örnek bir işaretleme yapısını göstermektedir. Şekil 5. İşaretlenmiş metin örneği Bağlam içinde sözcük ya da ek aratma olanakları ise çeşitli arama metinlerinin ve sonuçlarının verildiği Şekil 6 ve 7’de görülebilir. <akıl> Şekil 6. Örnek arama sonucu 1 - Sözcük 374 <VB+r[Aor]> <VB+mA+z[Aor]> Şekil 7. Örnek arama sonuçları 2 – Ek 8. SONUÇ Bu çalışmada Türkçe’nin sözcük türü ve biçimbirim işaretlemesi amaçlı, derlem temelli, kökten-eke yönelimli, çizelge gösterimli bir sonlu-durum çevirici uygulamanın tasarım ve kullanımını özetledik. Sınamaya, güncellenmeye açık olan sözkonusu çalışma, Türkçe’nin biçimbiliminin sonlu-durum düzenekleriyle gösterimi konulu çalışmalara katkı sağlayacaktır. Ayrıca kullanıma ve geliştirilmeye açık bir uygulama olması nedeniyle öncelikle biçimbilim araştırmalarında kişisel derlemler üzerinden bağlam içinde anahtar sözcük ya da ek araması yapma olanağı sağlamaktadır. Sonraki sürümlerde çok-sözcüklü birimlerin işaretlenmesi, bağlam temelli belirginleştirme ve tüm türetim eklerinin ayrıştırılabilmesi hedeflenmektedir. Notlar: 1. Bu çalışma Mersin Üniversitesi Bilimsel Araştırma Projeleri Fonu tarafından desteklenmiştir. (Proje numaraları: BAP-FEF-İDEB (SYA) 2009-3 ve BAP-FEF-İDEB (MA) 2009-3). 2. NooJ Türkçe eklentisi için: http://www.nooj4nlp.net/pages/turkish.html ve http://www.tudd.org 9. KAYNAKÇA Adalı, E., & Cebiroğlu, G. (2002). Sözlüksüz köke ulaşma yöntemi. 19. TBD Bilişim Kurultayı Bildiri Kitabı . İstanbul. Adalı, E., & Eryiğit, G. (2004). An affix stripping morphological analyzer for Turkish. Proceedings of the IASTED International Conference ARTIFICIAL INTELLIGENCE AND APPLICATIONS. Innsbruck. 375 Akın, M. D., & Akın, A. A. (2007). Türk dilleri için açık kaynaklı doğal dil işleme kütüphanesi: ZEMBEREK. Elektrik Mühendisliği, 431, 38. Bisazza, A. (2009). Designing a Nooj module for Turkish. Proceedings of Nooj Conference 2009. Çiçekli, İ., & Temizsoy, M. (1997). Automatic creation of a morphological processor in logic programming environment. Proceedings of the 5th International Conference on the Practical Application of Prolog (PAP'97). London, UK. Çilden, E. K. (2006). Stemming Turkish words using Snowball. http://snowball.tartarus.org/algorithms/turkish/stemmer.html Erişim Tarihi:25.10.2010 Hankamer, J. (1989). Morphological parsing and the lexicon. In W. Marslen-Wilson (Ed.), Lexical Representation and Process (pp. 392-408): Cambridge: MIT Press. Külekçi, M. O., & Özkan, M. (2001). Turkish word segmentation using morphological analyzer. Proceedings of EuroSpeech. Aalborg, Denmark. Makedonski, P. (2005). Finite state morphology: the Turkish nominal paradigm. Universitat Tübingen, Tübingen. Oflazer, K., Göçmen, E., & Bozşahin, C. (1994a). An Outline of Turkish Morphology: Technical Report, Middle East Technical University. Oflazer, K. (1994b). Two-level description of Turkish morphology. Literary and Linguistic Computing, 9 (2), 137-148. Sebüktekin, H. I. (1974). Morphotactics of Turkish verb suffixation. Boğaziçi Üniversitesi Dergisi, 2, 87116. Sever, H., & Bitirim, Y. (2003). FindStem: Analysis and evaluation of a turkish stemming algorithm. 10th International Symposium on string processing and ınformation retrieval (SPIRE’03), Manaus, Brazil, October 8-10, 2003. Lecture Notes in Computer Science (LNCS) (pp. 238-251). Springer. Sezer, E. (2001). Finite inflection in Turkish. In E. E. Taylan (Ed.), The Verb in Turkish (pp. 1-47). Amsterdam: John Benjamins Publishing. Silberztein, M. (2003). Nooj Manual. http://www.nooj4nlp.net Erişim Tarihi: 25.10.2010. Türkçe Ulusal Dil Derlemi Proje Sayfası. http://www.tudd.org.tr Uzun, E., Uzun, L., Aksan, M., & Aksan, Y. (1992). Türkiye Türkçesinin Türetim Ekleri: Bir Döküm Denemesi Ankara: Şirin. Uzun, E. (1993). Türkiye Türkçesinde Sözlüksel Yapı: Bir Eleştirel Çözümleme. Ankara Üniversitesi, Ankara. Uzun, E. (2008). Türetim eklerinin türetkenliğini ölçme önerileri üzerine. Y. Çotuksöken & N. Yalçın (Haz.), XX. Dilbilim Kurultayı Bildirileri 12-13 Mayıs 2006. (pp. 147-159) İstanbul: Maltepe Üniversitesi. 376
Benzer belgeler
Full Text - International Journal of Language Academy
gösterilmelidir" (…), öğretmenler gelecekte hangi konuda çalışacak olurlarsa
olsunlar, öğrencilere en faydalı olan sözvarlığını kazandırmalıdırlar (...) en
önemli sözcükleri ilk önce ele almalıdırl...
TS Corpus: Herkes İçin Türkçe Derlem
ilk çalışmalardır. Biçimbirim ayrıştırma konusunda ise ekten-köke yönelimli çalışmalar arasında
Sever (2003), Adalı (2002, 2004) ve Çilden (2006)’yı sayabiliriz. Akın ve Akın (2007) ise
biçimbirim ...