Doğal Dil İşleme, insanların kendi aralarında anlaşmak için kullandıkları dili insan - bilgisayar etkileşiminde en üst düzeye çıkarmak veya farklı doğal dilleri kullanan insanlar arasında iletişimi güçlendirmek üzere çözümler üreten bilim alanıdır.
Bilgisayar bilimleri sahasında “dil” kavramı genelde programlama dilleri (C, Java vb.) için kullanılmakta olduğundan, doğal dil işleme alanında kişilerin kendi aralarında anlaşmak için kullandıkları dil “doğal dil” olarak adlandırılmaktadır.
Doğal dil işleme (DDİ) süreçleri dilden dile değişiklik göstermektedir. “Bilgisayar, önce kelimenin kökü üzerine gelen eklerle birlikte dönüşümüne bakar, buna kelime bilimi denir. Bundan sonra cümledeki kelimelerin dizilimine göre ne anlama geldiğini anlamaya çalışır buna söz dizim denir. Ardından cümlenin özünde anlatmaya çalıştığına bakar, buna semantic denir. Son olarak da cümlelerin bir araya gelerek ifade etmek istediğine bakar, bu da söylevdir. Özetle, bilgisayar kelime kökünü ayrı, kelimelerin dizilmesini ayrı, cümlenin ve söylevin anlamını ayrı inceleyerek konuşmanın bağlamını öğrenir ve bir anlam çıkarır.”
Doğal Dil İşleme (DDİ) adı verilen bu yeni bilim alanı önceleri insan bilgisayar etkileşiminde doğal dillerin kullanılabilmesi amacıyla başlatılmış, zamanla bilgisayarlı dil bilimine dönüşmüştür. Belleğinde bulunan veri ve sonuçları, bilgisayarın doğal dilde konuşarak insanlara aktarılmasına "konuşma", insan tarafından konuşularak bilgisayara yapılan girişlere "konuşmayı anlama" adı verilmiştir.
Doğal Dil İşleme; bilgisayarlar ve insanların aynı dili konuşmasını sağlar.
Buraya Doğal Dil İşleme Nedir - 1
-Amacı
NLP yani Doğal Dil İşleme, doğal dillerin kurallı yapısının çözümlenerek anlaşılması veya yeniden üretilmesi amacını taşır. NLP araçlarının geliştirilmesi; sesle çalışan sistemlerde (Sesli komut sistemi, sesi yazıya dökme…), yazıyı sese dökmede, soru – cevap makinesinde, duygu analizinde ve benzeri birçok araçta kolaylıklar sağlamaktadır.
-Doğal Dil İşlemenin Fonksiyonu - Kapsamı
Doğal dil işleme yöntemleri; akıllı sanal asistanlar, sosyal medya takibi – yönetimi, bilgi çıkarımı, otomatik çeviri sistemleri, ses tanıma sistemleri başta olmak üzere birçok yerde kullanılır.
Derin öğrenme modelleri, ilgili korelasyonları (bağıntı) öğrenmek ve tanımlamak için çok büyük miktarda etiketlenmiş veri gerektirir ve bu tür büyük verilerin bir araya getirilmesi şu anda NLP'nin karşılaştığı en büyük engellerden biridir.
Sosyal Medya Analizi
Dijital yayınların artması ve doğal dil işlemede katedilen gelişmeler sonucunda, şirketler adına medya takibi yapan ajansların yerini otomatik takip yapan araçlar almıştır. Bu araçlar; gazetelerden, çevrimiçi dergilerden hem de sosyal medya uygulamalarından şirketle ilgili tüm verileri anında toplayabilir. Bahsedilen anlamsal arama algoritmaları da şirketle ilgili veriler hakkında karar vermede veri toplarken oldukça etkilidir, bu verilerin şirkete sunulmasındaki çeşitli analizlerde doğal dil işleme teknikleri kullanılır.
Ayrıca sosyal medya verilerinin doğal dil işleme ve makine öğrenmesi yöntemleri ile değerlendirilmesi; bilgi toplama, sağlık iletişimi, metinsel analiz, yeni çıkan bir hastalığın veya sağlık davranışlarındaki ani değişimlerin tarihsel sürecini anlama gibi alanlarda uygulamalara olanak sunmaktadır.
Yapay Zekâ ve Doğal Dil İşleme
Dilin Morfolojisi
Sözdizimsel analiz, “sözdizimini (syntax) veya cümleyi oluşturan morfolojik ögelerin hiyerarşik kurallara uyumunu karşılaştırarak ölçümlemektir.” Bu yolla söz dizimin anlamlı olup olmadığının ölçülmesinde düzenleyici bir süreç gerçekleşir.
Anlambilimsel (semantik) analiz, “sözdizimini oluşturan morfolojik ögelerin ayrılması, yani sözdizimsel analiz ile anlam taşıyan kelimelerin sınıflandırılması işleminden sonra gelen anlamlandırma veya anlama sürecidir.”
Tokenization ve Segmentation Nasıl İşler?
Tokenization, “bir giriş karakter dizisinin bölümlerinin ayrılması ve imkân dâhilinde sınıflandırılması işlemidir.” Ortaya çıkan işaretler (token) daha sonra başka bir işleme biçimine aktarılır. İşlem, söz dizimsel girdiyi ayrıştırmanın bir alt başlığı olarak düşünülebilir.
Metin bölümleme (text segmentation); “yazılı metni kelimeler, cümleler, konular gibi anlamlı birimlere bölme işlemidir.” Terim, hem insanlar tarafından metin okurken kullanılan zihinsel süreçlerde hem de doğal dil işlemenin kapsamında bilgisayarlarda uygulanan yapay süreçlerde kullanılır.
Segmentasyonun; kelime, niyet, konu segmentasyonu gibi alt dalları bulunmaktadır.
Doğal Dil İşlemenin Kullanıldığı Bazı Alanlar:
Morfolojik Analiz - Morfolojik Segmentasyon
Morfolojik (yapı bilimsel) segmentasyonda sözcükler tek tek biçimbirimlere ayrılır ve biçimbirimlerin sınıfı belirlenir. Sürecin zorluğu büyük oranda ele alınan dilin morfolojisinin (dilin, kelimelerin yapısının) karmaşıklığına bağlıdır. İngilizce oldukça basit bir morfolojiye, özellikle de çekim morfolojisine sahiptir ve bu nedenle bir kelimenin tüm olası biçimlerini (örneğin, açık, açılır, açıldı, açılma) ayrı kelimeler olarak modellemek çoğu zaman mümkündür. Türkçe gibi son derece bitişken dillerde, ancak her sözlük girişinde binlerce olası kelime formu bulunduğundan böyle bir yaklaşım mümkün değildir.
Sözdizimsel (Sentaktik) Analiz
Bu yolda belirli bir cümlenin ayrıştırma - çözümleme ağacı (gramer analizi) belirlenir. Doğal diller için dilbilgisi belirsizdir ve tipik cümlelerin birden fazla olası analizi vardır: şaşırtıcı bir şekilde, tipik bir cümle için binlerce potansiyel çözümleme olabilir (bunların çoğu bir insana tamamen saçma gelebilir). İki temel ayrıştırma türü vardır: bağımlılık ayrıştırma ve seçim bölgesi ayrıştırma. Bağımlılık ayrıştırma, bir cümledeki kelimeler arasındaki ilişkilere odaklanır (birincil nesneler ve yüklemler gibi şeyleri işaretleyerek), oysa seçim bölgesi ayrıştırma, olasılıksal bağlamdan bağımsız bir dilbilgisi kullanarak ayrıştırma ağacı oluşturmaya odaklanır.
Sözcüksel Anlambilim
Duygu Analizi (Sentiment Analysis)
Duygu analizi (fikir madenciliği veya duygusal yapay zekâ olarak da bilinir), “duygusal durumları ve öznel bilgileri sistematik olarak tanımlamak, çıkarmak, ölçmek ve incelemek için doğal dil işleme, metin analizi, hesaplamalı dilbilim ve biyometrinin kullanılmasıdır.” Duygu analizi, incelemeler ve anket yanıtları, çevrimiçi ve sosyal medya gibi müşteri materyallerinin sesine ve pazarlamadan müşteri hizmetlerine ve klinik tıbba kadar uzanan uygulamalar için sağlık malzemelerine yaygın olarak uygulanır.