Metodoloji

Sentiment analiz ve doğal dil işlemede hangi metotları tercih ettik?

DataKapital farklı uzmanlıklardan müteşekkil ekibiyle doğal dil işleme alanında 2019’dan beri hem teorik bilimsel çalışmalarını, hem de dijital ürünün geliştirilmesine yönelik uygulamalı ar-ge çabalarını sürdürmektedir. Tüm bu araştırma ve geliştirme süreçlerinde elde ettiği entelektüel birikimle kurum içi ar-ge süreçlerinin iyileştirilmesi ve gelecekteki araştırmacılara yol gösterilebilmesi için belli metodolojik prensipler geliştirmiştir. Bunları bütün paydaşlarımız ve ilgililerimizle paylaşarak benzer hatalardan kaçınmaları ve ar-ge maliyetlerini iyileştirmeleri için katkıda bulunabilmeyi umuyoruz.

Tecrübemize göre özellikle Türkçe için sentiment analiz dikey bir faaliyet. Farklı kategorilerde aynı kelimelerin ve dizilim vektörlerinin bağlama göre zıt anlamlar yükleniyor olması ve bunun sıklığı, her konu için isabetli sonuç verecek bir sentiment analiz modülünün geliştirilmesine engel oluyor. Ar-ge süreçlerimizde, BERT gibi kompleks makine öğrenimi yaklaşımları bile dikey olarak farklılaştırmadığımız sentiment modülleri için isabetli sonuçlar vermedi.

DataKapital bu sorunun çözümü için sentiment modülünü konular özelinde ayrıştırarak ve her konu için dikey bir şekilde makineyi eğiterek modüller geliştirdi. Yaptığımız ölçümler neticesinde bahsedilen dikey yaklaşımın isabet oranını oldukça olumlu etkilediğini gözlemledik.

Doğal dil işleme için verilmesi gereken ilk kritik karar: sözlük(lexicon) tabanlı bir yaklaşımın mı, yoksa doğrudan makine öğrenimi yaklaşımının mı tercih edileceğidir. Bu ikisi arasında hibrit sistemler geliştirilebilse de temel dilemmanın bahsedilen tercih olduğu varsayılabilir. DataKapital’in geliştirme tecrübesine göre doğrudan makine öğrenimi yaklaşımları teknolojinin geleceği için tek alternatiftir ve sözlük tabanlı yaklaşımların hem çok üzerine isabet oranları sağlamakta, hem de inovasyon doygunluğu daha düşük olan, geliştirilebilir bir başlangıç teknolojisi imkanı vermektedir.

Ar-ge’ye ilişkin bu iki karar çelişkisi dışında, doğal dil işleme alanındaki bilimsel çalışmaların miktarı ve kalitesinin, dijital ürün sayısı ve kalitesinin çok üzerinde olduğunu fark ettik. Kastettiğimiz bütün teknolojiler ve ilgili faaliyet alanlarında gözlemlenen olağan bir miktar ve kalite uçurumu değil. Normal şartlarda her zaman bilimsel faaliyetin, uygulamaların önünde olması beklenir. Doğal dil işleme alanında ise bu farklılık, oransal olarak diğer teknoloji ile ilgili faaliyet alanlarının çok üzerinde kalmakta.

DataKapital dijital ürününü ve bunlara ilişkin modülleri özkaynaklarla ve teknoloji eko-sistemi dışında geliştirmiştir. Özkaynaklarla geliştirilen projeler Sanayi ve Teknoloji Bakanlığı tarafından TÜR(Teknolojik Ürün Geliştirme) belgesi ile akredite edilmektedir. Sanayi Bakanlığı, ürünün Tübitak hakemleri tarafından incelenmesi için Tübitak’la ortak bir şekilde çalışmaktadır. Tübitak heyetinden geçen proje Sanayi ve Teknoloji Bakanlığı tarafından belgelendirilmektedir. Burada Teknoloji eko-sistemi ile kastedilen şey hem bakanlık, KOSGEB, Tübitak gibi devlet kurumları hem de teknokentler, VC yatırım eko-sistemleri, kuluçka programları gibi çok yönlü bileşenlerdir.

Tecrübemize göre, geliştiricilere DataKapital’in izlediği yoldan farklı olarak eko-sistem içerisinden ilerleyerek proje ve ürünlerini geliştirmelerini tavsiye ediyoruz. Sadece ağır ar-ge maliyetlerinin destekleyici kurumlarla paylaşımı değil, aynı zamanda eko-sistemin farklı alanlardaki uzmanlığı ar-ge süreçlerini maliyet etkin hale getiren bir unsurdur.

Girişimimiz, tecrübe ve know-how’ı büyük maliyetlere ve iş eforuna katlanarak elde etmiştir. Netice itibariyle dijital ürünümüze ve bilimsel çabalarımıza yönelik geliştirdiğimiz metodolojiler proje ve akreditasyon süreçlerindeki yoğun çabalara bağlıdır. Bu metodolojilerin benzer faaliyet alanındaki girişimcilere yol göstermesini umuyoruz.

Yardım için
her zaman buradayız!
216 709 72 93