Bag of words modeli nedir nasıl çalışır, özellikle natural language processing ile ilgilenenler için projelerde mutlaka uygulanan bir yöntemdir. Bag of words modelini çeşitli projelerin güncellemelerinde görsek de yeni bir model olmadığını yazıya geçmeden önce belirtmeliyim.

Bag of words modeli ilk metin işleme örneklerinde kullanılıyordu. Bilgisayar bilimleri üzerine akademik çalışmalar yapan neredeyse her uzman metin işlemenin en güzel modellerinden biri olan bag of words ile çalışmıştır.

bag of words nedir

Bag of words bu kadar fazla kelime ve içerik üretilmeyen zamanlarda şifreleme ve geri şifreleme işlemlerinde kullanılmaktaydı. Günümüzde ise arama motorları sayesinde içerik üretimini teşvik eden bir ekosistem bulunuyor. Bu içerik müdafaası içerisinde ise arama motorlarının ve içerikle beslenen platformların içerikler hakkında daha hızlı kararlar vermesi bekleniyor.

bag of words nedir ne işe yarar

Örneğin Twitter’da bir kullanıcı bir süre hesap yönetimi yaptıktan sonra reklam servisine kayıt olmak için izin talep ediyor. Reklam çıktığı kelimelerdeki denetimler ise şu an için oldukça az kriterden geçiyor. Oysa ki reklam servisini daha güncel tutan Facebook ve Instagram üzerinde durum bundan farklı. Facebook reklam servislerinde içeriği ve görselleri otomatik olarak denetlemeye yarayacak daha nitelikli algoritmalar kullanıyor.

Aynı şekilde Google gibi Bing arama motoru da üretilen içerikleri bir başka siteden kopyalama veya özetleme şeklinde olup olmadığına göre çeşitli süzgeçlerden geçiriyor. İşte bu noktada çalışmaya başladığınızda karşınıza ilk gelecek denetim öğretilerinden biri Bag Of Words modeli oluyor.

Bag of Words Modeli Nedir Nasıl Çalışır?

Bag of words yani kelime çantası modeli yeni değildir. Bag of Words’ün 2000’li yılların başlarında şu anda herkesin bildiği Yahoo ve Hotmail gibi e posta servisi sağlayıcıları tarafından kullanıldığı biliniyor. Buna rağmen bag of words modelinde kullanılan algoritma yapısı bir çok spam ve scam işlemleri tespit etmek için kullanışlı ve basit bir yöntemdir.

Öyleyse bag of words modeli nedir derseniz de doğal dil işleme alanın temellerinde kullanılan bir algoritmadır. Daha önce de söylediğim gibi her uzman mutlaka bir bag of words uygulaması yapar. Bu uygulamanın ilkel olması ve farklı örneklerinin verilmesi kullanılmadığı anlamına gelmesin. halen gelişmiş sistemlerde bag of words modeli çeşitli düzenlemelerle kullanılır.

  1. “Burak ders çalışmayı sever. Ayşe de ders çalışmayı sever.”
  2. “Ayşe ayrıca film izlemeyi de sever.”

Bag of words modeli anlatımında yukarıdaki örneğe benzer anlatımlar yapılır. Bu iki örnekte frekanslama yapılarak bag of words modeli işletilmeye başlanır Bu frekanslama sonucuna göre

Bow1: Burak(1), ders(2), çalışmayı(2), sever(2), de(1), Ayşe(1)

Bow2: Ayşe(1), ayrıca(1), film(1), izlemeyi(1), de(1), sever(1)

Bow3: Burak(1), ders(2), çalışmayı(2), sever(3), de(2), Ayşe(2), ayrıca(1), film(1), izlemeyi(1) kadar cümlelerde kullanılmıştır.

{\displaystyle BoW3=BoW1\biguplus BoW2}

Burada Bow3 modeli kullanılması için bow1 ve bow2 içerisinde geçen kelimelerin frekans sayıları toplanıyor. Birbirinden ayrı paragraf veya gönderilerde böylece en çok öne sürülenin ne olduğu anlaşılabilir.

Konu ilginizi çektiyse sözlük ve diğer uygulama sitelerinde örnek kodlar ile birlikte daha detaylı bilgiye zaten ulaşabilirsiniz. Başlangıcı bu konu üzerinden yapınca günümüzde halen bu basitlikte bir denetim modeli mi kullanılıyor diye soruyorsunuz. Bu mantıkla başlayan denetimler TF-IDF ve Word2Vec modelleri ile birlikte daha çok kişiye ulaşmaya başlamıştır.

Bag of Words Modeli Uygulamaları Nelerdir?

Bag of words modeli 90’lı yılların sonlarında dahi kullanan web2.0 dünyasında da yer edinmiş bir algoritmadır. Bu algoritmanın günümüzdeki kullanımları ise giderek yaygılaşıyor. Tek başına bag of words modelinden oluşan bir algoritma bir sistemin omurgasını oluşturmasa da yardımcı model olarak sıklıkla tercih ediliyor. Spam koruma çalışmalarında, chatbot örneklerinde, telif hakları incelemelerinde ve daha fazla alanda bag of words modeli hala etkin olarak kullanılan algoritmaların başında geliyor.

lda aracı olarak bag of words kullanımı

Son yıllarda ise doğal dil işleme tekniklerinin chatbot gibi sistemlerce popüler olmasından kaynaklı olarak, bag of words kullanımının yayıldığını görüyoruz. NLP için bir “hello world” örneği olarak da kullanılan bu algoritma birçok mimarinin de temellerini oluşturmuştur.

1 Yorum

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz