Bag of words modeli nedir nasıl çalışır, özellikle natural language processing ile ilgilenenler için projelerde mutlaka uygulanan bir yöntemdir. Bag of words modelini çeşitli projelerin güncellemelerinde görsek de yeni bir model olmadığını yazıya geçmeden önce belirtmeliyim.
Bag of words modeli ilk metin işleme örneklerinde kullanılıyordu. Bilgisayar bilimleri üzerine akademik çalışmalar yapan neredeyse her uzman metin işlemenin en güzel modellerinden biri olan bag of words ile çalışmıştır.
Bag of words bu kadar fazla kelime ve içerik üretilmeyen zamanlarda şifreleme ve geri şifreleme işlemlerinde kullanılmaktaydı. Günümüzde ise arama motorları sayesinde içerik üretimini teşvik eden bir ekosistem bulunuyor. Bu içerik müdafaası içerisinde ise arama motorlarının ve içerikle beslenen platformların içerikler hakkında daha hızlı kararlar vermesi bekleniyor.
Örneğin Twitter’da bir kullanıcı bir süre hesap yönetimi yaptıktan sonra reklam servisine kayıt olmak için izin talep ediyor. Reklam çıktığı kelimelerdeki denetimler ise şu an için oldukça az kriterden geçiyor. Oysa ki reklam servisini daha güncel tutan Facebook ve Instagram üzerinde durum bundan farklı. Facebook reklam servislerinde içeriği ve görselleri otomatik olarak denetlemeye yarayacak daha nitelikli algoritmalar kullanıyor.
Aynı şekilde Google gibi Bing arama motoru da üretilen içerikleri bir başka siteden kopyalama veya özetleme şeklinde olup olmadığına göre çeşitli süzgeçlerden geçiriyor. İşte bu noktada çalışmaya başladığınızda karşınıza ilk gelecek denetim öğretilerinden biri Bag Of Words modeli oluyor.
Alt Başlıklar
Bag of words yani kelime çantası modeli yeni değildir. Bag of Words’ün 2000’li yılların başlarında şu anda herkesin bildiği Yahoo ve Hotmail gibi e posta servisi sağlayıcıları tarafından kullanıldığı biliniyor. Buna rağmen bag of words modelinde kullanılan algoritma yapısı bir çok spam ve scam işlemleri tespit etmek için kullanışlı ve basit bir yöntemdir.
Öyleyse bag of words modeli nedir derseniz de doğal dil işleme alanın temellerinde kullanılan bir algoritmadır. Daha önce de söylediğim gibi her uzman mutlaka bir bag of words uygulaması yapar. Bu uygulamanın ilkel olması ve farklı örneklerinin verilmesi kullanılmadığı anlamına gelmesin. halen gelişmiş sistemlerde bag of words modeli çeşitli düzenlemelerle kullanılır.
Bag of words modeli anlatımında yukarıdaki örneğe benzer anlatımlar yapılır. Bu iki örnekte frekanslama yapılarak bag of words modeli işletilmeye başlanır Bu frekanslama sonucuna göre
Bow1: Burak(1), ders(2), çalışmayı(2), sever(2), de(1), Ayşe(1)
Bow2: Ayşe(1), ayrıca(1), film(1), izlemeyi(1), de(1), sever(1)
Bow3: Burak(1), ders(2), çalışmayı(2), sever(3), de(2), Ayşe(2), ayrıca(1), film(1), izlemeyi(1) kadar cümlelerde kullanılmıştır.
Burada Bow3 modeli kullanılması için bow1 ve bow2 içerisinde geçen kelimelerin frekans sayıları toplanıyor. Birbirinden ayrı paragraf veya gönderilerde böylece en çok öne sürülenin ne olduğu anlaşılabilir.
Konu ilginizi çektiyse sözlük ve diğer uygulama sitelerinde örnek kodlar ile birlikte daha detaylı bilgiye zaten ulaşabilirsiniz. Başlangıcı bu konu üzerinden yapınca günümüzde halen bu basitlikte bir denetim modeli mi kullanılıyor diye soruyorsunuz. Bu mantıkla başlayan denetimler TF-IDF ve Word2Vec modelleri ile birlikte daha çok kişiye ulaşmaya başlamıştır.
Bag of words modeli 90’lı yılların sonlarında dahi kullanan web2.0 dünyasında da yer edinmiş bir algoritmadır. Bu algoritmanın günümüzdeki kullanımları ise giderek yaygılaşıyor. Tek başına bag of words modelinden oluşan bir algoritma bir sistemin omurgasını oluşturmasa da yardımcı model olarak sıklıkla tercih ediliyor. Spam koruma çalışmalarında, chatbot örneklerinde, telif hakları incelemelerinde ve daha fazla alanda bag of words modeli hala etkin olarak kullanılan algoritmaların başında geliyor.
Son yıllarda ise doğal dil işleme tekniklerinin chatbot gibi sistemlerce popüler olmasından kaynaklı olarak, bag of words kullanımının yayıldığını görüyoruz. NLP için bir “hello world” örneği olarak da kullanılan bu algoritma birçok mimarinin de temellerini oluşturmuştur.
Bill Gates ve Melinda Gates boşanması teknoloji dünyasına bomba gibi düştü. Bill Gates'in dünyanın en…
Facebook akıllı bileklik modelini piyasaya sürdü. En çok kullanılan sosyal medya platformu olmayı yeterli görmeyen…
Oyun meraklılarının ve profesyonel oyuncuların sorunlarından biri olan gameloop emülatör kasma ve donma sorunu çözümü…
Dijital diş hekimliği, sağlık sektöründe robotik cihazların en çok kullanıldığı alanlar arasındadır. İngiltere'de yapılan 2019-2020…
Nasıl bilgisayar toplanır merak edenler için derledik. Yeni bir bilgisayar sahibi olmak herkesin hoşuna gider.…
Uber bugün, İngiltere'deki kullanıcıların araba kiralama şirketi olan CarTrawler ile ortaklaşa yaptıkları platform ile araç…
View Comments