Web Log Dosyalarından Veri Madenciliği Yöntemleriyle Kullanıcı Tanıma

Web Log Dosyalarından Veri Madenciliği Yöntemleriyle Kullanıcı Tanıma

Identifying the Visitors with Data Mining Methods from Web Log Files

Özet- Web arama motorlarında ve web sitelerinin işlem günlüklerinde saklanan verilerin kullanılması, çevrimiçi araştırmacıların bilgi arama sürecini anlamada ve kullanıcı davranış analizinde değerli bilgiler sağlayabilir. Bu bağlamda günlük dosyaları aracılığıyla, hangi tür erişimlerin hangi kullanıcılar tarafından ve ne zaman yapıldığı gibi bir ağ yapısında önem taşıyan bilgiler elde edilebilmekte ve bilgi sisteminin tasarımında, arayüz gelişiminde ve içerik koleksiyonları için bilgi mimarisini geliştirmede fayda sağlayabilmektedir. Bu makale çalışmasında, Fırat Üniversitesi web sitesine yapılmış olan bir aylık erişim kayıtları toplanmış daha sonra belirli bir örneklem kümesi alınmıştır. Bu örneklem kümesi veri madenciliğinin temel konularından olan veri temizleme aşaması kapsamında geliştirilen log parser uygulaması ile temizlenmiştir. Temizlenmiş olan bu veriler daha sonra CSV formatına çevrilerek Weka Yazılımı’nda en iyi başarımı sağlayan BayesNet sınıflandırıcı yöntemiyle analizi gerçekleştirilmiştir.

Abstract – The usage of data stored in web search engines and on transaction logs of websites can provide valuable information for researchers related to the searched information and user behavior analysis. Within this context, some information, which is important for a network structure, can be obtained such as access time and access type. It can be especially beneficial in designing the information system, developing the interface, and improving the information architecture for content collections. In this paper, a set of samples of one month access log records of Fırat University website is collected and used. The set of samples is cleaned up with the log parser application developed in the data cleansing phase, which is the core of data mining. The cleaned data were converted to CSV format and analyzed using the BayesNet classifier method, which provides the best performance in the WEKA Software. As a result of the analysis it is seen that the future behavior of website users can be correctly estimated based on RemoteHostname.

http://www.ijeter.everscience.org/Manuscripts/Volume-5/Issue-3/Vol-5-issue-3-M-50.pdf

 

 

 

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

* Copy This Password *

* Type Or Paste Password Here *

44 − 38 =