티스토리 뷰

사용자 삽입 이미지











오늘 방문자는 1000명인데 유입된 유입 경로 로그를 보면 10개 남짓,
990명이 내 홈페이지를 즐겨찾기, 혹은 직접 주소를 입력하고 들어 온다는 얘긴가!?

블로그를 운영하시는 분들은 한번쯤 저런 고민을 하셨을 것이라 생각합니다.

위와 같은 문제가 생기는 대개의 경우는 로봇이라고 부르는 프로그램들이 발생시킵니다.
네이버나 다음, 구글 같은 사이트는 빠르게 검색을 하기 위해, 여러 사이트에 있는 정보를 자신의 DB에 저장합니다. 그리고 사람들이 검색어를 입력하면 인터넷을 돌아단니지 않고, 자신의 DB만을 검색하여 결과를 보여줍니다. 이 과정에서 사이트를 돌아다니며 페이지 내용을 저장하는 역할을 하는 프로그램을 로봇(혹은 웹봇, 크롤러)라고 부릅니다.

로봇의 동작을 다시 간단하게 설명을 드리면
  1. 로봇이 내 블로그에 온다 (카운터 1 증가)
  2. 들어온 페이지 에 있는 링크을 찾아서 다시 들어간다. (링크 개수만큼 카운터 증가)
  3. 2번을 반복.
물론 최대한 간단하게 설명을 한 것이고 저 과정에서 여러가지 일들이 벌어집니다.

로봇의 방문은 트래픽과 서버 부하를 증가시킵니다. 때문에 robot.txt파일이나 서버 설정을 통해 막아버리기도 합니다. 그러나 그 방법은 검색 사이트에서 들어오는 접근 자체를 막아버리는 결과가 초래합니다.
우리가 원하는 방법이 아니지요.

우리는 블로그에 더 많은 사람들이 오기를 바라며, 동시에 카운터가 더 정확하게 방문자 수를 세기를 바랍니다.
그러기 위해서는 로봇의 방문은 그대로 두고, 카운팅 할 때에 방문자가 사람인지 로봇인지 확인을 해서 로봇이면 제외하면 되겠지요.

방문자가 로봇인지 사람인지는 확인하는 가장 간단한 방법은 환경변수 USER_AGENT를 사용하는 것 입니다.
사람인 경우엔 다음과 같은 브라우져와 OS정보가 담겨 있습니다.
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.8.1.8) Gecko/20061201 Firefox/2.0.0.8 (Ubuntu-feisty)
로봇인 경우엔 다음처럼 남기고 싶은 정보를 남깁니다.
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html)
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
Mozilla/4.0 (compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)
Mediapartners-Google
ShopWiki/1.0 ( +http://www.shopwiki.com/wiki/Help:Bot)

티스토리에서 사용하는 '로봇의 방문횟수 제외'(crizin님이 만드신) 플러그인이 저 USER_AGENT 값에서 해당 문자를 찾아 있으면 카운팅하지 않는 방법입니다.
간단하게 예를 들면

1Noonbot,Accoona-AI-Agent,Allblog.net
,Baiduspider,Blogbeat,Crawler,DigExt
,DrecomBot,Exabot,FeedChecker,FeedFetcher
,Gigabot,Googlebot,HMSE_Robot
,IP*Works!,IRLbot,Jigsaw,LWP::Simple
,Labrador,MJ12bot,MirrorChecking
,MissiguaLocator,NG/2.0,NaverBot
,NutchCVS,PEARHTTP_Request,PostFavorites
,SBIder,W3C_Validator,WISEbot
,Y!J-BSC,Yahoo!Slurp,ZyBorg,voyager   
,archiver,carleson,cfetch,sogou
,compatible;Eolin,favicon,feedfinder
,findlinks,genieBot,ichiro,kinjabot
,larbin,lwp-trivial,msnbot,psbot
,urllib/1.15
위의 리스트가 티스토리에서 기본으로 설정해둔 로봇들의 리스트입니다. (콤마로 구분)

제가 분홍색으로 표시를 한 부분에 보면 Googlebot이란 이름이 있는데 만약 접속자가
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 라면
Googlebot이 검색되니 카운팅에서 제외하게 되는 것 입니다.

결국 정확한 카운팅을 위해서는 저 로봇 리스트를 늘리면 되겠지요.

인터넷을 뒤지면 많은 로봇 리스트를 찾을 수 있습니다.
대표적으로 http://www.robotstxt.org/wc/active/html/index.html 이곳에 많은 로봇의 목록을 볼 수 있수 있습니다. 그러나 300개 가까운 로봇이 기록되어 있는 저런 리스트도 완벽하지는 못합니다. NaverBot도 요즘 제 홈페이지를 무자비하게 긁어가고 있는 Twiceler도 없습니다. 게다가 무작정 로봇 리스트를 늘리는 것은 서버에 그만큼 부하를 주게 되는 것이라 좋은 방법이라 할 수 없습니다.

저는 며칠 전부터 제 홈페이지에(설치형 위키)서 로봇의 로그를 모으고 있습니다.
10/25 10:17에서  10/27 09:40 사이에 저를 빼고 975번 로봇이 다녀갔습니다. (하하)
구글이 약 300번, Twiceler가 약 600번 나머지를 야후와 네이버, 기타가 다녀갔네요.

이제부터가 제가 제안드리려는 부분입니다.
사실 특별한 것은 아니고 블로거들이 로봇 정보를 모아서 교환하자는 것 입니다. 아니면 특정한 어떤 사이트에 모으거나요.
이런 방법으로 각자의 리스트를 모아 중복되는 것을 빼면, 우리나라(블로그)에 맞는 로봇 리스트를 만들 수 있지 않을까 하는 생각이 들었습니다.

아, 로그를 남기시려면 설치형 블로그나 위키를 사용하셔야 합니다! (혹은 그냥 홈페이지)


우선 아래는 제가 추가한 것들입니다.
Google,Twiceler,Gigabot,Pingdom,ShopWiki,SurveyBot,EMPAS

지속적으로 로봇 목록을 추가하겠습니다.

관심있으신 분들 댓글이나 트랙백 남겨주세요.



Daum 블로거뉴스
블로거뉴스에서 이 포스트를 추천해주세요.


댓글