'Web search'에 해당되는 글 1건

  1. [2008/11/07] AIP study

AIP study

[CS/Study]

Web

  1. Search Engine의 기여도

    1. 새로운 컨텐츠를 쉽게 찾을 수 있게 해준다. - Bookmark나 taxanomies로는 실패
    2. Web은 기술의 산물이며 사회적 환경이다
    3. Search Engine은  관심사의 조합이 가능하다
    4. Section에 관계없이 검색의 상호를 가능케한다.
    5. 검색은 웹광고의 가장 좋은 mechanism으로 판명났다
  2. Classical IR VS Web IR

    1. Classical IR

      1. 기본적인 가정

        1. Corpus : 문서의 모음
        2. Goal : 유저가 원하는 정보와 적절한 정보를 가진 문서를 찾는 일
      2. 기존의 IR은 각 쿼리에서 문서와 쿼리의 정보만을 이용하여 점수를 매김

        1. 문맥은 무시됨
        2. 개인은 무시됨
        3. Corpus는 미리 지정됨
    2. Web IR
      seachrTech.JPG

      1. User Needs

        1. 유저의 특성

          1. 정보 - 얻기를 원한다
          2. 탐색 - 어떠한 페이지로 가기를 원한다
          3. 처리 - 무언가를 하기를 원한다
          4. 일반적으로 유저는 부정확한 단어를 사용하며, 노력이 없으며, 다양한 요구가 있으며, 기대, 지식, bandwidth가 있다.
          5. 유저는 익숙하지 않으며, 다이나믹한 정보의 요구가 있다. 부정확한 쿼리를 함.
        2. 쿼리의 결과

          1. 퀄리티는 다양한다.(검색능력은 충분하지 않음)
          2. 요구할 수 있는 사항이 다양함

            1. 내용 : 신뢰성, 새로운 정보, 중복되지 않음, 잘 정리됨
            2. Web의 가독성 : 정확히 표현되어야 하며, 빨라야함
            3. 팝업등은 없어야 함
          3. Precision : 정확성, Recall : 호출페이지 - trade off가 있음


      2. Corpus

        1. Web Corpus

          1. 10 B 페이지가 존재 - 정리가 되어 있지 않음
          2. 컨텐츠 창조와 연결의 분산, 자유로운 발행
          3. 컨텐츠는 진실, 거짓, 절대적 모순을 가짐
          4. 구조가 통일되지 않음 - XQuery가 모든 구조의 검색을 가능케 해줌
          5. 여전히 방대하게 증가하며 컨텐츠는 언제나 생성됨
        2. Dynamic Content

          1. 주로 악성 코드를 피하기 위해 컨텐츠가 숨겨져 있다
          2. Hidden or Deep web - Search engine이 crawler로 가질 수 없는 웹페이지, DB나 여러가지를 이용해 숨겨진다. <-> surface web
  3. Spam(Search Engine Optimization)

    1. 돈을 지불하지만 Rank를 높게 측정하기 위해서 SEO를 이용함.

      1. 마케팅 기능의 본질
      2. 어떤것은 완전 합법, 어떤것은 불법
      3. Term frequency를 높여 TFIDF값을 올려 ranking을 올린다.
        오늘날은 단어의 density를 믿지 못함
  4. Cloaking

    1. Search Engine spider를 속이는 것
    2. DNS cloaking : IP주소를 변환, 흉내만 냄
      cloaking.JPG
    3. Spam의 기술 - 2세대 기술

      1. 대문 페이지
      2. 링크의 스팸
      3. Robots - 거짓 쿼리 스트림
      4. 구글이 성공할 수 있었던 이유 : 다른 페이지에서 링크를 많이 걸 경우 랭킹을 올려줌, 검증된 페이지로 부터 많은 in-link를 받은 페이지


  5. Web Serach Engine

    1. 1세대 : 오로지 페이지 안의 text만 이용함

      1. word frequency, language
    2. 2세대 : off-page, 웹에 최적화된 데이터 이용

      1. link 분석
      2. Click-through data(what rsults people click on)
      3. Anchor-text(How people refer to this page)
    3. 3세대 : 쿼리보다 유저의 needs를 반영함

      1. 의미 분석

        1. 쿼리 언어 결정(자동 필터링, 국가언어에 따른 다른 랭킹)
        2. Hard & Soft matches

          1. 개인성
          2. 도시, 등등
        3. 자연어의 새로운 구성
      2. 구문의 결정(context determination)

        1. 유저의 지역, 타겟의 지역
        2. 쿼리의 스트림(이전 쿼리)
        3. 개인 성향
        4. 뚜렷함
        5. 암묵적(구글의 경우 한국이면 google.co.kr로 들어가게 함)
      3. 검색과 텍스트 분석을 합침
  6. Web IR - specific technologies

    1. Link Analysis on the Web

    2. Crawling & corpus construction
    3. Size of the web
    4. Duplicates & mirrors
    5. Indexing and Query processing
  7. PageRank Algorithm

    1. Preprocessing

      1. Given graph of links, build matrix P
      2. From it compute a
      3. The entry ai is a number between 0 and 1: the pagerank of page i
    2. Query Processing

      1. Retrieve pages meeting query
      2. Rank them by their pagerank
      3. Order is query independent
    3. PageRank 알고리즘은 구글에서 사용되었지만 그것보다 더 좋은 알고리즘이 많이 나오고 있다.
    4. 단점

      1. Random suffer모델이 현실적이지 않다
      2. Ranking을 위해 좋은 signal of ranking을 얻지만 user model은 좋지 않다
  8. HITS algorrithm(Hyperlink-Induced Topic Search)

    1. 쿼리에 응답하기 위해 각 쿼리에 해당하는 페이지 리스트를 정렬하기 보단 내부적으로 연결되는 두 페이지 셋을 찾는다

      1. Hub pages : good lists of links on a subject - good hub : 토픽에 해당하는 authority page를 point 한다
      2. Authority pages : good hub for the subject - good authority : 토픽에 해당하는 많은 좋은 허브로 부터 point 받는다
    2. broad topic 쿼리이 좀더 적합하다
    3. query에 independent 하다
    4. text index retireval 후 반복 계산이 overhead가 크다


  9. Crawling and Corpus Construction

    1. Basic Operation

      1. 알고있는 seed 페이지 부터 시작한다
      2. 실행 및 파서

        1. URL을 뽑아온다
        2. 뽑은 URL을 Queue에 넣는다
      3. Queue에서 URL을 하나씩 뽑아와서 계속 실행 반복한다.
    2. Crawling Issue

      1. How to crawl

        1. 퀄리티 : 베스트 페이지 부터
        2. efficiency : 중복 피함
        3. 에티켓 : robots.txt를 보고
      2. How much crawl? How much index?

        1. 커버리지 : 얼마나 많이 커버 해야하나?
        2. 상대적 커버리지 : 경쟁자들은 얼마나?
        3. 특정 커버리지 : 특정 topic 페이지를 크롤하는 방법?
      3. How often to crawl?

        1. 신선성 - 얼마나 많은 페이지들이 실제로 바뀌었는지?
  10. Mirror site

    1. smart crawling

      1. 빠르고, 가장 최근에 변한 서버로부터 실행
      2. 중복 회피
    2. 더 나은 연결 분석

      1. inlink의 결합
      2. outlink의 중복 카운팅을 회피
    3. 결과 나열의 잉여
    4. 프록시 캐싱
  11. Indexing and Query Processing

    1. Document partitioning - Local indexing

      1. 중복되는 카테고리의 가능성
      2. 서비스는 증가, quality는 분산
    2. Term patitioning - Global indexing

      1. term을 기준으로 나눔
      2. 서비스는 감소, quality는 증가



 Web Advertising

  1. Rich Media
    Animations, sound, video, interactivity, etc usually via a proprietary platform,
  2. Kind of Ads

    1. Sponsored Search

      1. 광고를 search engine에서 넣는 키워드를 통해서 가져온다.
    2. Context match

      1. 광고를 웹페이지의 내용을 통해서 가져온다
  3. A short history of web search

    1. 1994 - Web Crawler
    2. 1995 - Digital announces Altavista
    3. 1998 - Google
    4. After - Google added "paid - placement" ads to the side, separate from search engine
    5. 2003 - Yahoo, acquiring Overture(for paid placement) and Inktomi(for search)

      1. 구글의 등장으로 인해서 Inktomi를 제외한 나머지는 모두 사라짐
      2. 최근 거대 기업은 web search engine과 Ad platform+network를 모두 가지고 있다.
  4. Search Engine의 기여도

    1. 새로운 컨텐츠를 쉽게 찾을 수 있게 해준다. - Bookmark나 taxanomies로는 실패
    2. Web은 기술의 산물이며 사회적 환경이다
    3. Search Engine은  관심사의 조합이 가능하다
    4. Section에 관계없이 검색의 상호를 가능케한다.
  5. Key Pricing Concepts

    1. CPM = Cost per thousand impressions -> 노출 시간에 의한 가격

      1. 일반적으로 배너나 그래픽 광고에 해당한다
    2. CPC = Cost per click -> 클릭 횟수에 의한 가격

      1. 일반적으로 문자 기반 광고에 해당
    3. CPT/CPA = Cost per transaction/action a.k.a referral fees or affiliate fees -> 추천이나 제휴사에 의한 가격

      1. 일반적인 쇼핑(인터넷을 통한 구매), 여행 등
      2. 최근에는 Text기반의 광고에서 사용
  6. Three Sub-Problems

    1. Match ads to query/context

      1. IR 측면의 문제가 강하다
      2. 정보를 획득하는데 word가 적고 중복되어서 정확하게 분석하기가 힘들다
      3. 위치 정보의 경우 약어는 관용어구와 중복되며, 매우 많이 사용된다. 또한 이름에도 중복된다.

        1. Of(Trabzon, Turkey), To(Kyongsang-Namdo, South Korea), AND(Short of Andorra), A(Nordland, Norway), IN(Short for Indiana and India), IT(short for Italy), etc
        2. Jack London, Paris Hilton, Anatole France, ....
    2. Order the ads

      1. Ad를 정렬하는 것도 중요한 문제다. 상위 랭크의 Ad가 클릭될 확률이 높기 때문에
      2. 결정하는 기준

        1. 쿼리 기반의 IR 점수
        2. Econ 점수인 광고주의 bid
        3. 일반적으로 IR score + Econ score로 정렬한다.(우선은 Econ)
        4. 기존의 방식은 bid를 통하여서 정렬(overture & GoTo)
      3. Expected Revenue (Rj) = bj * CTR(click through rate)j
      4. Ads는 R에 의해서 정렬된다
      5. Economic ordering은 Bid와 revenue를 이용하여 정렬하는데 revenue를 최대화 시키지는 못한다.
    3. Pricing on click-through

      1. 경쟁시장에서 user와 advertiser와 central service가 있는데 최상의 payment 시스템으로 어떻게 돌아가도록 할 수 있는가??
      2. Game theory 측면에서 볼 수 있다
      3. Second price가 우승할 수 있다. highest price는 not truthful.
    4. Technical Goal은 CTR을 Maximizing하는 것
  7. Summary of Sponsored Search

    1. How it works?

      1. Engine decides when/where to show this ad
      2. Engine decides how much to charge advertiser on a click
    2. The technical sub-problems

      1. Retrieve ads matching query
      2. Order the ads
      3. Pricing on a click-though

이 글은 스프링노트에서 작성되었습니다.