Web
-
Search Engine의 기여도
- 새로운 컨텐츠를 쉽게 찾을 수 있게 해준다. - Bookmark나 taxanomies로는 실패
- Web은 기술의 산물이며 사회적 환경이다
- Search Engine은 관심사의 조합이 가능하다
- Section에 관계없이 검색의 상호를 가능케한다.
- 검색은 웹광고의 가장 좋은 mechanism으로 판명났다
-
Classical IR VS Web IR
-
Classical IR
-
기본적인 가정
- Corpus : 문서의 모음
- Goal : 유저가 원하는 정보와 적절한 정보를 가진 문서를 찾는 일
-
기존의 IR은 각 쿼리에서 문서와 쿼리의 정보만을 이용하여 점수를 매김
- 문맥은 무시됨
- 개인은 무시됨
- Corpus는 미리 지정됨
-
-
Web IR
-
User Needs
-
유저의 특성
- 정보 - 얻기를 원한다
- 탐색 - 어떠한 페이지로 가기를 원한다
- 처리 - 무언가를 하기를 원한다
- 일반적으로 유저는 부정확한 단어를 사용하며, 노력이 없으며, 다양한 요구가 있으며, 기대, 지식, bandwidth가 있다.
- 유저는 익숙하지 않으며, 다이나믹한 정보의 요구가 있다. 부정확한 쿼리를 함.
-
쿼리의 결과
- 퀄리티는 다양한다.(검색능력은 충분하지 않음)
-
요구할 수 있는 사항이 다양함
- 내용 : 신뢰성, 새로운 정보, 중복되지 않음, 잘 정리됨
- Web의 가독성 : 정확히 표현되어야 하며, 빨라야함
- 팝업등은 없어야 함
-
Precision : 정확성, Recall : 호출페이지 - trade off가 있음
-
-
Corpus
-
Web Corpus
- 10 B 페이지가 존재 - 정리가 되어 있지 않음
- 컨텐츠 창조와 연결의 분산, 자유로운 발행
- 컨텐츠는 진실, 거짓, 절대적 모순을 가짐
- 구조가 통일되지 않음 - XQuery가 모든 구조의 검색을 가능케 해줌
- 여전히 방대하게 증가하며 컨텐츠는 언제나 생성됨
-
Dynamic Content
- 주로 악성 코드를 피하기 위해 컨텐츠가 숨겨져 있다
- Hidden or Deep web - Search engine이 crawler로 가질 수 없는 웹페이지, DB나 여러가지를 이용해 숨겨진다. <-> surface web
-
-
-
-
Spam(Search Engine Optimization)
-
돈을 지불하지만 Rank를 높게 측정하기 위해서 SEO를 이용함.
- 마케팅 기능의 본질
- 어떤것은 완전 합법, 어떤것은 불법
- Term frequency를 높여 TFIDF값을 올려 ranking을 올린다.
오늘날은 단어의 density를 믿지 못함
-
-
Cloaking
- Search Engine spider를 속이는 것
- DNS cloaking : IP주소를 변환, 흉내만 냄
-
Spam의 기술 - 2세대 기술
- 대문 페이지
- 링크의 스팸
- Robots - 거짓 쿼리 스트림
-
구글이 성공할 수 있었던 이유 : 다른 페이지에서 링크를 많이 걸 경우 랭킹을 올려줌, 검증된 페이지로 부터 많은 in-link를 받은 페이지
-
Web Serach Engine
-
1세대 : 오로지 페이지 안의 text만 이용함
- word frequency, language
-
2세대 : off-page, 웹에 최적화된 데이터 이용
- link 분석
- Click-through data(what rsults people click on)
- Anchor-text(How people refer to this page)
-
3세대 : 쿼리보다 유저의 needs를 반영함
-
의미 분석
- 쿼리 언어 결정(자동 필터링, 국가언어에 따른 다른 랭킹)
-
Hard & Soft matches
- 개인성
- 도시, 등등
- 자연어의 새로운 구성
-
구문의 결정(context determination)
- 유저의 지역, 타겟의 지역
- 쿼리의 스트림(이전 쿼리)
- 개인 성향
- 뚜렷함
- 암묵적(구글의 경우 한국이면 google.co.kr로 들어가게 함)
- 검색과 텍스트 분석을 합침
-
-
-
Web IR - specific technologies
-
Link Analysis on the Web
- Crawling & corpus construction
- Size of the web
- Duplicates & mirrors
- Indexing and Query processing
-
-
PageRank Algorithm
-
Preprocessing
- Given graph of links, build matrix P
- From it compute a
- The entry ai is a number between 0 and 1: the pagerank of page i
-
Query Processing
- Retrieve pages meeting query
- Rank them by their pagerank
- Order is query independent
- PageRank 알고리즘은 구글에서 사용되었지만 그것보다 더 좋은 알고리즘이 많이 나오고 있다.
-
단점
- Random suffer모델이 현실적이지 않다
- Ranking을 위해 좋은 signal of ranking을 얻지만 user model은 좋지 않다
-
-
HITS algorrithm(Hyperlink-Induced Topic Search)
-
쿼리에 응답하기 위해 각 쿼리에 해당하는 페이지 리스트를 정렬하기 보단 내부적으로 연결되는 두 페이지 셋을 찾는다
- Hub pages : good lists of links on a subject - good hub : 토픽에 해당하는 authority page를 point 한다
- Authority pages : good hub for the subject - good authority : 토픽에 해당하는 많은 좋은 허브로 부터 point 받는다
- broad topic 쿼리이 좀더 적합하다
- query에 independent 하다
-
text index retireval 후 반복 계산이 overhead가 크다
-
-
Crawling and Corpus Construction
-
Basic Operation
- 알고있는 seed 페이지 부터 시작한다
-
실행 및 파서
- URL을 뽑아온다
- 뽑은 URL을 Queue에 넣는다
- Queue에서 URL을 하나씩 뽑아와서 계속 실행 반복한다.
-
Crawling Issue
-
How to crawl
- 퀄리티 : 베스트 페이지 부터
- efficiency : 중복 피함
- 에티켓 : robots.txt를 보고
-
How much crawl? How much index?
- 커버리지 : 얼마나 많이 커버 해야하나?
- 상대적 커버리지 : 경쟁자들은 얼마나?
- 특정 커버리지 : 특정 topic 페이지를 크롤하는 방법?
-
How often to crawl?
- 신선성 - 얼마나 많은 페이지들이 실제로 바뀌었는지?
- 신선성 - 얼마나 많은 페이지들이 실제로 바뀌었는지?
-
-
-
Mirror site
-
smart crawling
- 빠르고, 가장 최근에 변한 서버로부터 실행
- 중복 회피
-
더 나은 연결 분석
- inlink의 결합
- outlink의 중복 카운팅을 회피
- 결과 나열의 잉여
- 프록시 캐싱
-
-
Indexing and Query Processing
-
Document partitioning - Local indexing
- 중복되는 카테고리의 가능성
- 서비스는 증가, quality는 분산
-
Term patitioning - Global indexing
- term을 기준으로 나눔
-
서비스는 감소, quality는 증가
-
Web Advertising
- Rich Media
Animations, sound, video, interactivity, etc usually via a proprietary platform, -
Kind of Ads
-
Sponsored Search
- 광고를 search engine에서 넣는 키워드를 통해서 가져온다.
-
Context match
- 광고를 웹페이지의 내용을 통해서 가져온다
- 광고를 웹페이지의 내용을 통해서 가져온다
-
-
A short history of web search
- 1994 - Web Crawler
- 1995 - Digital announces Altavista
- 1998 - Google
- After - Google added "paid - placement" ads to the side, separate from search engine
-
2003 - Yahoo, acquiring Overture(for paid placement) and Inktomi(for search)
- 구글의 등장으로 인해서 Inktomi를 제외한 나머지는 모두 사라짐
- 최근 거대 기업은 web search engine과 Ad platform+network를 모두 가지고 있다.
-
Search Engine의 기여도
- 새로운 컨텐츠를 쉽게 찾을 수 있게 해준다. - Bookmark나 taxanomies로는 실패
- Web은 기술의 산물이며 사회적 환경이다
- Search Engine은 관심사의 조합이 가능하다
- Section에 관계없이 검색의 상호를 가능케한다.
-
Key Pricing Concepts
-
CPM = Cost per thousand impressions -> 노출 시간에 의한 가격
- 일반적으로 배너나 그래픽 광고에 해당한다
-
CPC = Cost per click -> 클릭 횟수에 의한 가격
- 일반적으로 문자 기반 광고에 해당
-
CPT/CPA = Cost per transaction/action a.k.a referral fees or affiliate fees -> 추천이나 제휴사에 의한 가격
- 일반적인 쇼핑(인터넷을 통한 구매), 여행 등
- 최근에는 Text기반의 광고에서 사용
-
-
Three Sub-Problems
-
Match ads to query/context
- IR 측면의 문제가 강하다
- 정보를 획득하는데 word가 적고 중복되어서 정확하게 분석하기가 힘들다
-
위치 정보의 경우 약어는 관용어구와 중복되며, 매우 많이 사용된다. 또한 이름에도 중복된다.
- Of(Trabzon, Turkey), To(Kyongsang-Namdo, South Korea), AND(Short of Andorra), A(Nordland, Norway), IN(Short for Indiana and India), IT(short for Italy), etc
- Jack London, Paris Hilton, Anatole France, ....
-
Order the ads
- Ad를 정렬하는 것도 중요한 문제다. 상위 랭크의 Ad가 클릭될 확률이 높기 때문에
-
결정하는 기준
- 쿼리 기반의 IR 점수
- Econ 점수인 광고주의 bid
- 일반적으로 IR score + Econ score로 정렬한다.(우선은 Econ)
- 기존의 방식은 bid를 통하여서 정렬(overture & GoTo)
- Expected Revenue (Rj) = bj * CTR(click through rate)j
- Ads는 R에 의해서 정렬된다
- Economic ordering은 Bid와 revenue를 이용하여 정렬하는데 revenue를 최대화 시키지는 못한다.
-
Pricing on click-through
- 경쟁시장에서 user와 advertiser와 central service가 있는데 최상의 payment 시스템으로 어떻게 돌아가도록 할 수 있는가??
- Game theory 측면에서 볼 수 있다
- Second price가 우승할 수 있다. highest price는 not truthful.
- Technical Goal은 CTR을 Maximizing하는 것
-
-
Summary of Sponsored Search
-
How it works?
- Engine decides when/where to show this ad
- Engine decides how much to charge advertiser on a click
-
The technical sub-problems
- Retrieve ads matching query
- Order the ads
- Pricing on a click-though
-
이 글은 스프링노트에서 작성되었습니다.


::: 사람과 사람의 교감! 人터넷의 첫 시작! 댓글을 달아주세요! :::