웹 쿼리

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

웹 쿼리는 웹 검색 엔진에 입력하는 검색어 또는 질의를 의미한다. 일반적으로 정보형, 탐색형, 거래형, 연결형의 네 가지 유형으로 분류된다. 정보형 쿼리는 광범위한 주제에 대한 정보를 찾고, 탐색형 쿼리는 특정 웹사이트나 개체를 찾으며, 거래형 쿼리는 특정 작업을 수행하기 위한 것이다. 연결형 쿼리는 웹 그래프의 연결 관계를 묻는 유형이다.

웹 쿼리는 쿼리 길이, 사용 패턴, 지리적 정보 포함 여부 등 다양한 특징을 보인다. 연구에 따르면 쿼리의 평균 길이는 점차 증가하는 추세이며, 반복 쿼리 및 롱테일 분포와 같은 특징도 나타난다. 또한, 불리언 연산자를 활용한 구조화된 쿼리, 특히 패싯 쿼리를 통해 검색 범위를 좁힐 수 있다.

웹 쿼리
웹 쿼리

이미지 준비중입니다.

웹 쿼리의 예시
정의
유형정보 검색 쿼리
관련검색 엔진 최적화, 검색 엔진 마케팅
📚 더 읽어볼만한 페이지
  • 인터넷 검색 - URL 리다이렉션
    URL 리다이렉션은 사용자를 다른 웹 페이지로 자동 이동시키는 기술이며, HTTP 상태 코드를 통해 구현되고 보안, URL 축약, 장치 타겟팅 등 다양한 목적으로 활용되지만, 보안 문제와 피싱 공격에 악용될 위험도 존재한다.
  • 인터넷 검색 - 인터넷 헌트
    인터넷 헌트는 릭 게이츠가 리스트서버를 통해 출제한 문제들을 의미하며, 난이도에 따라 점수가 부여되고, 정답을 먼저 제출하는 사람이 우선권을 갖는 방식이다.

2. 검색 쿼리의 유형

대부분의 웹 검색 쿼리에는 정보, 탐색, 거래라는 세 가지 광범위한 범주가 있다. 이것을 "do, know, go"라고도 한다. 이 검색 모델은 이론적으로 도출된 것은 아니지만 실제 검색 엔진 쿼리를 통해 분류가 경험적으로 검증되었다.

* 정보형 쿼리 – 수천 개의 관련 결과가 있을 수 있는 광범위한 주제(예: 콜로라도 또는 트럭)를 다루는 쿼리이다.
* 탐색형 쿼리 – 단일 웹사이트 또는 단일 엔터티(예: 유튜브 또는 델타 항공)의 웹페이지를 찾는 쿼리이다.
* 거래형 쿼리 – 자동차 구매, 화면 보호기 다운로드 등 특정 작업을 수행하려는 사용자의 의도를 반영하는 쿼리이다.

검색 엔진은 훨씬 덜 자주 사용되는 네 번째 유형의 쿼리를 지원하는 경우가 많다.

* 연결형 쿼리 – 인덱싱된 웹 그래프의 연결에 대해 보고하는 쿼리이다(예: 어떤 링크가 이 URL을 가리키는가? 및 이 도메인 이름에서 인덱싱된 페이지 수는 몇 개인가?).

2.1. 정보형 쿼리

정보형 쿼리는 광범위한 주제를 다루며, 관련 결과가 수천 개에 이를 수 있다. 예를 들어 "콜로라도"나 "트럭"과 같은 검색어가 이에 해당한다. 웹 검색 쿼리는 크게 정보형, 탐색형, 거래형의 세 가지로 분류되며, 이는 "do, know, go"라고도 불린다. 이러한 분류는 이론적으로 도출된 것이 아니라 실제 검색 엔진 쿼리를 통해 경험적으로 검증되었다.

2.2. 탐색형 쿼리

탐색형 쿼리는 단일 웹사이트 또는 단일 개체의 웹 페이지를 찾는 쿼리이다. (예: 유튜브, 델타 항공) 한국의 경우, 특정 브랜드나 서비스명을 직접 검색하는 경우가 많다.

2.3. 거래형 쿼리

거래형 쿼리는 특정 작업을 수행하려는 사용자의 의도를 반영하는 쿼리이다. 예를 들어 자동차 구매, 화면 보호기 다운로드 등이 있다. 한국에서는 온라인 쇼핑, 금융 거래 등과 관련된 쿼리가 많다.

2.4. 연결형 쿼리

검색 엔진은 인덱싱된 웹 그래프의 연결에 대해 보고하는 연결형 쿼리를 지원하는 경우가 있지만, 이는 다른 유형의 쿼리에 비해 덜 자주 사용된다. 연결형 쿼리의 예시로는 특정 URL을 가리키는 링크를 묻거나, 특정 도메인 이름에서 인덱싱된 페이지 수를 묻는 쿼리가 있다.

3. 검색 쿼리의 특징

검색어 자동 완성 목록
검색어 자동 완성 목록

대부분의 상업용 웹 검색 엔진은 검색 로그를 공개하지 않으므로 사용자가 웹에서 무엇을 검색하는지에 대한 정보를 얻기가 어렵다. 그럼에도 불구하고 1998년부터 관련 연구가 시작되었다. Excite 검색 엔진의 쿼리를 분석한 2001년 연구에서는 웹 검색의 몇 가지 흥미로운 특징을 보여주었다.

* 쿼리의 평균 길이는 2.4개 용어였다.
* 사용자의 약 절반은 단일 쿼리를 입력했으며, 사용자의 3분의 1 미만이 3개 이상의 고유 쿼리를 입력했다.
* 사용자의 거의 절반이 결과의 처음 한두 페이지만 검토했다(페이지당 10개 결과).
* 사용자의 5% 미만이 고급 검색 기능(예: AND, OR, NOT과 같은 부울 연산자)을 사용했다.
* 가장 많이 사용된 상위 4개 용어는 (빈 검색), and, of, and sex였다.

동일한 Excite 쿼리 로그에 대한 연구에 따르면 쿼리의 19%에 지리적 용어(예: 지명, 우편 번호, 지리적 특징 등)가 포함되어 있었다.

연구에 따르면 짧은 쿼리(용어가 적은 쿼리) 외에도 사용자가 쿼리를 변경하는 예측 가능한 패턴이 있다.

2005년 Yahoo의 쿼리 로그에 대한 연구에 따르면 동일한 사용자의 쿼리의 33%가 반복 쿼리였으며, 87%의 경우 사용자가 동일한 결과를 클릭하는 것으로 나타났다. 이는 많은 사용자가 정보를 다시 방문하거나 다시 찾기 위해 반복 쿼리를 사용한다는 것을 시사한다. 이 분석은 쿼리의 약 30%가 내비게이션 쿼리라고 밝힌 빙 검색 엔진 블로그 게시물로 확인되었다.

또한 연구에 따르면 쿼리 용어 빈도 분포는 멱법칙 또는
롱테일 분포 곡선을 따른다. 즉, 대규모 쿼리 로그(예: 1억 개 이상의 쿼리)에서 관찰된 용어 중 일부는 가장 자주 사용되는 반면, 나머지 용어는 개별적으로 덜 자주 사용된다. 이러한 파레토 법칙 (또는 80–20 규칙'')의 예는 검색 엔진이 인덱스 또는 데이터베이스 분할, 캐싱 및 미리 가져오기와 같은 최적화 기술을 사용할 수 있도록 한다. 또한 웹 쿼리가 내비게이션, 정보 또는 거래인지 인식할 수 있는 언어학적 속성에 대한 연구도 수행되었다.

2011년 연구에 따르면 쿼리의 평균 길이는 시간이 지남에 따라 꾸준히 증가했으며, 영어 이외의 언어 쿼리의 평균 길이가 영어 쿼리보다 더 많이 증가했다. 구글은 2013년 8월에 더 많은 검색이 대화형이므로(예: "가장 가까운 커피숍은 어디입니까?") 더 긴 검색 쿼리를 처리하기 위해 허밍버드 업데이트를 구현했다.

3.1. 검색어 길이 및 사용 패턴

2001년 Excite 검색 엔진의 쿼리를 분석한 연구에 따르면, 쿼리의 평균 길이는 2.4개 용어였다. 사용자의 약 절반은 단일 쿼리를 입력했으며, 사용자의 3분의 1 미만이 3개 이상의 고유 쿼리를 입력했다. 사용자의 거의 절반이 결과의 처음 한두 페이지만 검토했고(페이지당 10개 결과), 5% 미만이 고급 검색 기능(예: AND, OR, NOT과 같은 부울 연산자)을 사용했다. 가장 많이 사용된 상위 4개 용어는 (빈 검색), and, of, and sex였다.

동일한 Excite 쿼리 로그에 대한 연구에서는 쿼리의 19%에 지리적 용어(예: 지명, 우편 번호, 지리적 특징 등)가 포함되어 있었다는 사실이 밝혀졌다.

연구에 따르면 짧은 쿼리 외에도 사용자가 쿼리를 변경하는 예측 가능한 패턴이 존재한다. 2005년 Yahoo의 쿼리 로그 연구에서는 동일한 사용자의 쿼리 중 33%가 반복 쿼리였으며, 87%의 경우 사용자가 동일한 결과를 클릭하는 것으로 나타났다. 이는 많은 사용자가 정보를 다시 방문하거나 다시 찾기 위해 반복 쿼리를 사용한다는 것을 시사한다. 빙 검색 엔진 블로그 게시물에서는 쿼리의 약 30%가 내비게이션 쿼리라고 밝혔다.

또한, 쿼리 용어 빈도 분포는 멱법칙 또는
롱테일 분포 곡선을 따른다. 즉, 대규모 쿼리 로그(예: 1억 개 이상의 쿼리)에서 관찰된 용어 중 일부는 가장 자주 사용되는 반면, 나머지 용어는 개별적으로 덜 자주 사용된다. 이러한 파레토 법칙 (80–20 규칙'')은 검색 엔진이 인덱스 또는 데이터베이스 분할, 캐싱 및 미리 가져오기와 같은 최적화 기술을 사용하는 것을 돕는다. 웹 쿼리가 내비게이션, 정보 또는 거래인지 인식할 수 있는 언어학적 속성에 대한 연구도 수행되었다.

2011년 연구에 따르면 쿼리의 평균 길이는 시간이 지남에 따라 꾸준히 증가했으며, 영어 이외의 언어 쿼리의 평균 길이가 영어 쿼리보다 더 많이 증가했다. 구글은 2013년 8월에 더 많은 검색이 대화형이므로(예: "가장 가까운 커피숍은 어디입니까?") 더 긴 검색 쿼리를 처리하기 위해 허밍버드 업데이트를 구현했다.

3.2. 반복 쿼리 및 롱테일 분포

2005년 야후의 쿼리 로그 연구에 따르면 동일한 사용자의 쿼리 중 33%가 반복 쿼리였으며, 그중 87%는 사용자가 동일한 결과를 클릭했다. 이는 많은 사용자가 정보를 다시 찾거나 재방문하기 위해 반복 쿼리를 사용한다는 것을 보여준다. 빙 검색 엔진 블로그 게시물에서는 쿼리의 약 30%가 내비게이션 쿼리라고 밝혔다.

또한, 연구에 따르면 쿼리 용어 빈도 분포는 멱법칙 또는 롱테일 분포 곡선을 따른다. 즉, 많은 쿼리 로그에서 관찰된 용어 중 일부는 자주 사용되지만, 나머지 용어는 개별적으로 덜 사용된다. 이러한 파레토 법칙(80-20 규칙)은 검색 엔진이 인덱스 또는 데이터베이스 분할, 캐싱 및 미리 가져오기 같은 최적화 기술을 사용하는 데 활용될 수 있다.

3.3. 지리적 정보 포함

2001년 Excite 검색 엔진의 쿼리 로그를 분석한 연구에 따르면 쿼리의 19%에 지리적 용어(예: 지명, 우편 번호, 지리적 특징 등)가 포함되어 있었다. 한국의 경우, 지역 맛집, 명소 등 지역 정보와 관련된 검색어가 많이 사용된다.

4. 구조화된 쿼리

불리언 연산자와 괄호를 지원하는 검색 엔진을 사용하면, 여러 주제나 측면을 다루는 문서를 찾을 수 있다. 사용자는 각 측면을 `vehicles OR cars OR automobiles`와 같이 특징적인 단어들의 논리합으로 설명할 수 있다. 패싯 쿼리는 이러한 측면들의 논리곱이다. 예를 들어, `(electronic OR computerized OR DRE) AND (voting OR elections OR election OR balloting OR electoral)`와 같은 쿼리는 "electronic" 또는 "voting" 단어 중 하나 또는 둘 다 생략하더라도 전자 투표에 관한 문서를 찾을 가능성이 높다.

4.1. 패싯 쿼리

패싯 쿼리는 불리언 연산자와 괄호를 지원하는 검색 엔진에서 사용 가능한 기술이다. 각 측면을 특징적인 단어들의 논리합으로 설명하고, 이러한 측면들의 논리곱을 이용하여 검색 결과를 좁힐 수 있다. 예를 들어, `(electronic OR computerized OR DRE) AND (voting OR elections OR election OR balloting OR electoral)`와 같은 쿼리는 "electronic" 또는 "voting" 단어 중 하나 또는 둘 다 생략하더라도 전자 투표에 관한 문서를 찾을 가능성이 높다.