스팸덱싱
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
스팸덱싱은 검색 엔진에서 부당하게 높은 순위를 얻기 위해 웹 페이지를 조작하는 기술을 의미한다. 1996년에 처음 사용된 이 용어는 키워드 스터핑과 같은 초기 기술에서 시작하여, 검색 엔진 알고리즘의 발전에 따라 다양한 형태로 발전해 왔다. 스팸덱싱은 콘텐츠 스팸, 링크 스팸 등 다양한 기법을 포함하며, 숨겨진 텍스트, 메타 태그 스터핑, 도어웨이 페이지, 스크레이퍼 사이트, 기사 재작성, 기계 번역, 링크 팜, PBN, 숨겨진 링크, 시빌 공격, 스팸 블로그, 게스트 블로그 스팸, 만료된 도메인 구매, 위키 스팸, 리퍼러 스팸, 미러 웹사이트, URL 리디렉션, 클로킹 등이 있다. 검색 엔진 운영자는 스팸덱싱된 페이지를 검색 결과에서 제외하고, 사용자들은 검색 연산자, 차단 확장 프로그램 등을 활용하여 스팸덱싱을 방지할 수 있다. 한국에서는 주요 포털 사이트들이 자체적인 스팸 필터링 기술을 개발하고 있으며, 플랫폼 사업자의 책임을 강화하려는 노력이 진행 중이다.
더 읽어볼만한 페이지
- 스팸 - 화이트리스트
화이트리스트는 특정 대상만 허용하고 나머지는 차단하는 접근 제어 목록으로, 정보보안, 무역, 금융 등 다양한 분야에서 활용되지만, 목록 선정 기준의 불명확성, 사회적 문제점 등의 위험성으로 투명하고 엄격한 관리가 필요하다. - 스팸 - 스핑
- 토막글 틀에 과도한 변수를 사용한 문서 - 전향
전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다. - 토막글 틀에 과도한 변수를 사용한 문서 - 포토마스크
포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다. - 토론 이름공간 토막글 - 전향
전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다. - 토론 이름공간 토막글 - 포토마스크
포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다.
스팸덱싱 | |
---|---|
개요 | |
정의 | 검색 엔진 인덱스의 의도적인 조작 |
목표 | 검색 결과 순위 향상 |
유형 | 키워드 스터핑 숨겨진 텍스트 링크 스팸 클로킹 도어웨이 페이지 콘텐츠 스크래핑 |
기술 | |
키워드 스터핑 | 페이지 콘텐츠에 과도하게 키워드 반복 삽입 |
숨겨진 텍스트 | 검색 엔진에는 보이지만 사용자에게는 보이지 않는 텍스트 사용 |
링크 스팸 | 품질이 낮은 웹사이트로부터 대량의 링크 획득 |
클로킹 | 검색 엔진과 사용자에게 서로 다른 콘텐츠 제공 |
도어웨이 페이지 | 특정 키워드에 대해 순위를 높이기 위해 만들어진 페이지 |
콘텐츠 스크래핑 | 다른 웹사이트에서 콘텐츠를 복사하여 사용 |
검색 엔진의 대응 | |
스팸 색인 제거 | 스팸덱싱을 사용하는 웹사이트를 검색 결과에서 제거 |
알고리즘 업데이트 | 스팸덱싱 기술을 감지하고 무력화하기 위한 알고리즘 개선 |
수동 검토 | 스팸덱싱을 사용하는 웹사이트를 직접 찾아 제거 |
윤리적 문제 | |
검색 결과 품질 저하 | 스팸덱싱은 사용자가 원하는 정보를 찾기 어렵게 만듦 |
공정성 문제 | 스팸덱싱은 검색 결과의 공정성을 해침 |
사용자 기만 | 스팸덱싱은 사용자를 속여 원하지 않는 웹사이트로 유도 |
관련 용어 | |
검색 엔진 최적화 (SEO) | 웹사이트를 검색 엔진에 최적화하는 기술 (스팸덱싱과는 구별됨) |
블랙햇 SEO | 검색 엔진의 규칙을 어기는 SEO 기술 (스팸덱싱의 일종) |
기타 | |
참고 자료 | Google Search Central 스팸 정책 Web spam taxonomy |
2. 역사
스팸덱싱이라는 용어는 1996년 5월 22일, 에릭 컨베이가 보스턴 헤럴드에 기고한 "웹에서 포르노가 슬금슬금 기어들어온다"라는 기사에서 처음 사용되었다.[2] 초기에는 키워드 스터핑과 같은 단순한 방법이 주로 사용되었으나, 검색 엔진 알고리즘의 발전과 함께 다양한 기술들이 등장하고 사라지기를 반복했다. 검색 엔진들은 스팸덱싱에 대응하기 위해 지속적으로 알고리즘을 업데이트해 왔으며, 대표적인 예로 구글의 구글 플로리다 업데이트(2003년 11월), 구글 판다 업데이트(2011년 2월), 구글 허밍버드 업데이트(2013년 8월) 등이 있다.
콘텐츠 스팸은 검색 엔진이 페이지 내용을 분석하는 방식을 교묘하게 조작하여 부당하게 높은 순위를 얻으려는 기술이다. 검색 엔진은 다양한 알고리즘을 사용하여 관련성 랭킹을 결정하는데, 콘텐츠 스팸은 이러한 알고리즘을 속이는 방식으로 작동한다.[6]
과거에는 특정 구문에 대한 검색 엔진 순위와 가시성을 확보하기 위해 키워드 스터핑이 사용되었으나, 이는 구식이 되었고 현재는 순위에 영향을 주지 않는다. 특히 구글은 더 이상 이 기술을 사용하는 페이지에 좋은 순위를 부여하지 않는다.
검색 엔진 스팸을 회피하려는 시도와 검색 엔진의 대응은 대책에서 더 자세히 다룬다. 이러한 고양이와 쥐의 싸움은 계속되고 있다.
3. 콘텐츠 스팸 (Content Spam)
검색 엔진은 스팸덱싱을 감지하고 해당 페이지를 색인에서 제거하는 기능을 갖추고 있다. 또한, 검색 엔진 운영자는 스팸덱싱을 사용하는 웹사이트 전체를 검색 결과에서 빠르게 차단할 수 있다. 1990년대 중반에는 스팸덱싱이 증가하여 검색 엔진의 유용성이 감소하기도 했다.[6]
검색 엔진 최적화(SEO) 업계에서는 이러한 부도덕한 방법을 "블랙 햇 SEO"라고 부른다. 이러한 방법은 검색 엔진의 규칙을 위반하며, 구글 펜더, 구글 펭귄과 같은 검색 엔진 알고리즘에 의해 페널티를 받을 위험이 있다.[6][7]
콘텐츠 스팸에는 다음과 같은 여러 기술이 사용된다.
검색 시 사용되는 키워드는 특정 방향성이 있으며, 인기 상품의 상품명이나 연예인의 이름 등은 관련 뉴스가 보도될 때마다 검색 빈도가 높아지는 경향이 있다.
인터넷에서는 관심 있는 현상을 공식 사이트나 전문 정보 사이트부터 근거 없는 소문 수준까지 검색 사이트의 기능을 통해 볼 수 있는데, 이러한 검색 키워드를 많이 포함하는 문장은 그만큼 다양한 사람들에게 열람될 가능성이 높아진다.
콘텐츠 팜(content farm)은 검색 엔진 최적화(SEO)를 목적으로 가치가 낮은 콘텐츠를 저렴하게 대량 생산하는 웹사이트를 의미하며, 이러한 저품질 콘텐츠를 콘텐츠 밀(Content Mill)이라고 한다. 미국의 디맨드 미디어(Demand Media)는 자체 알고리즘으로 사용자의 "수요"를 분석하여, 이에 맞는 기사나 동영상을 프리랜서에게 대량으로 제작하게 하고, 검색 엔진 노출을 최대화하여 웹 광고로 수입을 얻는 비즈니스를 수행했다. 구글은 저품질 기사에 대한 대책으로 판다 업데이트를 실시했다.[28]
일본에서는 DeNA의 헬스케어 정보 큐레이션 사이트 "WELQ"(웰크)에서 부정확한 내용이나 저작권 침해의 우려가 있는 의료 기사가 대량으로 존재한다는 문제로 인해, DeNA의 다른 큐레이션 사이트에서도 무단 전용 및 리라이트의 우려가 있는 대량의 콘텐츠를 외주함으로써, 저품질이며 내용에 문제가 있는 콘텐츠가 검색 상위를 차지하고 있다는 문제가 밝혀졌다. 리크루트 홀딩스(Recruit Holdings), 사이버에이전트(CyberAgent) 등도 유사한 문제가 있었으며, 자사의 정보 큐레이션 사이트의 일부 기사 공개를 중단했다.[29]
3. 1. 키워드 스터핑 (Keyword Stuffing)
키워드 스터핑은 웹 페이지의 메타 태그, 콘텐츠, 백링크의 앵커 텍스트 등에 특정 키워드를 과도하게 많이 집어넣는 검색 엔진 최적화(SEO) 기술이다. 이는 웹 검색 엔진에서 해당 페이지의 순위를 인위적으로 높이려는 시도이다.[8]
과거에는 키워드 스터핑이 검색 순위를 높이는 데 효과가 있었지만, 현재 대부분의 주요 검색 엔진은 이러한 방식을 감지하고 해당 웹사이트에 불이익을 주는 알고리즘을 사용하고 있다. 이러한 불이익에는 검색 순위 하락, 심한 경우 검색 결과에서 아예 제외되는 것이 포함된다.[8]
구글은 키워드 스터핑을 사용하는 사이트를 찾아내고 제재하기 위해 2003년 11월 구글 플로리다 업데이트, 2011년 2월 구글 판다 업데이트, 2013년 8월 구글 허밍버드 업데이트 등을 시행했다.[9][10] 빙 또한 2014년 9월에 비슷한 목적의 검색 엔진 업데이트를 진행했다.[11]
이러한 검색 엔진의 변화로 인해, 오늘날에는 독창적이고 유용한 콘텐츠를 제공하는 것이 더 중요해졌다. 그럼에도 불구하고, 여전히 많은 웹사이트 운영자들이 키워드 스터핑을 시도하고 있다.
온라인 뉴스 사이트의 헤드라인에서도 이러한 현상을 볼 수 있는데, 검색 엔진에서 잘 검색되도록 하기 위해 핵심 키워드들을 제목에 과도하게 포함하는 경우가 많다.[12]
3. 2. 숨겨진 텍스트 (Hidden or Invisible Text)
텍스트를 숨기는 방법에는 여러 가지가 있다. 일반적인 기술로는 배경과 혼합되도록 텍스트 색상을 지정하거나, CSS ''z-index'' 위치 지정을 사용하여 텍스트를 이미지 아래에 배치하여 방문자에게 보이지 않게 하거나, CSS 절대 위치 지정을 사용하여 텍스트를 페이지 중심에서 멀리 떨어뜨리는 방법 등이 있다.[13] 2005년까지 주요 검색 엔진은 이러한 보이지 않는 텍스트 기술을 쉽게 감지했다.
숨겨진 텍스트는 배경색과 동일한 색상으로 만들거나, 매우 작은 글자 크기를 사용하거나, "no frame" 섹션, alt 속성, 크기가 0인 DIV, "no script" 섹션과 같은 HTML 코드 내에 숨겨져 있어 눈에 띄지 않도록 위장하기도 한다.[13]
"Noscript" 태그는 페이지 내에 숨겨진 콘텐츠를 배치하는 또 다른 방법이다. 스크립트된 콘텐츠의 대체 표현을 표시하기 위한 유효한 최적화 방법이지만, 검색 엔진이 대부분의 방문자에게 보이지 않는 콘텐츠를 인덱싱할 수 있으므로 악용될 수 있다.
때로는 삽입된 텍스트에 페이지 내용과 거의 관련이 없는 단어(예: "섹스")가 포함되어 광고 기반 페이지로 트래픽을 유도하기도 한다.
아래는 숨겨진 텍스트를 만드는 예시이다.
```html
자, 육아, 보육, 화장실, 훈련, 잠
,1세, 2세, 3세, 4세, (등 다량의 문자열)
(여기까지가 검색 엔진용 키워드)
| 본문
```
```html
자, 육아, 보육, 화장실, 훈련, 잠
,1세, 2세, 3세, 4세, (등 다량의 문자열)
| 본문
```
```html
alt=" 햄스터, 하무, 애완 동물, 자, 육아, 보육, 화장실, 훈련
,1세, 2세, 3세, 4세, (등 다량의 문자열) ">
| 본문
```
이 외에도 스타일 시트를 사용한 방법 등이 있다.
검색 엔진 회사의 경고 사이트를 수동으로 검토하는 사람은 일부 페이지에 보이지 않는 텍스트가 있는 경우 전체 웹사이트를 일시적 또는 영구적으로 차단할 수 있다. 그러나 숨겨진 텍스트가 항상 스팸덱싱에 사용되는 것은 아니며, 접근성을 향상시키기 위해 사용될 수도 있다.[13]
3. 3. 메타 태그 스터핑 (Meta-tag Stuffing)
메타 태그 스터핑은 메타 태그에 키워드를 반복하거나, 사이트 내용과 관련 없는 키워드를 사용하는 것을 말한다. 이는 검색 엔진 순위를 높이기 위한 시도였으나, 구글은 2009년 9월에 온라인 검색 순위에서 키워드 메타 태그를 사용하지 않는다고 발표하면서 효과가 없어졌다.[14]
3. 4. 도어웨이 페이지 (Doorway Pages)
도어웨이 페이지(게이트웨이 페이지)는 내용이 거의 없이 매우 유사한 키워드와 구문으로 채워진 품질이 낮은 웹 페이지이다. 검색 결과에서 높은 순위를 차지하도록 설계되었지만 정보를 찾는 방문자에게는 아무런 도움이 되지 않는다.[15] 도어웨이 페이지는 일반적으로 페이지에 "여기를 클릭하여 입장하세요"라는 문구를 표시하며, 자동 전달도 이 목적으로 사용할 수 있다. 2006년, 구글은 독일 사이트 BMW.de에 "도어웨이 페이지"를 사용한 차량 제조업체 BMW를 제재했다.[15]
3. 5. 스크레이퍼 사이트 (Scraper Sites)
스크레이퍼 사이트는 검색 엔진 결과 페이지나 기타 콘텐츠 소스를 "스크레이핑"하여 웹사이트용 콘텐츠를 생성하도록 설계된 다양한 프로그램을 사용하여 만들어진다. 이러한 사이트의 콘텐츠는 다른 소스에서 가져온 콘텐츠를 조합한 것이며, ብዙውን 허가 없이 이루어진다. 이러한 웹사이트는 일반적으로 클릭당 지불 광고로 가득 차 있거나 사용자를 다른 사이트로 리디렉션한다. 스크레이퍼 사이트가 자체 정보 및 조직 이름에 대해 원본 웹사이트보다 상위에 랭크되는 것조차 가능하다.
3. 6. 기사 재작성 (Article Spinning)
문서 재작성은 다른 사이트에서 콘텐츠를 단순히 복사하는 것과 달리, 중복 콘텐츠에 대한 검색 엔진의 페널티를 피하기 위해 기존 기사를 다시 작성하는 것을 포함한다. 이 과정은 작가를 고용하거나,[1] 유의어 사전 데이터베이스나 인공 신경망을 사용하여 자동화한다.
3. 7. 기계 번역 (Machine Translation)
문서 재작성과 마찬가지로, 일부 사이트는 기계 번역을 사용하여 콘텐츠를 여러 언어로 번역한다. 사람이 편집하지 않아 검색 엔진에 의해 계속 색인되지만, 이해할 수 없는 텍스트가 생성되어 트래픽을 유도하기도 한다.[1]
4. 링크 스팸 (Link Spam)
링크 스팸은 웹사이트의 순위를 더 높게 매기는 링크 기반 순위 알고리즘을 악용하는 기술이다.[3] HITS 알고리즘과 같은 다른 링크 기반 순위 기술에도 영향을 미친다. 링크 스팸은 가치가 아닌 다른 이유로 존재하는 페이지 간의 링크로 정의된다.[16]
링크 스팸에는 다음과 같은 종류가 있다.
종류 | 설명 |
---|---|
링크 팜 | 서로 연결된 웹사이트의 촘촘한 네트워크로, 검색 엔진 순위 알고리즘을 악용하려는 목적을 가진다. |
프라이빗 블로그 네트워크 (PBN) | 검색 엔진 순위 향상을 위해 소유자의 주요 웹사이트로 링크를 보내는 권위 있는 웹사이트 그룹이다. |
숨겨진 링크 | 사용자가 볼 수 없는 하이퍼링크를 삽입하여 링크 인기도를 높인다. |
시빌 공격 | 악의적인 목적으로 여러 신원을 위조한다. |
스팸 블로그 | 상업적 홍보와 대상 사이트로의 링크 권한 전달만을 위해 생성된 블로그이다. |
게스트 블로그 스팸 | 다른 웹사이트로의 링크를 얻기 위해 웹사이트에 게스트 블로그를 게시한다. |
만료된 도메인 구매 | 만료된 도메인을 구매하여 해당 페이지를 자신의 페이지 링크로 바꾼다. |
위키 스팸 | 위키 시스템의 개방된 편집 기능을 악용하여 스팸 사이트로의 링크를 삽입한다. |
리퍼러 스팸 | 인터넷 봇을 사용하여 특정 주소를 리퍼러로 지정, 여러 사이트에 무작위로 접속하여 해당 주소가 리퍼러 로그에 나타나게 한다. |
이 외에도 사용자가 편집할 수 있는 웹사이트는 스팸덱서가 스팸 사이트로 연결되는 링크를 삽입하는 데 사용될 수 있다. 포럼 스팸, 댓글 스팸 등이 그 예시이다.
4. 1. 링크 팜 (Link Farms)
링크 팜은 검색 엔진 순위 알고리즘을 악용할 목적으로 서로 연결된 웹사이트의 촘촘한 네트워크이다. 이것들은 또한 익살스럽게 "상호 존경 사회"라고도 불린다.[17] 링크 팜의 사용은 구글의 판다 업데이트가 2011년 2월에 처음 출시되면서 크게 감소했는데, 이는 스팸 감지 알고리즘을 크게 개선했기 때문이다.특정 키워드를 포함하는 페이지에서 링크된 사이트는 검색 사이트의 집계 포인트 상에서 "참고가 되는 정보가 있기 때문에, 다양한 페이지에서 링크된 사이트"로 인식되기 쉽다. 이를 역이용하여, 무료 홈페이지 공간을 대량으로 확보하고, 자사 사이트로 링크를 거는 사람들이 있다.
이는 본격적인 스패머(스팸 발송자)에게서 보이는 수법(SEO 스팸)이지만, 이들은 자동화된 무료 홈페이지 공간의 계정 취득 스크립트를 사용하여 여러 홈페이지를 생성하고, 이에 무작위로 같은 페이지를 1장만 업로드하여, 자사 사이트로 집중적으로 링크를 걸게 한다. 이러한 방법으로는 과거 방지책이 없었던 시절에는 수백에서 수천 단위로 이 1페이지 사이트가 난립했었다고 한다.
현재, 이러한 1페이지 사이트는 스패머의 방해 행위 방지 측면에서 "자동화할 수 없도록, 홈페이지 공간 취득 절차에 그림에 적힌 문자나 기호를 읽게 하여 승인한다"는 방법을 도입하는 한편, 무차별적으로 만들어졌다고 생각되는 사이트를 찾아내거나, 이용자로부터의 보고를 받아 계정 자체를 삭제하는 활동이 지속되고 있다. 또한, 검색 엔진 측에서도 이러한 사이트를 도메인째 검색에 걸리지 않도록 하는 등의 대책도 시행되고 있다.
4. 2. 프라이빗 블로그 네트워크 (Private Blog Networks, PBN)
블로그 네트워크(PBN)는 검색 엔진 순위 향상을 위해 소유자의 주요 웹사이트로 링크를 보내기 위해 만들어진 권위 있는 웹사이트 그룹이다. PBN 웹사이트 소유자는 권위 있는 웹사이트의 백링크가 있는 만료된 도메인 또는 경매 도메인을 사용한다. 구글은 2014년부터 PBN 사용자를 표적으로 삼아 제재하는 대규모 캠페인을 여러 차례 진행했다.[18]4. 3. 숨겨진 링크 (Hidden Links)
사용자가 볼 수 없는 하이퍼링크를 삽입하여 링크 인기도를 높이는 방법이다.[16] 링크 텍스트를 강조하면 해당 구문과 일치하는 웹페이지의 순위를 높이는 데 도움이 될 수 있다.4. 4. 시빌 공격 (Sybil Attack)
시빌 공격은 악의적인 목적으로 여러 개의 신원을 위조하는 행위로, 해리성 정체성 장애 환자이자 그녀에 관한 책인 "시빌"에서 이름을 따왔다.[19][20] 스패머는 스팸 블로그와 같이 서로 연결되는 여러 개의 웹사이트를 다른 도메인 이름으로 만들 수 있다.4. 5. 스팸 블로그 (Spam Blogs, Splogs)
스팸 블로그는 상업적 홍보와 대상 사이트로의 링크 권한 전달만을 위해 생성된 블로그이다.[16] 이러한 "스플로그"는 종종 합법적인 웹사이트처럼 보이도록 오해의 소지가 있는 방식으로 설계되지만, 자세히 살펴보면 스핀 소프트웨어를 사용해 작성되거나 거의 읽을 수 없는 내용으로 매우 부실하게 작성되는 경우가 많다. 이는 링크 팜과 유사하다.4. 6. 게스트 블로그 스팸 (Guest Blog Spam)
게스트 블로그 스팸은 다른 웹사이트로의 링크를 얻을 목적으로 웹사이트에 게스트 블로그를 게시하는 행위이다. 이는 링크를 게시하는 것 외에 다른 동기를 가진 합법적인 형태의 게스트 블로깅과 혼동되는 경우가 많다. 이 기술은 맷 커츠에 의해 유명해졌으며, 그는 이 형태의 링크 스팸에 대해 공개적으로 "전쟁"을 선포했다.[23]4. 7. 만료된 도메인 구매 (Buying Expired Domains)
일부 링크 스팸 발송자는 만료된 도메인 크롤러 소프트웨어를 사용하거나 곧 만료될 도메인의 DNS 레코드를 모니터링한 후, 만료 시점에 이를 구매하여 해당 페이지를 자신의 페이지 링크로 바꾼다.[16] 하지만 구글이 만료된 도메인의 링크 데이터를 초기화하는지는 확인되지 않았다. 도메인에 대한 이전의 모든 구글 순위 데이터를 유지하려면 구매자가 도메인이 "삭제"되기 전에 확보하는 것이 좋다.4. 8. 위키 스팸 (Wiki Spam)
위키 스팸은 위키 시스템의 개방된 편집 기능을 악용하여 스팸 사이트로의 링크를 삽입하는 행위이다.[24] 사용자가 편집할 수 있는 웹사이트는 적절한 스팸 방지 조치가 취해지지 않으면 스팸덱서가 스팸 사이트로 연결되는 링크를 삽입하는 데 사용될 수 있다. 자동화된 스팸 봇은 사이트의 사용자 편집 가능 부분을 빠르게 사용할 수 없게 만들 수 있다.4. 9. 리퍼러 스팸 (Referrer Log Spamming)
리퍼러 스팸은 스팸 가해자 또는 조력자가 다른 웹 페이지(''리퍼러'')의 링크를 따라 웹 페이지(심판자)에 접속하여, 심판자가 해당 사용자의 인터넷 브라우저로부터 리퍼러의 주소를 받도록 하는 방식으로 발생한다. 일부 웹사이트는 해당 사이트에 링크된 페이지를 보여주는 리퍼러 로그를 가지고 있다. 로봇을 사용하여 메시지 또는 특정 주소를 리퍼러로 지정하여 여러 사이트에 충분히 여러 번 무작위로 접속하면, 해당 메시지 또는 인터넷 주소가 리퍼러 로그가 있는 해당 사이트의 리퍼러 로그에 나타난다. 일부 웹 검색 엔진은 사이트의 중요도를 해당 사이트에 연결된 서로 다른 사이트의 수에 기반하기 때문에, 리퍼러 로그 스팸은 스패머의 사이트의 검색 엔진 순위를 높일 수 있다. 또한, 리퍼러 로그 항목을 발견한 사이트 관리자는 로그에서 해당 링크를 따라 스패머의 리퍼러 페이지로 돌아갈 수도 있다.[16]5. 기타 스팸 기술
미러 사이트는 비슷한 내용을 담고 있지만 서로 다른 URL을 사용하는 여러 웹사이트를 가리킨다. 일부 검색 엔진은 검색된 키워드가 URL에 나타나는 경우 더 높은 순위를 부여하기도 한다.
5. 1. 미러 웹사이트 (Mirror Websites)
미러 사이트는 개념적으로 유사한 콘텐츠를 가지고 있지만 서로 다른 URL을 사용하는 여러 웹사이트를 호스팅하는 것이다. 일부 검색 엔진은 검색된 키워드가 URL에 나타나는 결과에 더 높은 순위를 부여한다.5. 2. URL 리디렉션 (URL Redirection)
URL 리디렉션은 사용자가 개입하지 않아도 자동으로 다른 페이지로 이동시키는 것이다. 예를 들어 META 리프레시 태그, 플래시, 자바스크립트, 자바 또는 서버 측 리디렉션을 사용하는 것이 있다. 그러나 301 리디렉션(영구 리디렉션)은 악의적인 행위로 간주되지 않는다.5. 3. 클로킹 (Cloaking)
클로킹은 검색 엔진 스파이더에게 사람이 보는 것과는 다른 페이지를 제공하는 여러 가지 수단을 의미한다. 특정 웹 사이트의 콘텐츠에 대해 검색 엔진을 오도하려는 시도일 수 있다. 그러나 클로킹은 장애가 있는 사용자의 사이트 접근성을 윤리적으로 높이거나, 검색 엔진이 처리하거나 구문 분석할 수 없는 콘텐츠를 사용자에게 제공하는 데에도 사용될 수 있다. 또한 사용자의 위치에 따라 콘텐츠를 제공하는 데에도 사용된다. 구글 자체도 클로킹의 한 형태인 IP 주소 기반 콘텐츠 제공을 사용하여 검색 결과를 제공한다.[25] 또 다른 형태의 클로킹은 ''코드 스와핑''이다. 즉, 상위 랭킹을 위해 페이지를 최적화한 다음, 상위 랭킹을 달성한 후 다른 페이지로 바꾸는 것이다. 구글은 이러한 유형의 리디렉션을 ''교묘한 리디렉션''이라고 부른다.[25]문서에 의한 방법 외에도, 겉으로는 아무것도 없는 페이지로 보이지만, HTML 등의 소스 코드에 장치를 함으로써 검색 엔진에 영향을 미치는 경우도 있다.
예를 들어, 배경과 완전히 같은 색으로 검색 키워드를 "숨겨진 텍스트"로 기술하는 방법(그대로는 보이지 않지만, 문자를 반전시키거나 소스 코드를 보면 알 수 있다)이나, 매우 작은 이미지에 설명문을 포함시키거나, 검색 엔진이 기준으로 삼는 meta 태그 내에 키워드를 포함시키는 방법 등이 있다.
6. 콘텐츠 팜 (Content Farm) 및 콘텐츠 밀 (Content Mill)
콘텐츠 팜(content farm)은 검색 엔진 최적화(SEO)를 목적으로 가치가 낮은 콘텐츠를 저렴하게 대량 생산하는 웹사이트를 의미하며, 이러한 저품질 콘텐츠를 콘텐츠 밀(Content Mill)이라고 한다.[28] 미국의 디맨드 미디어는 자체 알고리즘으로 사용자의 수요를 분석하여, 이에 맞는 기사나 동영상을 프리랜서에게 대량으로 제작하게 하고, 검색 엔진 노출을 최대화하여 웹 광고로 수입을 얻는 비즈니스를 수행했다. 이러한 콘텐츠는 질이 낮았지만, 기사 자체에 검색되기 쉬운 키 프레이즈를 사용하거나, 검색 엔진에 평가받기 쉬운 구조를 갖추고 있었기 때문에, 구글 검색 상위를 차지하게 되었다. 이에 구글은 사용자로부터 검색의 질과 관련성이 저하되었다고 지적받게 되었고, 저품질 기사에 대한 대책으로 판다 업데이트(구글 판다)를 실시했다.[28]
일본에서는 DeNA의 헬스케어 정보 정보 큐레이션 사이트 "WELQ"(웰크)에서 부정확한 내용이나 저작권 침해 우려가 있는 의료 기사가 대량으로 존재한다는 문제가 발생했다. 이로 인해 DeNA의 다른 큐레이션 사이트에서도 무단 전용 및 리라이트 우려가 있는 대량의 콘텐츠를 외주함으로써, 저품질이며 내용에 문제가 있는 콘텐츠가 검색 상위를 차지하고 있다는 문제가 밝혀졌다. 이는 DeNA뿐만 아니라 리크루트 홀딩스, 사이버에이전트 등도 유사한 문제가 있었으며, 자사의 정보 큐레이션 사이트 일부 기사 공개를 중단했다.[29] SEM 리서치의 와타나베 타카히로(渡辺隆広)는 구글 검색이 DeNA가 큐레이션 사이트에서 행한 것처럼, 클라우드 소싱을 활용하여 기사를 난립시키는 스팸적인 수법에 매우 취약하며, 클라우드 소싱이 스팸을 지탱하는 구조가 되어 있다고 지적했다.[30]
기사는 크라우드 소싱으로 외주화되었으며, 2016년 12월, 란서스, 크라우드웍스는 기업이 라이터에게 의뢰할 때 기사의 무단 전용 및 리라이트를 금지하는 지침을 공표했다.[31]
일련의 큐레이션 사이트 소동에서는 이러한 문제 많은 미디어에 광고를 게재했던 기업 및 광고 대행사도 문제시되고 있다.[32]
7. 대응
검색 엔진은 관련성 랭킹을 결정하기 위해 다양한 알고리즘을 사용한다. 여기에는 검색어가 본문 또는 URL에 나타나는지 확인하는 작업 등이 포함된다. 많은 검색 엔진은 스팸덱싱 발생 여부를 확인하고 의심스러운 페이지를 색인에서 제거한다. 또한 검색 엔진 운영자는 스팸덱싱을 사용하는 전체 웹사이트의 검색 결과 목록을 빠르게 차단할 수 있는데, 이는 잘못된 검색 결과에 대한 사용자 불만에 대한 응답일 수 있다.[6] 1990년대 중반 스팸덱싱의 증가는 당시 주요 검색 엔진의 유용성을 감소시켰다. 웹사이트가 그렇지 않은 경우보다 검색 엔진 결과에서 더 높은 순위를 차지하도록 부도덕한 방법을 사용하는 것은 SEO(검색 엔진 최적화) 업계에서 "블랙 햇 SEO"라고 한다.[6] 이러한 방법은 검색 엔진 프로모션 규칙 및 지침을 위반하는 데 중점을 둔다. 가해자는 웹사이트가 구글 펜더 및 구글 펭귄 검색 결과 랭킹 알고리즘에 의해 심각한 페널티를 받을 위험이 있다.[7]
일반적인 스팸덱싱 기술은 ''콘텐츠 스팸''[5] (''용어 스팸'') 및 ''링크 스팸''[3], 두 가지 범주로 분류할 수 있다.
7. 1. 검색 엔진 운영자
검색 엔진은 스팸덱싱 발생 여부를 확인하고 의심스러운 페이지를 색인에서 제거한다.[6] 검색 엔진 운영자는 스팸덱싱을 사용하는 전체 웹사이트의 검색 결과 목록을 빠르게 차단할 수 있다.[6] 이러한 페이지는 구글 블랙리스트로 지정되어 특정 웹사이트가 검색용 인덱스에서 완전히 삭제, 구글, 야후 등에서 일절 검색 결과에 나타나지 않게 된다.[33]검색 엔진은 관련성 랭킹을 결정하기 위해 다양한 알고리즘을 사용하며, 지속적으로 알고리즘을 업데이트하여 스팸 기술에 대응한다.[6]
7. 2. 검색 엔진 이용자
검색 시 제외 키워드를 사용하여 불필요한 검색 결과를 필터링할 수 있다. 구글의 경우, 키워드 앞에 '-' (마이너스)를 붙이면 해당 키워드를 포함하는 페이지나 URL을 가진 사이트를 검색 결과에서 제외한다. 예를 들어 "-<원치 않는 사이트>"를 검색하면 해당 단어나 URL을 포함하는 사이트가 제거된다.[26]구글 크롬 확장 프로그램인 "Personal Blocklist (by Google)"을 사용하여 특정 페이지나 페이지 집합이 검색 결과에 나타나지 않도록 차단할 수도 있다. 이 확장 프로그램은 구글이 콘텐츠 팜에 대한 대처의 일환으로 2011년에 출시했다.[26] 2021년 현재, 원래의 확장 프로그램은 제거되었지만, 유사한 기능을 하는 다른 확장 프로그램을 사용할 수 있다.
검색 시 검색 키워드를 적절하게 조합하고(제외 키워드 사용 등), 검색 옵션에서 "포함", "포함 안 됨" 등의 세부 지정을 활용하는 것이 좋다. 구글이나 야후!와 같은 주요 검색 사이트에서는 '-' 기호(하이픈) 뒤에 키워드를 입력하면 해당 키워드를 포함하는 페이지를 제외하고 검색해 준다. 아라비아 숫자를 포함하는 키워드는 분해될 수 있으므로, 반각 공백(" ")으로 묶어 구문 분해를 방지할 수 있다.
이용자가 취할 수 있는 대책은 검색 시 부적절하다고 생각하는 사이트에 대해 '-', '-site:' 등의 검색 연산자를 사용하는 것이며, 나머지는 이용자의 판단에 달려있다.
구글은 2011년 콘텐츠 팜 대책으로 확장 기능 "Personal Blocklist (by Google)"을 출시했으나,[34][35][36] 2021년 현재 공개가 종료되어 사용할 수 없다. 이 기능은 PC의 구글 크롬에서만 작동하며, 스마트폰 버전은 2017년 현재 출시되지 않았다.
7. 3. 한국의 특수한 상황
구글 블랙리스트로 지정된 특정 웹사이트는 구글, 야후 등에서 검색 결과에 나타나지 않도록 검색용 인덱스에서 완전히 삭제된다. 그러나 문장만으로는 무엇이 검색 엔진 스팸인지 구별하기 어렵고, 구별하더라도 모든 것을 파악하기는 어려워 완전한 대책은 이루어지지 않고 있다. 불법적인 상품이나 서비스를 제공하는 사이트들이 이러한 수법을 사용하여 검색 사이트에 영향을 주는 경우도 있다. 따라서 구글 블랙리스트뿐만 아니라 다른 검색 사이트에서도 문제가 있는 사이트의 캐시를 정기적으로 검색하여 삭제하는 활동이 이루어지고 있다.[33]2004년 5월 12일, 구글에서 "(도쿄도) ○×구의 역사"라고 검색하면 23구의 어느 구 이름으로 검색해도 포르노 사이트가 상위에 나타나는 문제가 발생했다. 경시청의 연락을 받은 구글은 해당 사이트를 강제적으로 검색 결과에서 배제했다.[33]
참조
[1]
웹사이트
"SearchEngineLand, Danny Sullivan's video explanation of Search Engine Spam, October 2008"
http://searchenginel[...]
2023-05-16
[2]
웹사이트
"Word Spy - spamdexing" (definition)
http://www.wordspy.c[...]
2003-03
[3]
간행물
Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2005 in The 14th International World Wide Web Conference (WWW 2005) May 10, (Tue)-14 (Sat), 2005, Nippon Convention Center (Makuhari Messe), Chiba, Japan.
ACM Press
2007-10-05
[4]
논문
Keyword stuffing and the big three search engines
https://www.emerald.[...]
2013-04-12
[5]
간행물
The 15th International World Wide Web Conference (WWW 2006) May 23–26, 2006, Edinburgh, Scotland.
ACM Press
[6]
웹사이트
SEO basics: what is black hat SEO?
https://www.ionos.co[...]
2017-05-23
[7]
뉴스
What Is BlackHat SEO? 5 Definitions
http://www.searcheng[...]
2012-07-05
[8]
문서
Irrelevant keywords
https://support.goog[...]
[9]
문서
The Panda That Hates Farms: A Q&A With Google’s Top Search Engineers
https://www.wired.co[...]
2011-03-03
[10]
문서
All About the New Google "Hummingbird" Update
http://searchenginel[...]
2013-09-26
[11]
문서
Bing URL Stuffing Spam Filtering
https://blogs.bing.c[...]
2014-09-10
[12]
문서
On Language, The Web Is At War With Itself
https://www.npr.org/[...]
National Public Radio
2010-07-15
[13]
웹사이트
Everything You Need to Know About Hidden Text & SEO
https://www.searchen[...]
2021-11-22
[14]
웹사이트
Google does not use the keywords meta tag in web ranking
https://developers.g[...]
Google Inc.
2009-09-21
[15]
뉴스
The Dirty Little Secrets of Search
https://www.nytimes.[...]
2012-07-03
[16]
간행물
AAAI-2000 workshop on Artificial Intelligence for Web Search
AAAI Press
2007-10-23
[17]
웹사이트
Search Engines:Technology, Society, and Business - Marti Hearst, Aug 29, 2005
http://www2.sims.ber[...]
2007-08-01
[18]
뉴스
Google Targets Sites Using Private Blog Networks With Manual Action Ranking Penalties
http://searchenginel[...]
2016-12-12
[19]
서적
Sybil
https://www.worldcat[...]
Regnery
1973
[20]
서적
P2P networking and applications
https://www.worldcat[...]
Elsevier/Morgan Kaufmann
2009
[21]
논문
The Information Ecology of Social Media and Online Communities
2008-09-06
[22]
학위논문
Categorizing Blog Spam
Robert E. Kennedy Library, Cal Poly
[23]
웹사이트
The decay and fall of guest blogging for SEO
https://www.mattcutt[...]
2015-01-11
[24]
컨퍼런스
Blocking Blog Spam with Language Model Disagreement
http://airweb.cse.le[...]
2007-10-24
[25]
웹사이트
Sneaky redirects - Search Console Help
https://support.goog[...]
2015-05-14
[26]
웹사이트
New: Block Sites From Google Results Using Chrome's "Personal Blocklist" - Search Engine Land
http://searchenginel[...]
2017-10-06
[27]
논문
Prevalence of Poisoned Google Search Results of Erectile Dysfunction Medications Redirecting to Illegal Internet Pharmacies: Data Analysis Study
2022-11-08
[28]
웹사이트
Googleが指摘する"コンテンツファーム"とは? Demand Mediaのコンテンツミル問題 (中編)
http://www.sem-r.com[...]
SEMリサーチ
2016-12-10
[29]
웹사이트
まとめサイト閉鎖、大手に飛び火 背景に収益優先の構図
https://nlab.itmedia[...]
朝日新聞
2016-12-10
[30]
웹사이트
DeNA WELQ と検索技術の課題
http://www.sem-r.com[...]
SEMリサーチ
2016-12-10
[31]
웹사이트
DeNA問題でクラウドソーシング大手が新指針
http://www.asahi.com[...]
朝日新聞
2016-12-10
[32]
웹사이트
炎上中のDeNAにサイバーエージェント、その根底に流れるモラル無きDNAとは
https://news.yahoo.c[...]
Yahoo!ニュース
2016-12-10
[33]
뉴스
Googleがエロサイトによる地名を使ったインデックス汚染に対処
https://it.srad.jp/s[...]
スラド
2004-05-14
[34]
뉴스
Google検索結果の悪質なサイトを非表示&通報し検索品質アップに貢献できるGoogle公式Chrome拡張機能「Personal Blocklist」
https://gigazine.net[...]
Gigazine
2016-11-29
[35]
뉴스
New: Block Sites From Google Results Using Chrome’s “Personal Blocklist”
http://searchenginel[...]
Search Engine Land
2011-02-14
[36]
뉴스
New Chrome extension: block sites from Google’s web search results
https://googleblog.b[...]
2011-02-14
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com