클러스터 분석

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

클러스터 분석은 데이터 객체들을 유사한 그룹으로 묶는 데 사용되는 다변량 데이터 분석 기법이다. 클러스터 분석은 다양한 클러스터 모델과 알고리즘을 포함하며, 연결성 모델, 중심 모델, 분포 모델, 밀도 모델, 부분 공간 모델, 그래프 기반 모델 등을 포함한다. 클러스터링은 하드 클러스터링과 소프트 클러스터링으로 구분되며, 계층적 방법과 비계층적 방법으로 나눌 수 있다. 클러스터 분석 기법으로는 k-평균, k-메도이드, 계층적 클러스터링 등이 있으며, 계층적 클러스터링은 연결 기준에 따라 단일 연결, 완전 연결, 평균 연결 등으로 구분된다. 클러스터 분석의 평가는 내부 평가, 외부 평가, 군집 경향성 분석을 통해 이루어지며, 데이비스-볼딘 지수, 던 지수, 실루엣 계수, 랜드 지수, F-측도, 자카드 계수 등이 사용된다. 클러스터 분석은 생물학, 의학, 경영학, IT, 전산학 등 다양한 분야에서 활용된다.

더 읽어볼만한 페이지

지구통계학 - 지리통계학
지리통계학은 공간적 데이터의 통계적 특성을 분석하고 모델링하는 학문으로, 확률 변수 이론 기반의 통계 모델을 활용하여 공간 추정 및 시뮬레이션의 불확실성을 모델링하며, 공간 연속성 모델링을 위해 변이 함수 등의 방법을 사용하고 크리깅 등의 추정 및 시뮬레이션 방법론을 활용한다.
지구통계학 - 커널 메소드
커널 방법은 선형 학습 알고리즘이 비선형 함수를 학습하도록 입력 데이터를 고차원 특징 공간으로 매핑하여 선형 연산을 수행하는 기계 학습 기술이다.
클러스터 분석 - 잠재 공간
잠재 공간은 데이터 항목 집합과 유사성 함수를 활용하여 데이터 특징을 저차원 공간에 표현하는 임베딩 모델을 통해 생성되는 공간으로, 다양한 모델과 기법을 통해 학습되며 여러 분야에 응용된다.
클러스터 분석 - 덴드로그램
덴드로그램은 데이터 분석에서 데이터 포인트 간 계층적 관계를 시각적으로 표현하는 나무 형태의 다이어그램으로, 군집 분석에서 클러스터 간 유사성을 나타내기 위해 활용되며 다양한 분야에 응용된다.
데이터 마이닝 - 이상 탐지
이상 탐지는 일반적인 관측치와 다른 이상치를 식별하여 침입 탐지, 사기 탐지 등에 활용되며, 통계적 방법, 밀도 기반 방법 등 다양한 방법이 존재하고 성능 평가를 위한 공개 데이터 세트가 사용된다.
데이터 마이닝 - 문서 분류
문서 분류는 문서 내용을 분석하여 범주를 할당하는 과정으로, 내용 기반 및 요청 기반 분류로 나뉘며, 지도 학습, 비지도 학습, 준지도 학습 등의 자동 분류 기술과 인공 신경망, 서포트 벡터 머신, 자연어 처리 등의 기법이 스팸 필터링, 언어 식별, 감성 분석 등에 활용된다.

클러스터 분석
지도 정보
기본 정보
분야	데이터 마이닝
목적	유사한 객체들을 그룹으로 묶기
특징	각 그룹(클러스터) 내부의 객체들은 서로 유사 다른 그룹의 객체들은 서로 상이
적용 분야
마케팅	고객 세분화
생물학	유전자 분석 단백질 구조 분석
보안	이상 탐지
도시 계획	지역 분석
소셜 네트워크 분석	커뮤니티 탐지
이미지 분석	이미지 분할
문서 분류	문서 그룹화
기타	추천 시스템 정보 검색 지리 공간 분석
주요 알고리즘
계층적 클러스터링	병합 군집화 분할 군집화
분할 클러스터링	k-평균 알고리즘 k-중심 클러스터링 퍼지 c-평균 알고리즘
밀도 기반 클러스터링	DBSCAN OPTICS Mean-shift
모형 기반 클러스터링	가우시안 혼합 모형 기댓값 최대화 알고리즘
그래프 기반 클러스터링	스펙트럼 클러스터링
기타	BIRCH 클러스터링 앙상블
평가 지표
내부 지표	실루엣 계수 데이비스-볼딘 지수 던 지수
외부 지표	정확도 정밀도 재현율 F 점수 혼동 행렬 조정 랜드 지수 조정 뮤추얼 정보
고려 사항
데이터 유형	수치형 데이터 범주형 데이터 텍스트 데이터 혼합형 데이터
데이터 크기	대규모 데이터 고차원 데이터
클러스터 모양	구형 클러스터 비구형 클러스터
거리 측정 방법	유클리드 거리 맨해튼 거리 코사인 유사도 마할라노비스 거리
기타 관련 정보
관련 주제	데이터 마이닝 기계 학습 통계 패턴 인식

2. 클러스터 분석의 정의 및 기본 개념

"클러스터"는 명확하게 정의하기 어렵지만, 공통적으로 데이터 객체의 그룹을 의미한다.^[5] 서로 다른 연구자들은 서로 다른 클러스터 모델을 사용하며, 각 모델에 맞는 알고리즘을 적용한다. 발견되는 클러스터의 특성은 알고리즘에 따라 달라지는데, 이러한 "클러스터 모델"을 이해하는 것이 다양한 알고리즘 간의 차이점을 이해하는 데 중요하다. 일반적인 클러스터 모델은 다음과 같다.

연결성 모델: 계층적 군집화처럼 거리 연결성을 기반으로 모델을 구축한다.
중심 모델: k-평균 알고리즘과 같이 각 클러스터를 단일 평균 벡터로 나타낸다.
분포 모델: 기대-최대화 알고리즘에서 사용되는 다변량 정규 분포와 같은 통계적 분포를 사용하여 모델링한다.
밀도 모델: DBSCAN, OPTICS와 같이 데이터 공간에서 연결된 고밀도 영역으로 클러스터를 정의한다.
부분 공간 모델: 이중 군집화처럼 클러스터 멤버와 관련 속성 모두를 사용하여 모델링한다.
그룹 모델: 일부 알고리즘은 그룹화 정보만 제공하고, 세분화된 모델을 제공하지 않는다.
그래프 기반 모델: 클리크처럼 모든 노드가 에지로 연결된 그래프의 노드 하위 집합을 클러스터의 원형으로 간주한다. HCS 군집화 알고리즘과 같이 일부 에지가 누락될 수 있는 경우는 준 클리크로 불린다.
부호 그래프 모델: 부호 그래프의 모든 경로는 에지 부호의 곱으로 부호를 갖는다. 균형 이론에 따라 에지는 부호가 바뀌고 그래프가 갈라질 수 있다. 더 약한 "클러스터링 공리"는 두 개 이상의 클러스터 또는 양수 에지만 있는 하위 그래프를 생성한다.^[6]
신경망 모델: 자기 조직화 지도와 같은 비지도 신경망은 위의 모델들과 유사하게 특징지을 수 있으며, 주성분 분석이나 독립 성분 분석 형태를 구현할 때는 부분 공간 모델을 포함한다.

클러스터링은 클러스터의 집합이며, 데이터 집합의 모든 객체를 포함한다. 클러스터 간의 관계(예: 계층 구조)를 지정할 수 있다. 클러스터링은 다음과 같이 구분할 수 있다.

하드 클러스터링: 각 객체가 특정 클러스터에 속하거나 속하지 않는다.
소프트 클러스터링 (퍼지 클러스터링): 각 객체가 특정 정도(예: 클러스터에 속할 가능성)까지 각 클러스터에 속한다.

더 세분화된 구분은 다음과 같다.

엄격한 분할 클러스터링: 각 객체가 정확히 하나의 클러스터에 속한다.
이상치를 포함한 엄격한 분할 클러스터링: 객체가 클러스터에 속하지 않을 수 있으며, 이상치로 간주된다.
겹치는 클러스터링: 객체가 둘 이상의 클러스터에 속할 수 있다. (일반적으로 하드 클러스터를 포함)
계층적 클러스터링: 자식 클러스터에 속하는 객체는 부모 클러스터에도 속한다.
부분 공간 클러스터링: 겹치는 클러스터링이지만, 고유하게 정의된 부분 공간 내에서 클러스터는 겹치지 않을 것으로 예상된다.

3. 클러스터 분석 기법

클러스터 분석 기법은 크게 계층적 방법과 비계층적 방법으로 나눌 수 있다.

계층적 클러스터링 (Hierarchical Clustering): 가까운 객체들이 서로 더 관련성이 높다는 개념을 바탕으로, 거리 연결성에 기반하여 클러스터 모델을 구축한다. 덴드로그램을 사용하여 클러스터 간의 관계를 시각적으로 표현할 수 있다.
집괴적 (agglomerative) 방법: 개별 요소에서 시작하여 점차 클러스터로 묶어 나간다.
분할적 (divisive) 방법: 전체 데이터 집합에서 시작하여 점차 작은 클러스터로 분할해 나간다.
비계층적 클러스터링 (Non-hierarchical Clustering): 데이터를 여러 부분으로 나누고, 각 부분의 중심을 계산하는 방식으로 작동한다.
k-평균 알고리즘: 각 부분을 나눈 후 중심점(centroid)을 찾고, 이 중심점을 기준으로 다시 부분을 나누는 과정을 반복한다.
k-medoid 알고리즘: k-평균 알고리즘의 이상치 민감도를 개선하기 위해 평균 대신 중앙값(medoid)을 사용한다.

"클러스터"는 정확하게 정의하기 어려워 다양한 클러스터링 알고리즘이 존재한다.^[5] 데이터 객체 그룹이라는 공통점이 있지만, 연구자마다 다른 클러스터 모델을 사용하고, 각 모델에 맞는 알고리즘을 적용한다.

일반적인 클러스터 모델은 다음과 같다.

연결성 모델: 계층적 군집화처럼 거리 연결성을 기반으로 모델을 구축한다.
중심 모델: k-평균 알고리즘처럼 각 클러스터를 단일 평균 벡터로 나타낸다.
분포 모델: 기대-최대화 알고리즘에서 사용되는 다변량 정규 분포와 같은 통계적 분포를 사용하여 클러스터를 모델링한다.
밀도 모델: DBSCAN과 OPTICS처럼 데이터 공간에서 연결된 고밀도 영역으로 클러스터를 정의한다.
부분 공간 모델: 이중 군집화(공동 군집화 또는 이모드 군집화라고도 함)에서 클러스터는 클러스터 멤버와 관련 속성 모두를 사용하여 모델링된다.
그룹 모델: 일부 알고리즘은 그룹화 정보만 제공한다.
그래프 기반 모델: 클리크처럼 모든 두 노드가 에지로 연결되는 그래프의 노드 하위 집합을 클러스터의 원형으로 간주한다. HCS 군집화 알고리즘과 같이 일부 에지가 누락될 수 있는 준 클리크도 있다.
부호 그래프 모델: 부호 그래프의 모든 경로는 에지 부호의 곱으로 부호를 갖는다. 균형 이론에 따라 에지는 부호가 바뀌고 갈라진 그래프가 될 수 있다. 더 약한 "클러스터링 공리"는 두 개 이상의 클러스터 또는 양수 에지만 있는 하위 그래프를 생성한다.^[6]
신경망 모델: 자기 조직화 지도와 같은 비지도 신경망은 위의 모델 중 하나 이상과 유사하게 특징지을 수 있으며, 부분 공간 모델을 포함할 수 있다.

클러스터링은 이러한 클러스터의 집합이며, 데이터 집합의 모든 객체를 포함한다. 클러스터 간의 관계(예: 계층 구조)를 지정할 수도 있다. 클러스터링은 다음과 같이 구분할 수 있다.

하드 클러스터링: 각 객체가 특정 클러스터에 속하거나 속하지 않는다.
소프트 클러스터링(퍼지 클러스터링): 각 객체가 특정 정도(예: 클러스터에 속할 가능성)까지 각 클러스터에 속한다.

더 세분화된 구분도 가능하다.

엄격한 분할 클러스터링: 각 객체가 정확히 하나의 클러스터에 속한다.
이상치를 포함한 엄격한 분할 클러스터링: 객체가 클러스터에 속하지 않고 이상치로 간주될 수 있다.
겹치는 클러스터링(대체 클러스터링, 다중 보기 클러스터링): 객체가 둘 이상의 클러스터에 속할 수 있다.
계층적 클러스터링: 자식 클러스터에 속하는 객체는 부모 클러스터에도 속한다.
부분 공간 클러스터링: 겹치는 클러스터링이지만, 고유하게 정의된 부분 공간 내에서 클러스터는 겹치지 않을 것으로 예상된다.

3. 1. 계층적 클러스터링 (연결 기반 클러스터링)

'''계층적 클러스터링'''(연결 기반 클러스터링)은 객체 간의 거리 연결성에 기반하여 클러스터 모델을 구축하는 방법이다. 기본 개념은 가까운 객체가 멀리 떨어진 객체보다 더 관련성이 높다는 것이다.^[5] 이러한 알고리즘은 거리에 따라 "객체"를 연결하여 "클러스터"를 형성한다.

클러스터는 클러스터의 부분을 연결하는 데 필요한 최대 거리로 설명할 수 있으며, 덴드로그램을 사용하여 클러스터 간의 관계를 시각적으로 나타낼 수 있다. 덴드로그램에서 y축은 클러스터가 병합되는 거리를 나타내고, 객체는 x축에 배치되어 클러스터가 섞이지 않도록 한다.

연결 기반 클러스터링은 거리를 계산하는 방식에 따라 다양한 방법으로 나뉜다. 일반적인 거리 함수 선택 외에도, 사용자는 연결 기준(클러스터는 여러 객체로 구성되므로 거리를 계산할 후보가 여러 개 있음)을 결정해야 한다.

일반적인 연결 기준에는 다음이 포함된다.

단일 연결 군집화: 객체 거리의 최솟값을 사용한다.
완전 연결 군집화: 객체 거리의 최댓값을 사용한다.
UPGMA 또는 WPGMA: 평균 연결 군집화라고도 하며, 산술 평균을 사용한 가중치 없는 또는 가중치가 있는 쌍 그룹 방법을 사용한다.

또한, 계층적 클러스터링은 다음과 같이 두 가지 방법으로 수행할 수 있다.

집괴적 (agglomerative) 방법: 단일 요소에서 시작하여 점차 클러스터로 묶어 나간다.
분할적 (divisive) 방법: 전체 데이터 세트에서 시작하여 점차 작은 클러스터로 분할해 나간다.

이러한 방법들은 데이터 세트의 고유한 분할을 생성하지 않고, 사용자가 적절한 클러스터를 선택해야 하는 계층을 생성한다.

계층적 클러스터링은 이상치에 민감하게 반응하는 경향이 있다. 이상치는 별도의 클러스터로 나타나거나, 다른 클러스터들을 병합시키는 결과를 초래할 수 있다. (이는 단일 연결 군집화에서 "체인 현상"으로 알려져 있다.)

일반적인 경우 집괴적 군집화의 복잡도는

\mathcal{O}(n^3)

이고, 분할 군집화의 복잡도는

\mathcal{O}(2^{n-1})

이다.^[8] 따라서 대규모 데이터 세트에는 적용하기 어려울 수 있다. 그러나 특수한 경우에는 최적의 효율적인 방법(

\mathcal{O}(n^2)

의 복잡도)이 알려져 있는데, 단일 연결에는 SLINK^[9], 완전 연결에는 CLINK^[10] 알고리즘이 있다.

가우스 데이터에 대한 단일 연결. 35개의 군집에서 가장 큰 군집은 더 작은 부분으로 분열하기 시작하는 반면, 이전에는 단일 연결 효과로 인해 두 번째로 큰 군집과 여전히 연결되어 있었다.

밀도 기반 군집에 대한 단일 연결. 20개의 군집이 추출되었으며, 그 대부분은 연결 군집화에 "잡음"의 개념이 없기 때문에 단일 요소를 포함한다.

3. 2. 비계층적 클러스터링

비계층적 클러스터링은 데이터를 여러 부분으로 나누고, 각 부분의 중심을 계산하는 방식으로 작동한다.

k-평균 알고리즘: 각 부분을 나눈 후 중심점(centroid)을 찾고, 이 중심점을 기준으로 다시 부분을 나누는 과정을 반복한다.
장점: 속도가 빠르다.
단점: 지역 최적해(local optimum)에 빠질 수 있고, 범주형 데이터에는 평균을 구하기 어려우며, 클러스터 개수(k)를 미리 지정해야 하고, 이상치(outlier)나 잡음(noise)에 민감하며, 원형이 아닌 형태의 데이터는 잘 처리하지 못한다.
k-medoid 알고리즘: k-평균 알고리즘의 이상치 민감도를 개선하기 위해 평균 대신 중앙값(medoid)을 사용한다.
단점: 속도가 느리다.
Clara: 샘플링을 적용한 k-medoid 알고리즘이다.
장점: k-medoid 알고리즘보다 빠르다.
단점: 샘플에 따라 결과가 달라질 수 있다.
Clarans: 주변 데이터들을 샘플링하는 방식이다.

3. 2. 1. 중심 기반 클러스터링

중심 기반 클러스터링은 각 클러스터를 중심 벡터로 표현하는 방법이다. 이 방법은 클러스터의 개수를 미리 지정해야 한다는 특징이 있다.

알고리즘	설명	장점	단점
k-평균 알고리즘	각 클러스터를 데이터 포인트들의 평균(centroid)으로 표현한다.	속도가 빠르다. (반복 횟수: t, 클러스터 수: k, 데이터 수: n일 때, 시간 복잡도는 O(tkn)이며, 일반적으로 n이 매우 크므로 O(n)에 가깝다.)
k-medoid 알고리즘	k-평균 알고리즘의 이상치 민감도를 개선하기 위해 평균 대신 중앙값(medoid)을 사용한다.		속도가 느리다. (시간 복잡도: O(k * (n-k)^2)) (해결책: 샘플링 기법을 활용한다.)
Clara	샘플링을 적용한 k-medoid 알고리즘이다.	k-medoid 알고리즘보다 빠르다.	샘플에 따라 결과가 달라질 수 있다.
Clarans	주변 데이터들을 샘플링하는 방식이다.

3. 2. 2. 분포 기반 클러스터링

기대-최대화 알고리즘을 사용하여 가우시안 혼합 모델(GMM)을 구축하는 방법이 대표적인 분포 기반 클러스터링은 클러스터를 통계적 분포를 사용하여 모델링한다. 분포 기반 클러스터링은 속성 간의 상관 관계 및 의존성을 포착할 수 있는 클러스터에 대한 복잡한 모델을 생성한다는 장점이 있지만, 과적합(overfitting) 문제가 발생할 수 있다는 단점이 있다.^[5]

데이터 집합은 일반적으로 (과적합을 피하기 위해) 고정된 수의 가우시안 분포를 사용하여 모델링되는데, 이 분포들은 무작위로 초기화되고 그 매개변수는 데이터 집합에 더 잘 맞도록 반복적으로 최적화된다. 이것은 국소적 최적점에 수렴하므로 여러 번 실행하면 서로 다른 결과가 생성될 수 있다. 하드 군집화를 얻기 위해, 객체는 종종 가장 속할 가능성이 높은 가우시안 분포에 할당되지만, 소프트 군집화의 경우에는 이것이 필요하지 않다.

이러한 알고리즘은 사용자에게 모델을 정해야 하는 추가적인 부담을 준다. 많은 실제 데이터 집합의 경우, 간결하게 정의된 수학적 모델이 없을 수 있다(예: 가우시안 분포를 가정하는 것은 데이터에 대한 다소 강력한 가정임).^[7]

가우시안 분포된 데이터에서, EM 알고리즘은 군집 모델링에 가우시안을 사용하기 때문에 잘 작동한다.

3. 2. 3. 밀도 기반 클러스터링

DBSCAN과 OPTICS는 데이터 공간에서 연결된 고밀도 영역으로 클러스터를 정의하는 대표적인 밀도 기반 클러스터링 알고리즘이다.^[5] 이러한 알고리즘은 이상치 탐지에 유용하며, 임의의 모양의 클러스터를 찾을 수 있다는 장점이 있다.^[7]

밀도 기반 클러스터링 방법의 아이디어는 부분 공간 클러스터링 (HiSC^[25], 계층적 부분 공간 클러스터링 및 DiSH^[26])과 상관 클러스터링 (HiCO^[27], 계층적 상관 클러스터링, "상관 연결성"을 사용하는 4C^[28] 및 계층적 밀도 기반 상관 클러스터를 탐색하는 ERiC^[29])에 적용되었다.

3. 2. 4. 격자 기반 클러스터링

격자 기반 클러스터링은 다차원 데이터 집합에 사용되며, 격자 구조를 만들어 격자 셀에서 비교를 수행하는 방식이다. 계산 복잡도가 낮고 빠르다는 특징이 있다.

3. 3. 기타 클러스터링 기법

최근에는 기존 알고리즘의 성능을 높이거나 빅데이터 처리를 위해 새로운 알고리즘들이 개발되고 있다. 고차원 데이터 클러스터링을 위한 알고리즘도 연구되고 있다.^[7]

"클러스터"는 정확하게 정의하기 어렵기 때문에 다양한 클러스터링 알고리즘이 존재한다.^[5] 데이터 객체 그룹이라는 공통점이 있지만, 연구자마다 다른 클러스터 모델을 사용하고, 각 모델에 맞는 알고리즘을 적용한다.

일반적인 클러스터 모델은 다음과 같다.

연결성 모델: 계층적 군집화처럼 거리 연결성을 기반으로 모델을 구축한다.
중심 모델: k-평균 알고리즘처럼 각 클러스터를 단일 평균 벡터로 나타낸다.
분포 모델: 기대-최대화 알고리즘에서 사용되는 다변량 정규 분포와 같은 통계적 분포를 사용하여 클러스터를 모델링한다.
밀도 모델: DBSCAN과 OPTICS처럼 데이터 공간에서 연결된 고밀도 영역으로 클러스터를 정의한다.
부분 공간 모델: 이중 군집화(공동 군집화 또는 이모드 군집화라고도 함)에서 클러스터는 클러스터 멤버와 관련 속성 모두를 사용하여 모델링된다.
그룹 모델: 일부 알고리즘은 그룹화 정보만 제공한다.
그래프 기반 모델: 클리크처럼 모든 두 노드가 에지로 연결되는 그래프의 노드 하위 집합을 클러스터의 원형으로 간주한다. HCS 군집화 알고리즘과 같이 일부 에지가 누락될 수 있는 준 클리크도 있다.
부호 그래프 모델: 부호 그래프의 모든 경로는 에지 부호의 곱으로 부호를 갖는다. 균형 이론에 따라 에지는 부호가 바뀌고 갈라진 그래프가 될 수 있다. 더 약한 "클러스터링 공리"는 두 개 이상의 클러스터 또는 양수 에지만 있는 하위 그래프를 생성한다.^[6]
신경망 모델: 자기 조직화 지도와 같은 비지도 신경망은 위의 모델 중 하나 이상과 유사하게 특징지을 수 있으며, 부분 공간 모델을 포함할 수 있다.

클러스터링은 이러한 클러스터의 집합이며, 데이터 집합의 모든 객체를 포함한다. 클러스터 간의 관계(예: 계층 구조)를 지정할 수도 있다. 클러스터링은 다음과 같이 구분할 수 있다.

하드 클러스터링: 각 객체가 특정 클러스터에 속하거나 속하지 않는다.
소프트 클러스터링(퍼지 클러스터링): 각 객체가 특정 정도(예: 클러스터에 속할 가능성)까지 각 클러스터에 속한다.

더 세분화된 구분도 가능하다.

엄격한 분할 클러스터링: 각 객체가 정확히 하나의 클러스터에 속한다.
이상치를 포함한 엄격한 분할 클러스터링: 객체가 클러스터에 속하지 않고 이상치로 간주될 수 있다.
겹치는 클러스터링(대체 클러스터링, 다중 보기 클러스터링): 객체가 둘 이상의 클러스터에 속할 수 있다.
계층적 클러스터링: 자식 클러스터에 속하는 객체는 부모 클러스터에도 속한다.
부분 공간 클러스터링: 겹치는 클러스터링이지만, 고유하게 정의된 부분 공간 내에서 클러스터는 겹치지 않을 것으로 예상된다.

100가지 이상의 군집 알고리즘이 발표되었지만, 모든 알고리즘이 군집에 대한 모델을 제공하는 것은 아니어서 쉽게 분류하기 어렵다.

객관적으로 "정확한" 군집 알고리즘은 없으며, "군집은 보는 사람의 눈에 달려 있다"는 말이 있다.^[5] 특정 문제에 가장 적합한 알고리즘은 실험적으로 선택해야 한다. 한 군집 모델에 맞춰 설계된 알고리즘은 다른 모델의 데이터 집합에서는 실패할 수 있다.^[5] 예를 들어, k-평균은 비볼록 군집을 찾을 수 없다.^[5]

4. 클러스터 분석의 평가 및 검증

클러스터 분석에서 결과 평가는 클러스터링 자체만큼 어려운 과정이다.^[34] 일반적인 접근 방식에는 "내부" 평가, "외부" 평가, "수동" 평가, "간접" 평가가 있다.^[35]

내부 평가: 클러스터링 결과를 클러스터링된 데이터 자체를 기반으로 평가한다. 클러스터 내 유사성이 높고 클러스터 간 유사성이 낮은 클러스터를 생성하는 알고리즘에 높은 점수를 부여한다. 하지만 내부 평가 척도는 그 자체가 군집 목표가 될 수 있다는 문제점이 있다. 예를 들어 실루엣 계수를 통해 데이터 세트를 군집화할 수 있지만, 효율적인 알고리즘은 알려져 있지 않다. 따라서 내부 척도를 사용하면 최적화 문제의 유사성을 비교하는 것이지,^[35] 군집의 유용성을 비교하는 것은 아니다.
외부 평가: 클러스터링에 사용되지 않은, 알려진 클래스 레이블이나 외부 벤치마크와 같은 데이터를 기반으로 결과를 평가한다. 하지만 "참값" 레이블이 있다면 군집화가 필요 없으며, 실제로는 이러한 레이블이 없는 경우가 많다. 또한 레이블은 데이터 세트의 한 가지 가능한 분할만을 반영할 뿐이다.
수동 평가: 인간 전문가가 클러스터링 결과를 평가한다. 이는 주관적일 수 있지만, 통계적 평가와 함께 활용될 수 있다.
간접 평가: 의도된 응용 프로그램에서 군집의 유용성을 평가한다.

어떤 평가 방법도 군집의 실제 품질을 완벽하게 판단할 수는 없다. 따라서 여러 평가 방법을 종합적으로 고려하고, 주관적인 평가도 참고해야 한다.^[36]

4. 1. 내부 평가

클러스터링 결과가 클러스터링된 데이터 자체를 기반으로 평가될 때 이를 내부 평가라고 한다. 이러한 방법은 일반적으로 클러스터 내 유사성이 높고 클러스터 간 유사성이 낮은 클러스터를 생성하는 알고리즘에 가장 높은 점수를 부여한다. 내부 평가 지표는 한 알고리즘이 다른 알고리즘보다 성능이 좋은 상황에 대한 통찰력을 얻는 데 유용하지만, 이것이 한 알고리즘이 다른 알고리즘보다 더 유효한 결과를 생성한다는 것을 의미하지는 않는다.^[5]

내부 평가 척도는 일반적으로 동일한 클러스터의 항목이 서로 다른 클러스터의 항목보다 더 유사해야 한다는 직관에 기반한다.^[38] 예를 들어, 다음 방법을 사용하여 클러스터링 알고리즘의 품질을 평가할 수 있다.

'''데이비스-볼딘 지수'''

데이비스-볼딘 지수는 다음 공식으로 계산할 수 있다.

:

DB = \frac {1} {n} \sum_{i=1}^{n} \max_{j\neq i}\left(\frac{\sigma_i + \sigma_j} {d(c_i,c_j)}\right)

여기서 ''n''은 클러스터의 수이고,

c_i

는 클러스터

i

의 중심이며,

\sigma_i

는 클러스터

i

의 모든 요소의 중심

c_i

까지의 평균 거리이고,

d(c_i,c_j)

는 중심

c_i

와

c_j

사이의 거리이다. 클러스터 내 거리가 짧고(클러스터 내 유사성이 높고) 클러스터 간 거리가 긴(클러스터 간 유사성이 낮은) 클러스터를 생성하는 알고리즘은 데이비스-볼딘 지수가 낮다. 따라서 데이비스-볼딘 지수가 가장 작은 클러스터 집합을 생성하는 클러스터링 알고리즘이 이 기준에 따라 최상의 알고리즘으로 간주된다.

'''던 지수'''

던 지수는 밀집되고 잘 분리된 클러스터를 식별하는 것을 목표로 한다. 최소 클러스터 간 거리와 최대 클러스터 내 거리의 비율로 정의된다. 각 클러스터 분할에 대해 던 지수는 다음 공식으로 계산할 수 있다.^[39]

:

D = \frac{\min_{1 \leq i < j \leq n} d(i,j)}{\max_{1 \leq k \leq n} d^{\prime}(k)} \,,

여기서 ''d''(''i'',''j'')는 클러스터 ''i''와 ''j'' 사이의 거리를 나타내고, ''d'' '(''k'')는 클러스터 ''k''의 클러스터 내 거리를 측정한다. 두 클러스터 사이의 클러스터 간 거리 ''d''(''i'',''j'')는 클러스터의 중심 사이의 거리와 같이 여러 거리 측정값이 될 수 있다. 마찬가지로, 클러스터 내 거리 ''d'' '(''k'')는 클러스터 ''k''의 요소 쌍 사이의 최대 거리와 같이 다양한 방법으로 측정할 수 있다. 내부 기준은 클러스터 내 유사성이 높고 클러스터 간 유사성이 낮은 클러스터를 찾으므로, 던 지수가 높은 클러스터를 생성하는 알고리즘이 더 바람직하다.

'''실루엣 계수'''

실루엣 계수는 동일한 클러스터의 요소에 대한 평균 거리와 다른 클러스터의 요소에 대한 평균 거리를 비교한다. 실루엣 값이 높은 객체는 잘 클러스터링된 것으로 간주되고, 값이 낮은 객체는 이상치일 수 있다. 이 지수는 k-평균 클러스터링에서 잘 작동하며, 최적의 클러스터 수를 결정하는 데에도 사용된다.^[40]

군집 경향성을 측정한다는 것은 군집화할 데이터에 군집이 어느 정도 존재하는지를 측정하는 것이며, 군집화를 시도하기 전에 초기 검정으로 수행될 수 있다. 이를 수행하는 한 가지 방법은 데이터를 무작위 데이터와 비교하는 것이다. 평균적으로 무작위 데이터는 군집을 갖지 않아야 한다.

'''Hopkins 통계량'''

Hopkins 통계량에는 여러 가지 공식이 있다.^[50] 일반적인 공식은 다음과 같다.^[51]

d

차원 공간에

n

개의 데이터 포인트가 있는 집합

X

가 있다고 가정한다.

m \ll n

개의 데이터 포인트로 구성된 무작위 표본(비복원 추출)을 고려한다. 또한

m

개의 균일하게 무작위로 분포된 데이터 포인트 집합

Y

를 생성한다. 이제 두 가지 거리 측정값

u_i

를 정의한다.

u_i

는

y_i \in Y

가 X에서 가장 가까운 이웃과의 거리이고,

w_i

는

x_i \in X

가 X에서 가장 가까운 이웃과의 거리이다. 그런 다음 Hopkins 통계량을 다음과 같이 정의한다.

:

H=\frac{\sum_{i=1}^m{u_i^d}}{\sum_{i=1}^m{u_i^d}+\sum_{i=1}^m{w_i^d}} \,,

이 정의에 따르면, 균일한 무작위 데이터는 0.5에 가까운 값을 가지는 경향이 있고, 군집화된 데이터는 1에 가까운 값을 가지는 경향이 있다.

4. 2. 외부 평가

외부 평가는 클러스터링에 사용되지 않은 데이터(예: 알려진 클래스 레이블, 외부 벤치마크 등)를 기반으로 클러스터링 결과를 평가하는 방법이다. 이러한 벤치마크는 미리 분류된 항목들의 집합으로 구성되며, 전문가에 의해 생성되는 경우가 많다. 따라서 벤치마크 집합은 평가를 위한 골드 스탠다드로 간주될 수 있다.^[34] 이러한 평가 방법은 클러스터링 결과가 미리 정의된 벤치마크 클래스에 얼마나 가까운지를 측정한다.

여러 가지 외부 평가 척도가 존재하며,^[38] 대표적인 예시는 다음과 같다.

순도 (Purity): 클러스터가 단일 클래스를 포함하는 정도를 측정한다.^[37] 각 클러스터에서 가장 많은 클래스의 데이터 수를 합산하고, 이를 전체 데이터 수로 나누어 계산한다.
랜드 지수 (Rand index)^[43]: 클러스터링 결과와 벤치마크 분류의 유사도를 계산한다. 참 양성(TP), 참 음성(TN), 거짓 양성(FP), 거짓 음성(FN)을 이용하여 계산하며, (TP + TN) / (TP + FP + FN + TN) 공식을 사용한다.
F-측도 (F-measure): 정밀도와 재현율을 결합하여 클러스터링 성능을 평가하는 지표이다.^[37] $\beta$ 값을 통해 재현율의 가중치를 조절할 수 있다.
자카드 지수: 두 데이터 세트 간의 유사성을 측정하는 지표이다. 0과 1 사이의 값을 가지며, 1에 가까울수록 두 데이터 세트가 유사함을 의미한다.
다이스 지수: 자카드 지수와 유사하지만, 참 양성(TP)에 더 큰 가중치를 부여하는 지표이다.
파울케스-맬로스 지수^[44]: 클러스터링 결과와 벤치마크 분류 간의 유사도를 계산하는 또 다른 지표이다. 정밀도와 재현율의 기하 평균으로 계산된다.
카이 지수 (Chi Index)^[49]: 카이제곱 통계량을 적용하여 클러스터링 결과를 측정하는 외부 유효성 지수이다.
상호 정보량 (mutual information): 클러스터링과 기준 진실 분류 사이에 공유되는 정보량을 측정하는 정보 이론적 측정값이다. 두 클러스터링 간의 비선형 유사성을 감지할 수 있다.^[34]
혼돈 행렬 (Confusion matrix): 클러스터링 알고리즘의 결과를 시각화하는 데 사용되며, 클러스터가 골드 스탠다드 클러스터와 얼마나 다른지 보여준다.

하지만, 이러한 외부 평가 방법이 실제 데이터에 적합한지에 대한 논의도 있다.^[41] 클래스 내부에 구조가 존재하거나, 이상치가 포함된 경우, 클러스터링 결과가 벤치마크 클래스와 일치하지 않을 수 있기 때문이다.^[41] 또한, 지식 발견의 관점에서 볼 때, 이미 알려진 지식을 재현하는 것이 항상 바람직한 결과는 아닐 수 있다.^[41]

4. 3. 군집 경향성 (Cluster Tendency)

클러스터 분석에서 군집 경향성(Cluster Tendency)은 주어진 데이터가 군집화를 시도할 가치가 있는지, 즉, 유의미한 군집 구조를 포함하고 있는지를 사전에 평가하는 것을 의미한다. 이는 군집화를 수행하기 전에 초기 검정 단계로 활용될 수 있다.^[51]

군집 경향성을 파악하는 방법 중 하나는 데이터를 무작위 데이터와 비교하는 것이다. 무작위 데이터는 평균적으로 군집을 형성하지 않으므로, 주어진 데이터가 무작위 데이터와 얼마나 다른지를 통해 군집의 존재 가능성을 추정할 수 있다.

'''Hopkins 통계량'''

Hopkins 통계량은 군집 경향성을 측정하는 데 사용되는 대표적인 지표 중 하나이다.^[50] 여러 공식이 존재하지만, 일반적인 공식은 다음과 같다.^[51]

d차원 공간에 n개의 데이터 포인트로 구성된 집합 X가 주어졌을 때, 다음과 같은 단계를 거친다.

1. m개의 데이터 포인트로 구성된 무작위 표본(비복원 추출)을 X에서 추출한다. (m은 n보다 훨씬 작다.)

2. m개의 균일하게 분포된 무작위 데이터 포인트 집합 Y를 생성한다.

3. 두 가지 거리 측정값 u_i와 w_i를 정의한다.

u_i는 Y의 각 데이터 포인트 y_i에서 X 내 가장 가까운 이웃까지의 거리이다.
w_i는 X의 각 데이터 포인트 x_i에서 X 내 가장 가까운 이웃까지의 거리이다.

4. Hopkins 통계량 H는 다음과 같이 계산된다.

::

H=\frac{\sum_{i=1}^m{u_i^d}}{\sum_{i=1}^m{u_i^d}+\sum_{i=1}^m{w_i^d}} \,,

이 정의에 따르면, 균일한 무작위 데이터는 H 값이 0.5에 가까워지는 경향을 보이며, 군집화된 데이터는 1에 가까운 값을 나타내는 경향이 있다.

하지만 단일 가우시안 분포를 따르는 데이터 역시 1에 가까운 H 값을 가질 수 있다. 이는 Hopkins 통계량이 데이터의 균일성(uniformity)에서 벗어나는 정도를 측정하기 때문이며, 다봉성(multimodal distribution) 여부를 판단하는 데는 적합하지 않다. 따라서 실제 데이터 분석에서는 이 통계량의 활용도가 제한적일 수 있다.^[51]

5. 클러스터 분석의 응용

클러스터 분석은 다양한 분야에서 활용된다.

생물학: 식물과 동물 생태학에서 이질적인 환경의 유기체 군집에 대한 공간적, 시간적 비교를 설명하고 수행하는 데 사용된다. 계통 분류학에서는 여러 속성을 공유하는 종, 속 또는 그 이상 수준의 유기체(개체)의 인공 계통 또는 군집을 생성하는 데 사용된다. 전사체학에서는 관련된 발현 패턴을 가진 유전자 그룹을 구축하는 데 사용되며, 이러한 그룹에는 특정 경로의 효소와 같이 기능적으로 관련된 단백질이나 공동 조절되는 유전자가 포함될 수 있다. 발현 서열 태그(EST) 또는 DNA 마이크로어레이를 사용하는 고처리량 실험은 유전체 주석에 사용되는 강력한 도구이다. 서열 분석에서는 서열 군집화를 통해 상동 서열을 유전자 계열로 그룹화한다. 인간 유전자 군집화에서는 유전자 데이터의 유사성을 통해 집단 구조를 추론한다.

의학: 의료 영상에서 PET 스캔의 클러스터 분석은 3차원 이미지에서 서로 다른 유형의 조직을 구분하는 데 사용된다.^[56] 항균 활성 분석에서는 항생제 내성 패턴 분석, 작용 기전에 따른 항균 화합물 분류, 항균 활성에 따른 항생제 분류 등에 사용된다. IMRT 분할에서는 플루언스 맵을 별개의 영역으로 나누는 데 사용된다.

경영학 및 경제학: 시장 조사에서 조사와 테스트 패널에서 얻은 다변량 데이터를 다룰 때 널리 사용된다. 시장 조사 담당자는 군집 분석을 사용하여 일반 인구의 소비자를 시장 부문으로 분할하고, 서로 다른 소비자/잠재 고객 그룹 간의 관계를 더 잘 이해하며, 시장 세분화, 제품 포지셔닝, 신제품 개발 및 시험 시장 선택에 활용한다. 쇼핑 상품을 그룹화하여 웹에서 사용 가능한 모든 쇼핑 상품을 고유한 제품 집합으로 묶을 수 있다.

컴퓨터 과학: 사회 네트워크 분석에서 클러스터링은 많은 사람들 사이의 커뮤니티를 인식하는 데 사용될 수 있다. 검색 결과 그룹화 과정에서 클러스터링은 구글(Google)과 같은 일반적인 검색 엔진과 비교하여 더욱 관련성 있는 검색 결과 집합을 만드는 데 사용될 수 있다. 슬리피 맵 최적화에서 플리커(Flickr)의 사진 지도 및 기타 지도 사이트는 지도의 마커 수를 줄이기 위해 클러스터링을 사용한다. 소프트웨어 진화에서 군집화는 분산된 기능을 재구성하여 코드의 레거시 속성을 줄이는 데 도움이 된다. 영상 분할에서 군집화는 디지털 영상을 경계 검출 또는 객체 인식을 위한 별개의 영역으로 나누는 데 사용될 수 있다.^[58] 진화 알고리즘에서 군집화는 진화 알고리즘의 개체군 내에서 서로 다른 틈새를 식별하는 데 사용될 수 있다. 추천 시스템에서 사용자 클러스터의 다른 사용자의 선호도를 기반으로 사용자의 선호도를 예측한다. 마르코프 체인 몬테카를로 방법에서 군집화는 종종 목표 분포에서 극값을 찾고 특징을 파악하는 데 사용된다. 이상 탐지에서 이상치/특이값은 일반적으로 데이터의 군집 구조에 대해 정의된다. 자연어 처리에서 군집화는 어휘적 모호성을 해결하는 데 사용될 수 있다.^[57] DevOps에서 군집화는 DevOps 팀의 효과를 분석하는 데 사용되었다.^[59]

사회과학: 사회과학에서의 시계열 분석에서 가족 생활 궤적, 직업 경력 및 일일 또는 주간 시간 사용 패턴을 식별하는 데 사용된다. 범죄 분석에서 군집 분석은 특정 유형의 범죄가 더 많이 발생하는 지역을 식별하는 데 사용할 수 있다. 교육 데이터 마이닝에서 군집 분석은 유사한 속성을 가진 학교 또는 학생 그룹을 식별하는 데 사용된다. 유형론에서 여론 조사 데이터를 통해 군집 분석을 사용하여 정치 및 마케팅에 유용할 수 있는 의견, 습관 및 인구 통계의 유형론을 식별한다.

기타: 현장 로봇 공학에서 군집 알고리즘은 로봇의 상황 인식에 사용되어 물체를 추적하고 센서 데이터의 이상치를 감지한다.^[60] 화학수학에서 구조적 유사성 등을 찾기 위해 사용된다.^[61] 기후학에서 기후 체제 또는 선호되는 해수면 기압 대기 패턴을 찾기 위해 사용된다.^[62] 금융에서 군집 분석은 주식을 부문별로 군집화하는 데 사용되었다.^[63] 석유 지질학에서 군집 분석은 저류층 특성을 평가하기 위해 누락된 저부 코어 데이터 또는 누락된 로그 곡선을 재구성하는 데 사용된다. 지구화학에서 서로 다른 샘플 위치에서 화학적 특성의 군집화에 사용된다.

6. 더 읽어보기

자동 군집화 알고리즘
균형 군집화
고차원 데이터 군집화
개념 군집화
합의 군집화
제약 조건 군집화
커뮤니티 탐지
데이터 스트림 군집화
HCS 군집 알고리즘
시퀀스 군집화
스펙트럼 군집화
k-평균 알고리즘
k-중앙값 알고리즘
인공 신경망
최근접 이웃 탐색
근접 성분 분석
잠재 계층 분석
친화도 전파
주성분 분석 (PCA)
다차원 척도법 (MDS)
클러스터 가중치 모델링
차원의 저주
데이터 집합에서 클러스터 수 결정
병렬 좌표
구조적 데이터 분석
선형 분리 가능성

6. 1. 특수 클러스터 분석 유형

자동 군집 알고리즘
균형 군집
고차원 데이터 군집
개념 군집
합의 군집
제약 조건 군집
커뮤니티 탐지
데이터 스트림 군집
HCS 군집
시퀀스 군집
스펙트럼 군집

6. 2. 클러스터 분석에 사용되는 기법

클러스터 분석에 사용되는 기법은 다양하며, 대표적인 기법들은 다음과 같다.

k-평균(k-means) 알고리즘: 각 클러스터를 대표하는 중심점(centroid)을 찾고, 이 중심점을 기준으로 데이터를 클러스터에 할당하는 방식이다.
장점: 빠르다(계산 복잡도는 O(tkn)이며, 여기서 t는 반복 횟수, k는 클러스터 수, n은 데이터 수이다. 일반적으로 n이 매우 크므로 O(n)과 유사하다).^[5]
단점: 지역 최적해(local optimum)에 빠질 수 있다. 이 문제는 시작점을 다르게 하여 해결할 수 있다. 범주형 데이터에는 평균을 구하기 어렵고, k 값을 미리 정해야 하며, 이상치(outlier)나 잡음(noise)에 취약하고, 원형이 아닌 데이터에는 잘 적용되지 않는다.^[5]
해결책: 거리 계산 방법을 다르게 하거나, 빈도 정보를 고려하여 계산한다.
k-중앙값(k-medoid) 알고리즘: k-평균 알고리즘의 이상치에 대한 취약점을 보완하기 위해 중심점 대신 중앙값(medoid)을 사용한다.
단점: 느리다(계산 복잡도는 O(k * (n-k)^2)이다).
해결책: 샘플링 기법을 사용한다.
CLARA(Clustering LARge Applications): 샘플링을 이용한 k-중앙값 알고리즘이다.
장점: k-중앙값 알고리즘보다 빠르다.
단점: 샘플에 따라 결과가 달라진다.
CLARANS(Clustering Large Applications based on RANdomized Search): 근처에 있는 데이터들을 샘플링하는 방식이다.

이 외에도 다음과 같은 다양한 기법들이 존재한다.^[5]

인공 신경망
최근접 이웃 탐색
근접 성분 분석
잠재 계층 분석
친화도 전파

"정확한" 군집 알고리즘은 존재하지 않으며, 문제에 가장 적합한 알고리즘은 실험적으로 선택해야 한다.^[5] 한 종류의 모델에 맞춰 설계된 알고리즘은 다른 종류의 모델이 포함된 데이터 집합에서는 실패할 수 있다.^[5]

6. 3. 데이터 투영 및 전처리

클러스터 분석에서 데이터 투영 및 전처리는 중요한 단계이다.

차원 축소: 데이터의 차원이 너무 많으면 분석이 어려워지므로, 차원을 줄이는 기법을 사용한다.
주성분 분석 (PCA): 데이터의 분산을 최대한 보존하면서 차원을 축소하는 방법이다.
다차원 척도법 (MDS): 데이터 간의 거리를 보존하면서 차원을 축소하는 방법이다.

6. 4. 기타

위에 나열된 대로, 군집 알고리즘은 군집 모델을 기반으로 분류할 수 있다. 100가지 이상의 군집 알고리즘이 발표되었지만, 가장 두드러진 예만 나열한다. 모든 알고리즘이 군집에 대한 모델을 제공하는 것은 아니므로 쉽게 분류할 수 없다. 위키피디아에 설명된 알고리즘의 개요는 통계 알고리즘 목록에서 찾을 수 있다.

객관적으로 "정확한" 군집 알고리즘은 없지만, "군집은 보는 사람의 눈에 달려 있다"는 말이 있다.^[5] 특정 문제에 가장 적합한 군집 알고리즘은 종종 실험적으로 선택해야 한다. 한 군집 모델을 다른 모델보다 선호해야 할 수학적 이유가 없는 한 말이다.^[5] 한 종류의 모델에 맞춰 설계된 알고리즘은 일반적으로 근본적으로 다른 종류의 모델이 포함된 데이터 집합에서는 실패한다.^[5] 예를 들어, k-평균은 비볼록 군집을 찾을 수 없다.^[5] 대부분의 기존 군집 방법은 군집이 구형, 타원형, 또는 볼록한 모양을 나타낸다고 가정한다.^[7]

클러스터 가중치 모델링
차원의 저주
데이터 집합에서 클러스터 수 결정
병렬 좌표
구조적 데이터 분석
선형 분리 가능성

참조

_[1] 논문 Quantitative Expression of Cultural Relationships http://dpg.lib.berke[...] University of California Press 2019-02-18
_[2] 논문 A technique for measuring like-mindedness. 1938
_[3] 서적 Cluster Analysis: Correlation Profile and Orthometric (factor) Analysis for the Isolation of Unities in Mind and Personality Edwards Brothers
_[4] 논문 The description of personality: Basic traits resolved into clusters 1943
_[5] 논문 Why so many clustering algorithms – A Position Paper 2002-06-20
_[6] 간행물 Clustering and structural balance in graphs 1967-05
_[7] 논문 An overview of clustering methods with guidelines for application in mental health research 2023-09-01
_[8] 서적 Cluster analysis Wiley
_[9] 논문 SLINK: an optimally efficient algorithm for the single-link cluster method http://www.cs.gsu.ed[...] British Computer Society
_[10] 논문 An efficient algorithm for a complete link method British Computer Society
_[11] 논문 Least squares quantization in PCM
_[12] 논문 Density-based Clustering http://wires.wiley.c[...]
_[13] 웹사이트 Microsoft academic search: most cited data mining articles http://academic.rese[...] 2010-04-21
_[14] 학회 A density-based algorithm for discovering clusters in large spatial databases with noise AAAI Press
_[15] 학회 OPTICS: Ordering Points To Identify the Clustering Structure ACM Press
_[16] 학회 Advances in Knowledge Discovery and Data Mining
_[17] 서적 Data Clustering : Algorithms and Applications
_[18] 학회 Web-scale k-means clustering
_[19] 논문 Extensions to the ''k''-means algorithm for clustering large data sets with categorical values
_[20] 학회 Efficient and effective clustering method for spatial data mining
_[21] 웹사이트 An Efficient Data Clustering Method for Very Large Databases http://www.cs.du.edu[...]
_[22] 논문 Subspace clustering 2012-07
_[23] 논문 Automatic Subspace Clustering of High Dimensional Data
_[24] 학회 Density-Connected Subspace Clustering for High-Dimensional Data
_[25] 학회 Knowledge Discovery in Databases: PKDD 2006
_[26] 학회 Advances in Databases: Concepts, Systems and Applications
_[27] 서적 18th International Conference on Scientific and Statistical Database Management (SSDBM'06)
_[28] 서적 Proceedings of the 2004 ACM SIGMOD international conference on Management of data - SIGMOD '04
_[29] 서적 19th International Conference on Scientific and Statistical Database Management (SSDBM 2007)
_[30] 학회 Learning Theory and Kernel Machines
_[31] 논문 Hierarchical Clustering Based on Mutual Information 2003-12-01
_[32] 논문 Clustering by a Genetic Algorithm with Biased Mutation Operator http://www.diva-port[...] IEEE 2010-07-18
_[33] 논문 Clustering by Passing Messages Between Data Points
_[34] 논문 Characterization and evaluation of similarity measures for pairs of clusterings Springer 2009
_[35] 서적 The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data Cambridge Univ. Press 2007-01-01
_[36] 서적 Text Mining: Predictive Methods for Analyzing Unstructured Information Springer
_[37] 서적 Introduction to Information Retrieval Cambridge University Press 2008-07-07
_[38] 간행물 Knowledge Discovery in Databases – Part III – Clustering https://dbs.ifi.uni-[...] 2017
_[39] 학술지 Well separated clusters and optimal fuzzy partitions
_[40] 학술지 Silhouettes: A graphical aid to the interpretation and validation of cluster analysis
_[41] 학회 On Using Class-Labels in Evaluation of Clusterings http://eecs.oregonst[...] ACM SIGKDD
_[42] 학회 Model Selection for Semi-Supervised Clustering
_[43] 학술지 Objective criteria for the evaluation of clustering methods American Statistical Association
_[44] 학술지 A Method for Comparing Two Hierarchical Clusterings
_[45] 학회 Recall and Precision versus the Bookmaker 2003
_[46] 학술지 Comparing partitions
_[47] 학술지 Comment
_[48] 학회 The Problem with Kappa 2012
_[49] 학술지 External clustering validity index based on chi-squared statistical test 2019-06-01
_[50] 학술지 A new method for determining the type of distribution of plant individuals Annals Botany Co
_[51] 서적 2004 IEEE International Conference on Fuzzy Systems (IEEE Cat. No.04CH37542)
_[52] 학술지 Hierarchical clustering schemes 1967-09-01
_[53] 학술지 A clustering algorithm based on graph connectivity 2000-12-31
_[54] 학술지 Automatic clustering of orthologs and in-paralogs from pairwise species comparisons11Edited by F. Cohen 2001-12-14
_[55] 학술지 High-Throughput Genotyping with Single Nucleotide Polymorphisms http://genome.cshlp.[...] 2001-07-01
_[56] 학술지 Semi-supervised Cluster Analysis of Imaging Data 2011
_[57] 학술지 Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction
_[58] 학회 Advantages of Exploiting Projection Structure for Segmenting Dense 3D Point Clouds http://www.araa.asn.[...]
_[59] 학술지 2022 Accelerate State of DevOps Report https://services.goo[...] 2022-09-29
_[60] 학술지 Real-time volume estimation of a dragline payload
_[61] 학술지 Determining Structural Similarity of Chemicals Using Graph Theoretic Indices
_[62] 학술지 Classifications of Atmospheric Circulation Patterns: Recent Advances and Applications https://opus.bibliot[...]
_[63] 학술지 Cluster Analysis and Stock Price Comovement 1980-11-01

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com