2023. 8. 7. 19:27ㆍ카테고리 없음
군집 타당성 지표 중의 하나로 군집 내의 데이터 응집도와 군집간 분리도를 계산하며 계산된 결과는 -1에서 1 사이의 값을 가지고, 군집 분석이 잘 된 경우 1에 가까운 값을 가지는 지표는 무엇인가?
군집 분석은 비슷한 특성을 가진 데이터들을 묶어서 그룹을 형성하는 데이터 분석 기법이다. 주어진 데이터 집합 내에서 유사성을 기반으로 데이터를 그룹화하며, 데이터 간의 패턴이나 구조를 파악하는 데 사용된다. 군집 분석은 데이터 마이닝, 통계 분석, 패턴 인식, 머신러닝 등 다양한 분야에서 활용됩니다.
군집 분석의 목표는 다음과 같다.
1. 비슷한 데이터들을 같은 그룹으로 묶어서 유사한 특성을 가진 데이터의 집합을 파악한다.
2. 데이터의 구조나 패턴을 이해하고 시각화하여 통찰력을 얻는다.
3. 데이터 분석 결과를 활용하여 의사 결정이나 전략 수립에 도움을 준다.
4. 데이터 전처리나 변수 선택에 활용하여 복잡한 데이터 분석 작업을 단순화한다.
군집 분석의 종류
1. K-means 클러스터링 : 데이터를 K개의 클러스터로 분할하며, 각 클러스터의 중심을 계산하여 데이터를 할당한다.
2. 계층적 군집 분석 : 트리 구조를 사용하여 계층적으로 클러스터를 형성하며, 데이터를 분할하거나 병합한다.
3. DBSCAN : 데이터 밀도를 기반으로 클러스터를 식별하는 알고리즘이다.
4. 병합 군집 분석 : 각 데이터 포인트를 개별 클러스터로 시작하여 유사한 클러스터를 병합하는 방식으로 진행한다.
군집 타당성 지표는 군집 분석 결과의 품질을 평가하고 비교하기 위해 사용되는 통계적 지표들을 의미한다.
군집 분석은 데이터를 유사한 특성을 가진 그룹으로 나누는 기법인데, 이 때 군집이 잘 형성되고 유의미한 구조를 갖는지를 평가하기 위해 군집 타당성 지표를 사용한다.
1. 실루엣 지수 :
개별 데이터 포인트가 해당 군집 내부의 유사성과 다른 군집과의 거리를 고려하여 계산되는 지표이다.
실루엣 지수는 -1부터 1까지의 값을 가지며, 값이 높을수록 군집이 잘 형성되었음을 나타낸다.
2. 덴드로그램 상의 군집 높이
덴드로그램은 군집 분석에서 계층적 군집 결과를 시각화한 그래프이다.
덴드로그램 상의 군집 높이는 데이터 사이의 유사성을 나타내는 거리 행렬과 덴드로그램의 구조 사이의 상관관계를 계산하여 군집 형성의 타당성을 평가한다.
3. 군집 내 분산과 군집 간 분산 비율
K-means와 같은 거리 기반 군집 알고리즘에서 사용되는 지표로, 군집 내 분산과 군집 간 분산 비율을 계산하여 군집화의 품질을 평가한다.
4. Gap 통계량
군집화 결과와 무작위 데이터 생성 결과를 비교하여 군집 분석의 타당성을 판단하는 지표이다.
5. Calinski-Harabasz 지수
군집 내 분산과 군집 간 분산의 비율을 사용하여 군집 분석의 성능을 평가하는 지표이다.