- 모시는글
빅데이터 러닝센터에서 열리는 70차 오픈하우스의 주제는
"범주의 수량화(Quantification Methods for Categories)"입니다.
데이터 분석에서 k개의 범주를 취하는 1개 변수는 k개의 0-1 변수, 즉 더미변수로 표현됩니다. (단, 실제 차원 수는 k-1입니다.) 이러한 특성 때문에 범주형 변수를 포함한 통계분석은 모형과 해석이 복잡해질 수 있습니다.
이를 해결하기 위한 하야시(Hayashi) 수량화 기법은 범주형 변수에 특화된 방법론으로, 데이터에서 내면적 통찰을 효과적으로 끌어낼 수 있습니다.
이번 세미나에서는 하야시의 수량화 방법 1,2,3,4를 살펴보고자 합니다.
- 수량화 방법 1: 수치형 종속변수에 대한 선형회귀에서 범주형 독립변수에 적용.
- 수량화 방법 2: 종속변수와 독립변수가 모두 범주형인 경우에 적용,
이는 범주형 회귀 또는 정준상관분석(canonical correlation analysis)으로 볼 수 있습니다.
- 수량화 방법 3: 2개 범주형 변수 간 연관성을 분석,
이는 대응분석(correspondence analysis)과 동일하며, 3개 이상의 경우로 확장하면 다중대응분석으로 이어집니다.
- 수량화 방법 4: 데이터 간 거리 또는 비유사성(dissimilarity)인 경우에 적용,
이는 일종의 다차원 척도법(multidimensional scaling)이 됩니다.
이번 오픈하우스에서 수치 예시는 오픈소스 R을 통해 제시되지만, SPSS의 Categorical Regression, Correspondence Analysis, Multidimensional Scaling 등의 모듈을 통해서도 유사한 결과를 얻을 수 있습니다.
<범주의 수량화>를 통해 범주형 데이터 분석의 활용성을 넓히고자 하는 분들의 많은 참여 바랍니다.
|