상관 분석이란?
- 상관 분석은 연속형 변수 x에 대한 연속형 변수 y의 관계를 분석할 때 사용된다.
- Scatter를 통해 시각화
가설 : 온도(x)가 상승하면 아이스크림 판매량(y)을 증가할까?
숫자 vs 숫자를 비교할 때 중요한 관점이 '직선' (Linearity)!!
1. 시각화 : 산점도
(1) 산점도
- sns.scatterplot(x='name1', y='name2', data=dataframe )
- plt.scatter('x변수', 'y변수', data=dataframe)
(2) 한꺼번에 시각화 (pairplot)
- sns.pairplot(df, kind='reg')
(3) (추가) jointplot : 산점도와 각각의 히스토그램을 함께 보여준다.
sns.jointplot(x='name1', y='name2', data=data)
2. 수치화 : 상관분석
- spst.pearsonr(df['name1'], df['name2'])
- 결과는 튜플로 나옴
- 튜플의 첫번째 값 : 상관계수 // 튜플의 두번째 값 : p-value
(1) 상관계수, p-value
① 상관계수 r
- 절댓값 1에 가까울 수록 강한 상관관계를 나타냄
* 경험에 의한 대략의 기준 (절대적인 기준X)
- 강한 : 0.5 < |𝑟| ≤ 1
- 중간 : 0.2 < |𝑟| ≤ 0.5
- 약한 : 0.1 < |𝑟| ≤ 0.2
- (거의)없음 : |𝑟| ≤ 0.1
② p-value
- 우연인지 아닌지,, 유의성이 있는지 판단
- 0.05보다 작을수록 상관관계가 있다고 판단
- 귀무가설 : 상관 관계가 없다. (상관계수가 0이다.)
- 대립가설 : 상관 관계가 있다. (상관계수가 1이다.)
- 값에 NaN이 있으면 계산되지 않음. 반든시 .notnull()로 제외하고 수행해야 함.
'파이썬 > 데이터 분석' 카테고리의 다른 글
[240927] 데이터 분석 #5 이변량 - 범주 vs 숫자 (0) | 2024.09.27 |
---|---|
[240927] 데이터 분석 #4 평균에 대하여 (0) | 2024.09.27 |
[240926] 데이터 분석 #2 개별 변수 분석 - 범주형 변수 (1) | 2024.09.27 |
[240925] 데이터 분석 #1 개별 변수 분석 - 숫자형 변수 (0) | 2024.09.25 |
[240925] 데이터 분석 방법론 (1) | 2024.09.25 |