본문 바로가기
파이썬/데이터 분석

[240926] 데이터 분석 #3 이변량 - 숫자 vs 숫자

by 황오독 2024. 9. 27.

상관 분석이란?

더보기

- 상관 분석은 연속형 변수 x에 대한 연속형 변수 y의 관계를 분석할 때 사용된다.

- Scatter를 통해 시각화

 

가설 : 온도(x)가 상승하면 아이스크림 판매량(y)을 증가할까?

 

숫자 vs 숫자를 비교할 때 중요한 관점이 '직선' (Linearity)!!

1. 시각화 : 산점도

 (1) 산점도

    - sns.scatterplot(x='name1', y='name2', data=dataframe )

    - plt.scatter('x변수', 'y변수', data=dataframe)

 

 (2) 한꺼번에 시각화 (pairplot)

   - sns.pairplot(df, kind='reg')

 

(3) (추가) jointplot : 산점도와 각각의 히스토그램을 함께 보여준다.

sns.jointplot(x='name1', y='name2', data=data)

 

 

2. 수치화 : 상관분석

   - spst.pearsonr(df['name1'], df['name2'])

   - 결과는 튜플로 나옴

   - 튜플의 첫번째 값 : 상관계수 // 튜플의 두번째 값 : p-value

 (1) 상관계수, p-value

  ① 상관계수 r

     - 절댓값 1에 가까울 수록 강한 상관관계를 나타냄

더보기

 * 경험에 의한 대략의 기준 (절대적인 기준X)

    - 강한 : 0.5 < |𝑟| ≤ 1
    - 중간 : 0.2 < |𝑟| ≤ 0.5
    - 약한 : 0.1 < |𝑟| ≤ 0.2
    - (거의)없음 : |𝑟| ≤ 0.1

  ② p-value

더보기

- 우연인지 아닌지,, 유의성이 있는지 판단

- 0.05보다 작을수록 상관관계가 있다고 판단

- 귀무가설 : 상관 관계가 없다. (상관계수가 0이다.)

- 대립가설 : 상관 관계가 있다. (상관계수가 1이다.)

- 값에 NaN이 있으면 계산되지 않음. 반든시 .notnull()로 제외하고 수행해야 함.