패스트캠퍼스 BDA 부트캠프 10기/Excel

[Excel] 통계학-기술통계학/추론통계학, 가설 검정(귀무가설, 대립가설), p-value, t-test, F-검정, 회귀분석(단순/다중 선형 회귀 분석)

희난 2023. 8. 28. 21:25
1. 통계학
  • 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
  • 연구 목적에 필요한 자료 및 정보를 최적한 방법으로 수집하고, 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리 분석하는 학문
  • 통계학은 관심 또는 연구의 대상이 되는 모집단(population)으로부터 자료를 수집, 정리, 요약을 하고 표본(수집한 자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문
  • 통계는 의사결정을 지원하는 역할이며 맹신하면 안되고 경각심을 가져야 한다.

 

2. 기술 통계학과 추론 통계학
  • 기술 통계학
    • 요약 통계량. 그래프, 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법
    • 표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약

 

  • 추론 통계학
    • 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법
    • 점 추정, 구간 추정을 하거나 가설을 검정
    • 모집단 : 아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터 = 관심의 대상이 되는 집단
    • 표본 : 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터
    • 가설 검정 : 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정
    • 귀무가설(H0, 영 가설) : 기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설(차이가 없거나, 의미 있는 차이가 없는 경우)
    • 대립가설(H1, 연구 가설) : 귀무 가설에 대립하는 명제, 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출됨, 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음
    •  

출처 : 패스트캠퍼스 데이터분석 부트캠프

3. p-value(유의 확률)
  • 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률
  • 귀무가설이 맞다는 전제 하에, 내가 관측한 데이터의 통계량이 귀무가설을 지지할 확률
  • 0.05 미만이면 귀무가설을 기각 => but 대립가설을 받을 수 있는 것은 아님(추가 확인 필요)
  • = p-value가 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 것.
  • 즉, 이 사건이 우연히 일어났을 가능성이 거의 없다고 추정, 이 사건은 우연이 아닐 것이다라고 해석
  • <-> p-value가 0.05보다 크면 어떤 사건이 우연히 발생할 확률이 5%보다 크기 때문에, 해당 사건은 통계적으로 인과관계가 없다고 해석

 

  • 관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지, 변수에 의한 것인지 여부를 밝힘
  • 하지만 이것이 효과나 변화의 정도, 관계의 강도나 크기 등을 설명하는 것은 아니다.
  • => 상관 계수 r이나 결정 계수 r2 등의 지표를 함께 활용해 분석 결과를 더 정확히 표현할 수 있음
4. t-test

두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

(세 집단 이상부터는 분산분석/ANOVA 시행)

*t-test 시행 단계*
변수(집단) 선택 -> F-검정 -> t-test -> 결과 해석

+) 적합한 t-test 방법 선택 위해 F-검정을 이전에 시행

 

5. F-검정
  • 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
  • p-value가 0.05보다 크면 두 집단의 분산에 유의미한 차이가 없고, 0.05보다 작으면 두 집단의 분산에 유의미한 차이가 있다.
1. p-value > 0.05 => 등분산 가정 t-test
2. p-value < 0.05 => 이분산 가정 t-test

F-검정은 두 집단의 분산 차이를 검정해 각 상황에 맞는 t-test 방법을 선정하기 위해 사용한다.

[데이터] 탭 -> [데이터 분석] -> [F-검정 : 분산에 대한 두 집단]

[데이터] 탭 -> [데이터 분석] -> [t-검정 : 이분산 가정 두집단]

6. 회귀 분석

두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

출처 : 패스트캠퍼스 데이터분석 부트캠프
출처 : 패스트캠퍼스 데이터분석 부트캠프

7. 단순 선형 회귀 분석
  • 독립 변수(x)가 변할 때, 종속 변수(y)의 값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 그 직선이 x와 y의 관계를 얼마나 설명하고 있는지 분석하는 방법
  • 직관적으로 이해 가능 (눈으로 쉽게 이해 가능)
  • y와 x 사이의 1차 방정식 구하기

오른쪽이 더 좋은 회귀 모형

[데이터] 탭 -> [데이터 분석] -> [회귀 분석]

  • 결정계수는 0~1 값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함
  • F 값이 0.05 미만이면 해당 회귀 모형이 유의미하므로 사용 가능함

 

8. 다중 선형 회귀 분석
  • 독립 변수가 (x1), (x2), (x3) ... 등으로 2개 이상일 때 독립 변수들과 종속 변수 간의 관계를 파악하는 분석
  • 더 복잡하고 정교하나 직관적으로 이해하기 어려움(그래프화 어려움)

출처 : 패스트캠퍼스 데이터분석 부트캠프

+) 변수가 3개 이상이면 그래프로 그릴 수 없음 (변수가 2개까지는 3차원으로 표현 가능하나 그 이상은 불가)

 

*회귀분석 수행 단계*

1. 모든 독립 변수를 포함한 다중선형회귀분석 수행
(엑셀에서는 변수 총 16개까지 수행 가능
-> 만약 변수가 많다면 상관분석을 돌려서 상관관계가 높다고 나온 top 16 변수 추출하기)

2. 독립 변수 p 값이 0.05보다 작은 변수들로만 다시 다중선형회귀분석 수행
(결정계수 변하는 거 확인
-> 많이 안 변한다면 나머지 변수들은 정말 필요없는 변수들일 것)

3. 각 변수들 모두 각각 종속변수와 단순선형회귀분석 수행

참고

<p-value란? / p-value 사용 시 주의할 점>

https://westshine-data-analysis.tistory.com/133