패스트캠퍼스 BDA 부트캠프 10기/Excel

[Excel] 통계학, 데이터 분석의 단계, EDA

희난 2023. 8. 29. 10:04
1. 통계학이란?
  • 산술적 방법을 기초로 하여, 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
  • 불확실성 속에서 정보를 찾아내는 학문
  • 부분으로 전체를 추론하는 학문

 

2. 비전공자도 기본적인 통계 기초가 필요한 이유
  • 비즈니스의 근거가 되는 데이터 수치는 이미 다양한 도구를 통해서 수집, 가공, 시각화가 이루어지고 있음
  • 데이터를 기반으로 수많은 의사 결정을 수행하는 것은 더이상 데이터 직군 종사자만의 일이 아님
  • 실무적 요구 능력
    • 통계 수치를 해석
    • 올바른 인과 관계 분석
    • 인사이트를 도출하는 일
  • 데이터 탐색은 적절한 통계 기법을 활용하고 수치를 뽑는 과정, 더 나아가 데이터로부터 올바른 정보를 얻어내는 과정
  • 즉, 통계 공부는 수치로부터 정보를 추출해내기 위한 수단!

 

3. 데이터 분석 단계 x5
  • 데이터 분석 기획
    • 비즈니스 이해 및 목표 설정
    • 프로젝트 정의
  • 데이터 수집 및 정제
    • 데이터 수집 방법
    • 데이터 전처리, 검증(데이터의 정합성, 무결성 등 검정)
  • 데이터 분석 모델링
    • 탐색적 데이터 분석(EDA) - (기술)통계량 확인 및 시각화를 통한 데이터의 특성 파악
    • 모델링 - 예측을 위한 수학적, 통계적 모델링
  • 평가 및 결론 도출
    • 모델링을 통해 생성된 결과를 활용하여 결론 도출
    • 성능에 대한 평가 및 개선
  • 분석 결과의 활용
    • 시스템 구현
    • 비즈니스 인사이트
      • 의사 결정에 도움
      • 시각화(때시보드 등)
    • 서비스에 활용

 

4. 탐색적 데이터 분석(EDA)

Explatory Data Analysis, EDA

  • 기초적인 통계개념으로 데이터 전체를 파악
  • 데이터의 형질에 대한 도메인 개념 축적
  • 전처리의 방향성 제시

 

5. 엑셀 - 기술 통계법
[데이터] 탭 -> [데이터 분석] -> 기술 통계법

연속된 숫자 데이터에서만 사용 가능

  • Survived의 평균이 0.38..인 것은 0(사망)이 약 62%, 1(생존)이 약 38%라는 것. 즉 생존율 약 38%
  • 첨도 : 뾰족한 정도
  • 왜도 : 좌/우 치우친 정도
  • 범위 : 최대값 - 최소값
  • 가장 큰/작은 값 : K번째로 큰/작은 값 설정 가능

+) Ctrl + A : 데이터 영역 전체 선택

Ctrl + A + A : 셀 전체 선택

셀 전체 선택한 후 열과 열 사이에 마우스 포인트 댄 후 더블 클릭 하면 셀의 너비들이 적절하게 늘어남