패스트캠퍼스 BDA 부트캠프 10기/Excel
[Excel] 통계학, 데이터 분석의 단계, EDA
희난
2023. 8. 29. 10:04
1. 통계학이란?
- 산술적 방법을 기초로 하여, 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
- 불확실성 속에서 정보를 찾아내는 학문
- 부분으로 전체를 추론하는 학문
2. 비전공자도 기본적인 통계 기초가 필요한 이유
- 비즈니스의 근거가 되는 데이터 수치는 이미 다양한 도구를 통해서 수집, 가공, 시각화가 이루어지고 있음
- 데이터를 기반으로 수많은 의사 결정을 수행하는 것은 더이상 데이터 직군 종사자만의 일이 아님
- 실무적 요구 능력
- 통계 수치를 해석
- 올바른 인과 관계 분석
- 인사이트를 도출하는 일
- 데이터 탐색은 적절한 통계 기법을 활용하고 수치를 뽑는 과정, 더 나아가 데이터로부터 올바른 정보를 얻어내는 과정
- 즉, 통계 공부는 수치로부터 정보를 추출해내기 위한 수단!
3. 데이터 분석 단계 x5
- 데이터 분석 기획
- 비즈니스 이해 및 목표 설정
- 프로젝트 정의
- 데이터 수집 및 정제
- 데이터 수집 방법
- 데이터 전처리, 검증(데이터의 정합성, 무결성 등 검정)
- 데이터 분석 모델링
- 탐색적 데이터 분석(EDA) - (기술)통계량 확인 및 시각화를 통한 데이터의 특성 파악
- 모델링 - 예측을 위한 수학적, 통계적 모델링
- 평가 및 결론 도출
- 모델링을 통해 생성된 결과를 활용하여 결론 도출
- 성능에 대한 평가 및 개선
- 분석 결과의 활용
- 시스템 구현
- 비즈니스 인사이트
- 의사 결정에 도움
- 시각화(때시보드 등)
- 서비스에 활용
4. 탐색적 데이터 분석(EDA)
Explatory Data Analysis, EDA
- 기초적인 통계개념으로 데이터 전체를 파악
- 데이터의 형질에 대한 도메인 개념 축적
- 전처리의 방향성 제시
5. 엑셀 - 기술 통계법
[데이터] 탭 -> [데이터 분석] -> 기술 통계법
연속된 숫자 데이터에서만 사용 가능
- Survived의 평균이 0.38..인 것은 0(사망)이 약 62%, 1(생존)이 약 38%라는 것. 즉 생존율 약 38%
- 첨도 : 뾰족한 정도
- 왜도 : 좌/우 치우친 정도
- 범위 : 최대값 - 최소값
- 가장 큰/작은 값 : K번째로 큰/작은 값 설정 가능
+) Ctrl + A : 데이터 영역 전체 선택
Ctrl + A + A : 셀 전체 선택
셀 전체 선택한 후 열과 열 사이에 마우스 포인트 댄 후 더블 클릭 하면 셀의 너비들이 적절하게 늘어남