패스트캠퍼스 BDA 부트캠프 10기 21

[Excel] 함수, COUNT, COUNTA , COUNTBLANK, COUNTIF, COUNTIFS, IF, VLOOKUP, MATCH, SUMIF, SUMIFS, SUMPRODUCT, IFERROR

1. 함수 복잡한 수식이나 계산을 간단한 명령어로 사용할 수 있게 하는 도구 2. COUNT 함수 특정 범위에서 "숫자 데이터"가 들어가 있는 셀의 개수 파악 3. COUNTA 함수 특정 범위에서 데이터가 들어가 있는 셀(비어 있지 않은 셀)의 개수 파악 4. COUNTBLANK 함수 특정 범위에서 비어 있는 셀의 개수 파악 5. COUNTIF 함수 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악 6. COUNTIFS 함수 특정 범위에서 2개 이상의 조건을 동시에 만족하는 셀의 개수 파악 (조건 1개도 가능) 7. IF 함수 부등호/등호를 활용해 조건을 가정하고 조건에 만족하는 값과 만족하지 않는 값을 다르게 표시 IF 함수를 N번 중첩 사용하면 데이터가 N+1가지로 구분됨 8. VLOOKUP 함수..

[Excel] 데이터 시각화, 차트 디자인, 콤보형 차트, 거품형 차트, 폭포형 차트, 조건부 서식, 대쉬보드

1. 데이터 시각화 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정 raw 데이터는 이해하고 사용하기 어렵다는 점을 보완 의사 결정자가 데이터 간의 관계를 식별하고 숨겨진 패턴이나 추세를 감지할 수 있도록 데이터에 시각적 형태를 부여 데이터 시각화는 비즈니스 인텔리전스를 개선하고 데이터 중심 의사 결정 및 전략적 계획 수립을 지원하는 이야기를 만드는 스토리텔링 ex) 나이팅게일의 로즈 다이어그램 -> 위생 개선 위한 예산 마련 위해 병원 위생 문제로 인한 사망자 현황 시각화하여 상황 효과적 전달 데이터 시각화는 도구(Tool)가 아니라 전략(Strategy)이다. 2. 차트 그릴 때 고려 사항 3단계 1) 어떤 숫자로 차트를 그릴 것인가? 차트는 숫자 데이터로만 그릴 수 있고..

[Excel] 시계열 데이터, 지수 평활법, FORECAST.ETS

1. 시계열 데이터 시간의 흐름에 따라 정리한 데이터 (ex. 주가, 기온) 정상성 : 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질 +) 추세 : 장기적으로 증가하거나, 감소하는 경향성이 존재하는 것 +) 계절성 : 계절적 요인의 영향을 받아 1년, 혹은 일정 기간 안에 반복적으로 나타나는 패턴 1) 정상 시계열 데이터 : 정상성을 가지고 있음 2) 비정상 시계열 데이터 : 정상성을 가지고 있지 않음 g는 h와 달리 연도를 동일 간격으로 나눴을 때 반복적인 특성을 보이지 않음 h는 1년마다 비슷한 모습을 보임 ex. 연말에 치솟고 5-6월에 감소하는 계절성 나타남 비정상 시계열 데이터가 대부분이며, 이는 분석이 어렵기에 정상 시계열 데이터로 변환해 분석하기도 함 +) MA(Moving..

[Excel] 확률 변수, 확률 분포, 자료의 종류(범주형/양적/명목형/순서형/이산형/연속형), 확률분포표, 확률밀도함수

1. 통계의 목적 아직 벌어지지 않은 일을 예측하기 위해서 미래에 대한 예측 -> 일어나지 않은 사건에 대한 가능성을 함수로 나타내기 2. 확률 변수 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것 = 사건마다 부여된 확률 값을 변수로 나타낸 것 3. 확률 분포 확률 변수에서 정의된 사건에 대한 확률의 분포를 함수로 나타낸 것 4. 자료의 종류 범주형 자료 명목형 자료 : 순서 X (혈액형) 순서형 자료 : 순서 O, 비교 가능 but 연산 불가 (차량 크기 - 소, 중, 대 / 만족도 1~5 점) 양적 자료 이산형 자료 : ex. 동전 앞이 나온 횟수 연속형 자료 : ex. 키, 몸무게 연속형 자료이면서 구간형 자료, 이산형 자료면서 비율형 자료. 와 같이 양적 자료는 2개/2개로 분류됨 구간형 ..

[Excel] 변량, 계급, 도수, 상대 도수, 도수분포표, 히스토그램, 평균, 분산, 표준편차, 정규분포, 표준화

1. 변량 자료의 수치, 즉 데이터의 값을 의미하는 용어 (숫자, 문자 모두 가능) 2. 계급 변량을 일정한 간격으로 나눈 구간 계급을 정할 때 변량의 최소, 최대를 고려 3. 도수 각 계급에 속하는 변량의 개수 4. 상대 도수 각 계급에 속하는 변량의 비율 (도수/전체) 5. 도수분포표 주어진 자료를 계급에 따라 나눔 각 계급에 속하는 도수를 조사 장점 : 구간별 분포를 한눈에 알아보기 좋음 단점 : 각 변량의 정확한 값을 생략 6. 히스토그램 도수분포표를 시각화해서 보는 가장 기본적인 방법 7. 평균(mean) 산술 평균 : 변량의 합을 변량의 수로 나눈 값 8. 분산(variance) 변량이 중심(평균)에서 얼마나 떨어져있는지를 보기 위한 통계량 편차(deviation) : 변량에서 평균을 뺀 값 ..

[Excel] 데이터 탐색 사례, 기술/추론 통계, 데이터 탐색 과정의 목적, 산점도 그리기(상관분석), 추세선, Box Plot 그리기, 공분산 분석, 상관 분석

1. 대표값으로 데이터 탐색 사례 기술 통계법 - 평균, 분산, 표준편차, 왜도, 첨도 등의 통계량 확인 대표값을 바탕으로 시각화할 경우 경향성(군집의 특성)을 눈으로 확인해서 인사이트를 얻을 수 있음 EDA를 하는 가장 기초적인 단계이며 데이터에 대한 직관을 얻기 좋은 수단 =SUM : 합계 =AVERAGE : 평균 =MEDIAN : 중앙값 =MAX : 최대값 =MIN : 최소값 =MODE : 최빈값 (값이 2개 이상 나올 수 있음 피벗 차트 피벗 테이블의 모습을 피벗 차트로 보여줌 8. 산점도 그리기 + 상관분석 데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프 [삽입] 탭 -> [분산형] [데이터] 탭 -> [데이터 분석] -> 상관 분석 PetalWidth와 PetalLength간 높은 ..

[Excel] 통계학, 데이터 분석의 단계, EDA

1. 통계학이란? 산술적 방법을 기초로 하여, 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야 불확실성 속에서 정보를 찾아내는 학문 부분으로 전체를 추론하는 학문 2. 비전공자도 기본적인 통계 기초가 필요한 이유 비즈니스의 근거가 되는 데이터 수치는 이미 다양한 도구를 통해서 수집, 가공, 시각화가 이루어지고 있음 데이터를 기반으로 수많은 의사 결정을 수행하는 것은 더이상 데이터 직군 종사자만의 일이 아님 실무적 요구 능력 통계 수치를 해석 올바른 인과 관계 분석 인사이트를 도출하는 일 데이터 탐색은 적절한 통계 기법을 활용하고 수치를 뽑는 과정, 더 나아가 데이터로부터 올바른 정보를 얻어내는 과정 즉, 통계 공부는 수치로부터 정보를 추출해내기 위한 수단! 3. 데이터 분석 단..

[Excel] 통계학-기술통계학/추론통계학, 가설 검정(귀무가설, 대립가설), p-value, t-test, F-검정, 회귀분석(단순/다중 선형 회귀 분석)

1. 통계학 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야 연구 목적에 필요한 자료 및 정보를 최적한 방법으로 수집하고, 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리 분석하는 학문 통계학은 관심 또는 연구의 대상이 되는 모집단(population)으로부터 자료를 수집, 정리, 요약을 하고 표본(수집한 자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문 통계는 의사결정을 지원하는 역할이며 맹신하면 안되고 경각심을 가져야 한다. 2. 기술 통계학과 추론 통계학 기술 통계학 요약 통계량. 그래프, 표 등을 이용해 데이터를 정리, 요약하..

[Excel] FIND 함수, SEARCH 함수, LEFT/RIGHT/MID 함수, 텍스트 나누기, 중복 제거하기, FILTER, 데이터 유효성 검사

1. FIND 함수 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력 띄어쓰기까지 포함해서 문자를 세며, 대소문자를 구분(a!=A) =FIND("찾을 텍스트", 긴 텍스트, 문자열을 찾기 시작할 위치) 찾고자 하는 단어가 텍스트에 포함되어 있으면 그 위치를 숫자로 출력하고, 포함되어 있지 않으면 #VALUE 에러 출력 에러가 출력되면 처리가 어려우므로 이럴 경우 IFERROR((~~~),0) 을 이용하여 '에러 발생시 0 출력' 하도록 조정 가능 2. SEARCH 함수 FIND 함수와 똑같으나 대소문자를 구분하지 않음(a==A) 3. LEFT & RIGHT 함수 텍스트의 가장 왼쪽/오른쪽부터 원하는 문자열까지 추출 =LEFT(전체 텍스트, 불러올 문자열 수) =RIGHT(전체 텍스트, 불러올..

[1주차] 패스트캠퍼스 BDA 부트캠프 10기 학습일지

08.21 월요일 : 오리엔테이션(데이터 직무 소개) 데이터 분야 직종 - 1) 데이터 분석가 데이터 기반 의사결정을 위해 통계적 데이터 분석 및 시각화 업무 수행 주된 업무 : 대쉬보드 생성 - 데이터를 생성해서 무사히 저장하기까지 특정 목표나 비즈니스 프로세스와 관련된 핵심 성과 지표를 지능적으로 볼 수 있는 인터페이스 데이터 분야 직종 - 2) 데이터 사이언티스트 AI/머신러닝 알고리즘 모델 개발 및 최적화 업무 수행 주된 업무 : 예측 및 모델링 - 미래에 대한 이해를 높여 수익성 높은 의사결정 실현 데이터 분야 직종 - 3) 데이터 엔지니어 데이터 플랫폼, 파이프라인의 아키텍처 구성 및 개발/운영 업무 수행 주된 업무 : 데이터 파이프라인 구축 - 데이터를 생성해서 무사히 저장하기까지의 과정 데..