'데이터자격검정' 태그의 글 목록 (2 Page)

데이터자격검정 38

데이터 탐색 기초* 데이터 탐색 도구 : 도표/ 그래프/ 요약통계1. 데이터 탐색 개요- 탐색적 데이터 분석(Exploratory Data Analysis, EDA) - 수치요약, 시각화 등을 통해 데이터를 탐색하고 변수 간의 관계를 파악 - 주로 결측치, 이상값, 데이터 분포, 기초통계량, 변수간 상관성 확인(도구 : 도표, 그래프, 요약통계) - 탐색적 데이터 분석(EDA)과 확증적 데이터 분석(CDF)의 차이 - 탐색적 데이터 분석(EDA)의 4가지 주제1. 저항성의 강조 - 데이터의 일부가 파손되었을 때 영향을 적게 받는 성질 예) 이상값에 민감한 평균보다 중앙값을 선호함2. 잔차 해석 - 잔차는 관찰 값들이 주 경향으로부터 얼마나 벗어났는지 알려주는 지표로, 이상치라 할 수..

[데이터자격시험용-필수요약정리] 2024.04.01

빅데이터 탐색 - 통계기법이해(가설검정)

가설검정"~할 것이다"라는 잠정적인 주장(가설)에 대해 통계적인 방식으로 검정하는 것으로 통계적 가설검정이라 함(주로 모집단의 모수에 대해 설정) 1. 귀무가설과 대립가설1 귀무가설(H0) = 영가설 (기존에 알려진 사실) - 차이가 없다, 서로 같다, 영향을 주지 않는다 등으로 설정 (일반적으로 = 사용) 2 대립가설(H1) = 연구가설 = 대안가설 - 차이가 있다, 같지 않다, 영향을 준다 등으로 설정 (일반적으로 ≠ 사용) ※ 가설검정은 귀무가설(H0)을 채택할 건지 기각할 건지 판단하는 과정 2. 가설 검정의 오류(1종 오류와 2종 오류)- 1종 오류(Type 1 error) : 귀무가설(H0)이 참일 때 이를 기각하는 오류를 범할 확률 : 귀무가설(H0)이 참일 때 귀무가설을 기각..

[데이터자격시험용-필수요약정리] 2024.04.01

빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

중심극한정리(Central Limit Theorem, CLT)임의의 모집단이 평균이 μ, 표준편차 σ 라고 할 때, 표본의 크기 n이 충분히 크다면1) 모집단의 분포에 상관없이 표본평균( x̄ )의 분포는 N(𝝁, σ² /𝒏 ) 인 정규분포에 근사한다.2) 모집단이 정규분포라면 표본평균( x̄ )은 표본의 크기(n)와 상관없이 항상 정규분포한다.중요한 이유! : 표본평균이 정규분포를 따르면 모집단의 모수를 추정할 수 있게 된다(확률적 근거) 추론통계(Inferential statistics)추정-점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등 추정과 검정1. 추정 : 표본 정보를 이용하여 모수의 실제값을 추측2. 검정 : 모수에 대해 가설을 세우고 표본..

[데이터자격시험용-필수요약정리] 2024.04.01

빅데이터 탐색 - 통계기법이해(포아송분포/정규분포/균일분포/표본분포)

3. 포아송분포- 단위시간/공간 내 발생하는 사건의 횟수를 확률변수 X라고 할 때 (발생 빈도가 낮은 사건)- X~P(λ)으로 표기- 포아송 분포의 확률함수기댓값과 분산- E(X) = λ- Var(X) = λ 2. 연속확률분포- 종류 : 정규분포, 표준정규분포, 균일분포, t-분포, X^2분포, F-분포, 감마분포, 지수분포 1. 정규분포- 가우스 분포라고 부르기도 함- 종 모양의 좌우대칭 분포- 평균, 중앙값, 최빈값이 같음- 평균이 μ, 분산이 σ², 표준편차 σ- 위치는 평균이, 모양은 표준편차가 결정- 첨도 3, 왜도 0 2. 표준정규분포N(0,1)- 평균이 0, 분산이 1인 정규분포 * 정규분포의 확률 계산(아래 면적)- 정규분포를 표준화하여 표준정규분포로 만든다.- 표준정규분포표를 보고 ..

[데이터자격시험용-필수요약정리] 2024.04.01

빅데이터 탐색 - 통계기법이해(확률변수/이산확률분포/베르누이실행)

9. 확률변수 : 표본공간이 정의역, 실수값이 치역인 함수 10. 확률분포- 확률변수의 값과 확률을 대응시켜 표나 그래프로 표현한 것* 확률의 합은 1 11. 이산확률변수/연속확률변수 : 확률변수의 확률함수를 알고 있다면 사건이 일어날 확률을 계산할 수 있다.- 이산확률변수 : 이산점에서 0이 아닌 확률값을 가지는 확률변수- 연속확률변수 : 특정 실수 구간에서 0이 아닌 확률값을 가지는 확률변수 12. 확률변수의 기댓값(평균)1. 이산확률변수2. 연속확률변수기댓값의 성질(X,Y는 확률변수, a,b는 상수)- E(a) = a- E(aX+b) = aE(X) + b- E(aX+bY) = aE(X) + bE(Y) 13. 확률변수의 분산과 표준편차- 분산 : 편차제곱 (X- μ )^2 의 기댓값(평균)Var(X)..

[데이터자격시험용-필수요약정리] 2024.03.31

빅데이터 탐색 - 통계기법이해(사건/확률/베이즈정리)

확률과 확률변수 1. 표본공간(Sample space) : 실험에 의해 나타날 수 있는 가능한 모든 결과의 집합 2. 사건(Events) : 표본 공간의 부분집합 3. 확률의 개념- 표본공간의 부분집합인 사건 A의 확률은 표본공간의 원소 개수에 대한 사건 A의 원소 개수의 비율즉, P(A) = n(A) / n(표본공간), n은 집합에 있는 원소의 수(혹은 경우의 수)앞 예시에서 앞면이 1번 나올 확률은 P(A) = 2 / 4 = 0.5 4. 확률의 공리- 확률실험에서 S를 표본공간, A를 사건이라고 하면 5. 확률의 계산1) 덧셈 법칙 : P(A∪B) = P(A) + P(B) – P(A∩B) * 서로 배반사건이면 P(A∪B) = P(A) + P(B)2) 곱셈 법칙 - 사건 A와 B가 독립이면 P..

[데이터자격시험용-필수요약정리] 2024.03.31

빅데이터 탐색 - 통계기법이해(확률표본과 비확률표본/데이터의 중심)

확률표본과 비확률표본 확률표본 비확률표본- 단순랜덤추출 - 편의 표본추출- 층화추출 - 유의 표본추출- 계통추출 - 지원자 표본추출- 집락추출 - 눈덩이 표..

[데이터자격시험용-필수요약정리] 2024.03.31

빅데이터 탐색 - 통계기법이해(표본추출 방법)

표본추출 방법 1. 단순랜덤추출(Simple Random Sampling)모집단에서 샘플링을 무작위로 함. 규칙없이 랜덤으로 2. 층화추출(Stratified Random Sampling)각각의 층에서 일정비율로 뽑음. ex) 50:50으로 4개 sampling -> 초2 빨2 3. 계통추출(Systematic Sampling)일정한 간격을 두고 데이터를 추출하는 방법 4. 집락추출(Cluster Random Sampling)특정 집락을 선택해서 그 집락을 전수조사 or 일부를 sampling 하는 방법 표본추출 방법(예시)완제품 표본을 10개 뽑는다고 생각해보자.1. 단순랜덤추출 : 무작위로 10개 샘플링2. 층화추출 : 생산 1라인에서 5개, 생산 2라인에서 5개3. 계통추출 : 생산품 5개 당 ..

[데이터자격시험용-필수요약정리] 2024.03.31

빅데이터 탐색 - 통계기법이해

기술통계와 추론통계 1) 기술통계 : 데이터의 모습을 정리/요약/묘사2) 추론통계 : 표본의 통계량을 기초로 모집단의 특성을 추론/검정 기술통계(descriptive statistics)데이터의 중심(중심경향도)- 평균(mean)- 중앙값(median)- 최빈값(mode) 데이터의 산포(산포도)- 분산- 표준편차- 사분위범위(IQR)- 범위- 변동계수 데이터의 퍼진 모양- 왜도(비대칭도)- 첨도(뾰족한 정도) 추론통계(Inferential statistics)추정- 점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등 모집단과 표본대표성 : 표본이 모집단을 잘 대표하려면 대표성을 가져야 함1. 표본의 수 ↑2. 표본추출 방법 1) 단순랜덤추출(Simple..

[데이터자격시험용-필수요약정리] 2024.03.31

빅데이터 결과해석 - 분석결과해석 및 활용(분석결과해석, 분석결과활용)

분석결과 해석 1. 비즈니스 기여도 평가기법- 비즈니스 기여도 : 데이터분석 결과 활용을 통해 실질적으로 얻게 되는 효과- 평가기법 1) 총소유비용(TCO) : 하나의 자산을 획득하려 할 때 주어진 기간동안 모든 연관비용을 고려할 수 있도록 확인하기 위해사용 2) 투자대비효과(ROI) : 자본 투자대비 순 효과 비율 3) 순현재가치(NPV) : 특정 시점의 투자금액과 매출금액의 차이를 이자율까지 고려하여 계산한 값 4) 내부수익률(IRR) : 순현재가치를 "0"으로 만드는 할인율 5) 투자회수기간(PP) : 흑자 전환 시점 분석결과 활용 1. 분석결과 모니터링- 신규 분석 모델이 시스템에 도입되면 원하는 성능이 나오는지 모니터링 해야 함- 데이터의 수명은 유한함(여러 원인들에 의해 ..

[데이터자격시험용-필수요약정리] 2024.03.24

1 2 3 4

인동머스크

" 우리에게는 존재하지 않는 것들을 꿈꿀 수 있는 사람들이 필요하다. " (ADsP / 빅데이터분석기사 / SQLD) https://github.com/Indongspace

vizlab, 인프런, 빅데이터분석기사, 카일스쿨, 코딩테스트, 통계기초, ADsP, 빅분기, mysql, tableau, 시각화, leetcode, 메타코드, hackerrank, 오블완, 프로그래머스, 태블로, 복습, 티스토리챌린지, 데이터자격검정,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인동머스크

데이터자격검정 38

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역