분류 전체보기 196

빅데이터 모델링 - 분석기법적용 (회귀분석/다중회귀분석)

지도학습 - 회귀(Y:연속형)회귀분석- 독립변수(X)가 종속변수(Y)에 어떻게 영향을 주는지 식으로 표현한 것, Y = 𝜷𝟎 + 𝜷𝟏X- 특징 : 식을 보고 설명이 가능함, 가장 적은 수의 X로 Y를 예측할 수 있어야 함수식으로 표현하면판매수 = 𝜷𝟎 + 𝜷𝟏온도Y = 𝜷𝟎 + 𝜷𝟏X  값이 최소가 되는 최적의 𝜷𝟎, 𝜷𝟏를 구하면 된다. -> 최소제곱법이라고 부름#RSS : Residual Sum of Squares 회귀분석의 가정1. 선형성 : 독립변수(X)와 종속변수(Y) 간의 선형성 2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)  - 등분산성 : 산점도  - 정규성 : H0(귀무가설) : 정규분포를 따른다                  H1(대립가설) : not..

빅데이터 모델링 - 분석모형 설계

기계학습(머신러닝)지도학습 회귀 : 선형회귀분류 : 로지스틱회귀/ 판별분석/ 나이브베이즈회귀/분류 모두 가능 : 의사결정나무/ 랜덤포레스트/ K-NN/ SVM(서포트벡터머신)/ 인공신경망/ 앙상블(배깅,부스팅) 비지도학습 군집화 : 계층적(최단/최장/평균/와드)/ 비계층적(K-means등) #군집개수 정하면 비계층적차원축소 : 주성분분석(PCA)연관규칙자기조직화지도(SOM) 강화학습Q-러닝 분석모형설계데이터분할1) 하는 이유 : 분석 모델의 일반화 성능을 좋게!(과적합X)  - 일반화 성능 : 훈련모델의 실제 사용시 성능  - 과적합(Overfitting) : 학습(Train) 데이터를 과하게 학습하여 평가(Test) 데이터 입력시 성능이 떨어지는 것 2) 데이터 설명Train(훈련) : 알고리즘 학습V..

Git 브랜치의 생성과 checkout , 분산관리 시스템

현업에서는 main branch 에서 작업을 한 git repository를 다른 팀원들과 공유를 하게 되는데(git clone 파일 생성) ,만약 메인 개발자가 아닌 팀원이 code를 수정/추가 할 때 ,git repo를 배포한 메인 개발자가 바뀐 commit을 확인하고 git commit, git push를 허용하여 git repo를 수정하게 된다. 그러나 예를 들어, 팀원이 git repo에 있는 기술 code를 연습 및 숙지하게 될 경우, code의 자유로운 조작/수정/삭제가 불가피하다.이럴 때 파일의 git bash를 열어 main branch를 팀원이 생성한 새로운 branch로 이동하여 vscode를 열 경우, main branch가 아니기 때문에 팀원은 commit 메시지를 메인 개발자에게..

[Other skills] 2024.02.08

dotenv를 이용한 API키 숨기기

공공데이터를 활용할 때 개인 인증키를 발급받아 데이터에 접근하게 되는데, 이 인증키는 비밀번호처럼 외부에 노출되어서는 안되는 정보이다. 하지만 프로젝트 파일을 깃허브에 Public으로 업로드하거나,  대시보드를 만들 때 내가 작성한 코드 안에 직접적으로 이 API키가 입력되어있으면 노출될 수 있다. python-dotenv를 이용하여 이 API키를 숨기는 방법을 알아보자. (시나리오 : 프로젝트 제작 과정 중에 있다.)  1. GitHub에서 프로젝트 레포 생성  프로젝트를 진행할 레포를 생성한다. 여기에서 .gitignore파일을 꼭 생성해야 한다!나의 Repository name : 'temprepo-dotenv-practice-' 으로 설정했다.  2. 로컬에 레포의 클론 폴더 생성  터미널을 열어..

[Other skills] 2024.02.02

[PlayGround S4E1] 데이터분석(EDA)

https://www.kaggle.com/code/akhiljethwa/playground-s4e1-eda-modeling-xgboost [PlayGround S4E1] 📊 EDA + 🤖 Modeling [XGBoost]Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com연습 데이터 출처  [Kaggle] 30대와 40대 이탈 고객의 특징 비교분석 (Playground S4E1) (tistory.com) [Kaggle] 30대와 40대 이탈 고객의 특징 비교분석 (Playground S4E1)# 프로젝트 개요 주제: 30대와 40대 이탈 고객의 특징 비..

[Kaggle] 2024.01.17

통계검정 복습

'누구나 파이썬 통계분석' p.294 ## 문제상황- 편의점 감자튀김(무게 130g)- 무게 하나 잼. 122.02g- 2주간 매일 감자튀김 무게 잼  + 14개 표본의 평균 = 128.451g ## 질문- 어떤 통계 검정 방법을 사용해야 할까?  + t-test, one sample t-test  + 표본 14개 ==> 정규성 검정 진행 후, 통과할때 one sample t-test- 귀무가설과 대립가설을 설정해보세요  + 귀무가설 : 모평균(130g)과 표본평균(128.451g)과 같다  + 대립가설 : 모평균과 표본평균은 같지 않다. (양측검정)  + 대립가설 : 모평균 > 포본평균 (단측검정) # 기본코드!pip install scipyimport scipyscipy.__version__ # 버전..