분류 전체보기 197

가독성을 챙기기 위한 SQL 스타일 가이드

1. 예약어는 대문자로 작성 SQL 에서 문법적인 용도로 사용하고 있는 문자들은 대문자로 작성예약어의 대표적인 예시 : SELECT, FROM, WHERE, 각종 함수SELECT colFROM tableWHERE   2. 컬럼 이름은 snake_case 로 작성컬럼 이름은 CamelCase가 아닌 snake_case로 작성(단, 회사의 기준이 CamelCase면 사용. 일관성이 중요)SELECT col1 AS event_statusFROM table   3. 명시적 vs 암시적인 이름Alias로 별칭을 지을 때는 명시적인 이름을 적용AS a, AS b 등 컬럼의 의미를 한 번 더 생각하게 하는 이름이 아닌 명시적인 것을 사용JOIN 할 때 테이블의 이름도 명시적으로 할 수 있다면 명시적으로 진행하기AS를..

[Other skills] 2024.05.11

GCE + Git + Github 연동 & Github Actions (2)

https://indong1998.tistory.com/49 VM인스턴스 -> 인스턴스 만들기 - 인스턴스의 이름과 리전을 설정했다. 나머지는 디" data-og-host="indong1998.tistory.com" data-og-source-url="https://indong1998.tistory.com/49" data-og-url="https://indong1998.tistory.com/49" data-og-image="https://scrap.kakaocdn.net/dn/bZtvT0/hyVSTpwxNf/jptkkfbwaNQBVjS48xTeQk/img.png?width=800&height=589&face=0_0_800_589,https://scrap.kakaocdn.net/dn/cvzkBT/hyVPY..

[Other skills] 2024.04.19

GCE + Git + Github 연동 & Github Actions (1)

- 구글 클라우드 플랫폼에서 프로젝트를 하나 생성한다.- Compute Engine API 사용하기를 클릭한다.  - Compute Engine -> VM인스턴스 -> 인스턴스 만들기- 인스턴스의 이름과 리전을 설정했다. 나머지는 디폴트 값으로 선택하고 페이지 창을 내려본다.  - 부팅 디스크 변경 -> 운영체제 Ubuntu 선택하고 나머지는 디폴트 -> 선택  - 모든 Cloud API에 대한 전체 엑세스 허용 -> HTTP 트래픽 허용 -> HTTPS 트래픽 허용 -> 만들기  - 인스턴스가 제대로 만들어진 걸 확인 후 -> 네트워크 세부정보 보기 클릭- VPC 네트워크 -> 방화벽 클릭 -> 방화벽 규칙 만들기 클릭  - 이름을 설정(필자는 'instance-0419-firewall'로 설정했다.)..

[Other skills] 2024.04.19

빅데이터 분석기획 - 데이터수집 및 저장계획

데이터 수집 및 전환 1. 데이터 수집★ 데이터 유형에 따른 빅데이터 수집기법(★) - 종류 꼭 기억해두기!1. 정형데이터2. 반정형데이터3. 비정형데이터  2. 데이터 변환- ETL : DW, DM에 저장하기 위해 Extract(추출), Transform(변환), Load(적재) 하는 기술           데이터 이동 및 변환이 주 목적임  3. 데이터 비식별화- 5가지 처리기법 및 예시까지 외우기!(★)  4. 데이터 품질검증정형데이터의 품질기준(5가지 암기!)1. 완전성 : 데이터 누락이 없어야 함2. 유일성 : 데이터 중복이 없어야 함3. 유효성 : 정해진 데이터 범위 혹은 도메인을 만족해야 함4. 일관성 : 데이터 구조, 형태가 일관되어야 함5. 정확성 : 실제 객체의 표현값을 정확히 반영해야..

빅데이터 분석기획 - 데이터 분석 계획

분석방안 수립 1. 분석의 기획최적화(Optimization)- 대상/방법을 알고 있기 때문에 문제를 최적화인사이트(Insight)- 대상을 모르고 방법은 알고 있는 상태로 인사이트를 얻을 수 있음솔루션(Solution)- 대상은 알고 방법은 모르기 때문에 솔루션을 찾아 분석을 수행함탐색(Discovery)- 대상/방법 둘 다 모르기 때문에 탐색을 통해 분석대상을 찾아야 함  ※ 분석 거버넌스 체계: 데이터 분석 업무를 고도화 하기 위해서는 데이터 분석 및 활용이 가능할 수 있도록 체계적인 관리가 중요함 구성요소1. Organization(분석기획/관리 수행조직)2. Process(과제기획 및 운영 프로세스)3. System(데이터분석 관련 시스템)4. Data5. Human Resource(교육/마인드..

빅데이터 분석기획 - 빅데이터의 이해

빅데이터 개요 및 활용 1. 빅데이터 : 대용량의 자료(정형/비정형 데이터) -> + 데이터에서 가치 추출/의사결정에 활용 2. 빅데이터 3V(7V) 특징 - 가트너 그룹 3. 정형/반정형/비정형 데이터 특징(★) 4. 정성적/정량적 데이터  ※ 참고사항 : 데이터 바이트 크기  5. 암묵지와 형식지※ 암묵지와 형식지의 상호 작용  - 내면화(형식지->암묵지) : 문서를 개인의 지식으로  - 공통화(암묵지->암묵지) : 개인->조직으로 지식공유  - 표출화(암묵지->형식지) : 지식을 문서화  - 연결화(형식지->형식지) : 형식지를 결합하여 새로운 지식 생성 6. DIKW 피라미드 : 데이터-정보-지식을 통해 최종 지혜를 찾아가는 과정- Wisdom(지혜) : A마트가 다른 상품들도 쌀 것이라고 판단-..

빅데이터 탐색 - 데이터전처리(분석변수처리)

분석 변수 처리 3. 파생변수   1 파생변수 : 분석가가 주관적으로 만든 변수(의미부여) -> 주관적으로 만든 변수이기 때문에 논리적으로 타당해야 함   2 요약변수 : 합계, 횟수, 빈도 등의 기본적인 요약 변수, 많은 모델에서 공통으로 사용할 수 있어 재활용성이 높음 4. 변수변환   1 변수의 구간화 : 연속형 변수를 다수의 구간으로 나눔(구간=변수가 된다)       - ex) 점수 70~100점 -> 1등급 : 90~100점                                             2등급 : 80~89점                                             3등급 : 70~79점    2 더미변수(Dummy Variable)    3 원-핫 인코딩..

빅데이터 탐색 - 데이터전처리(차원축소/피처 추출방법)

2. 차원축소 : 변수의 개수를 줄여서 새로운 차원의 데이터를 생성   * 선형모델(회귀분석 등) 변수의 개수가 많을 경우 다중공선성 발생 -> 차원축소가 하나의 해결책   1 피처선택(Feature Selection) = 변수선택      - 여러 변수들 중에 학습에 중요한 변수를 찾아 선택하는 것   2 피처추출(Feature Extraction) = 변수추출      - 기존 변수들 간의 관계를 파악해서 선형 or 비선형 결합을 통해 새로운 변수를 생성 피처추출(Feature Extraction) 방법다차원 척도법(MDS, Multidimensional scaling)- 개체들 사이의 유사성을 기준으로 2차원, 3차원으로 시각화 주성분 분석(PCA)- 변수의 선형 결합을 통해 데이터를 잘 표현할 수..