본문 바로가기
반응형

IT - DATA8

[데이터 엔지니어링] 01-2. 데이터 엔지니어링 개요 04. 데이터 파이프라인 데이터 파이프라인이란 데이터를 한 장소에서 다른 장소로 옮기는 것을 의미 API → Database Database → Database Database → BI Tool 데이터 파이프라인이 필요한 경우 다양한 데이터 소스들로부터 많은 데이터를 생성하고 저장하는 서비스 데이터 사일로: 마케팅, 브랜딩, 어카운팅, 세일즈, 오퍼레이션 등 각 영역의 데이터가 서로 고립되어 있는 경우 (통합 필요) 실시간 혹은 높은 수준의 데이터 분석이 필요한 비지니스 모델클라우드 환경으로 데이터 저장 데이터 아키텍쳐시 고려사항 API (데이터 추출) → AWS Lamda (DATA Processing) → Amazon S3(저장소) → 분석 → BI (Visualization) 데이터 파이프라인 구축.. 2022. 10. 20.
[데이터 엔지니어링] 01-1. 데이터 엔지니어링 개요 01. 데이터 엔지니어링 필요성 문제 해결을 위한 가설 검증 단계 모든 비즈니스는 동일한 데이터 분석 환경을 갖출 수 없으며 성장 단계에 따라 선택과 집중해야 하는 분석 환경이 다르다. ✅ 비즈니스 성장에 따라 갖추어야 할 3가지 고려사항 Custom 환경 Automation Data Integration 02. 데이터 아키텍쳐시 고려사항 데이터아키텍처(DA, Data Architecture)란, 전사적인 관점에서 데이터를 수집, 저장, 통합하며 이를 체계화 하는 것이다. (1) 비즈니스 모델 상 가장 중요한 데이터는 무엇인가? 어떤 데이터에 집중해야 하고, 어떤 가치를 만들어 내야할 것인가 가 먼저 선행되어야 하며, 데이터 비용/시간 대비 비즈니스 임팩트가 가장 높은 데이터 확보를 목표로 데이터 아키텍.. 2022. 10. 19.
[데이터 분석] 06. 로지스틱 회귀 고객 재구매 여부가 마이너스 값이 나오는데 뭐가 잘못된거죠? ※ 원인과 결과 간 관계 분석법 - 회귀 방법론 - 분류 방법론 결괏값이 수치형으로 나오는 경우 회귀 방법론을 사용한다. (정수, 음수, 분수, 소수) 회귀 방법론에는 t-검정, 분산 분석, 선형 회귀 등이 있으며 선형회귀가 대표적인 방법론이다. ※ 종류 - t-검정 - 분산분석 - 선형회귀 결괏값이 범주형으로 나오는 경우 분류 방법론을 사용한다. (순위나 서열 표시를 위해 숫자를 사용하는 경우-우편변호, 내신등급, 재구매 여부 - 재구매 or 재구매 x 2경우 밖에 없으나 결과를 알 수 없으니 재구매 확률로 보여주는 것 등) 분류 방법론에는 로지스틱 회귀, 판별분석, 서프트 벡터 머신, 의사결정 나무, k-최근접 이웃 등이 있으며 다양한 방법.. 2022. 10. 4.
[데이터 분석] 05. 변수와 상관관계 데이터를 마구 집어넣어도 될까? Q4. IT지원 팀장) 인과관계와 상관관계를 구분해야한다고 했어요. 상관관계가 있는 변수가 들어가 있다고도 하고요. A. 맞아요. 데이터 분석은 주로 숫자를 분석하는데 숫자의 종류는 크게 변수와 상수로 나뉩니다. ㄴ 변수: 변하는 수 ㄴ 상수: 변하지 않는 수 ※ 변수 ㄴ X 독립변수: 다른 변수에 영향 X (독립변수가 2개이상일 경우 다중선형회귀라고 함) ㄴ Y 종속변수: 다른 변수로부터 영향 O (종속변수가 2개이상일 경우 다변량이라고 함) ※ 변수의 데이터 형태에 따라 ㄴ 범주형: 질적 변수 (이름, 지역) = 문헌연구, 법,제도에 관한 연구, 전문가 의견을 듣는 델파이 기법 사용한 연구 ㄴ 수치형: 양적 변수 (나이, 온도) = 정량적 분석 데이터 분석 - 인과 /.. 2022. 9. 30.
[데이터 분석] 04. 데이터 수집 - 양적요인 vs 질적 요인 이전 포스팅에 이어서,, https://make-extra-money.tistory.com/3 선형회귀: 데이터 분석결과에서 어떤 것을 봐야할까? 앞으로는 통계학에 근거하여 데이터 분석과 분석결과를 해석하는 방법에 대해 알아보도록 한다. 예측: 결과를 맞추는 것 추론: 원인과 결과 간 관계 파악 (데이터 분석 근거한 추론 - 방향의 기 make-extra-money.tistory.com 점주역량이 매출에 가장 큰 영향을 준다고 했는데 물론 관리자의 역량이 중하겠지만, 점주역량을 측정한 데이터가 없다.. 게다가 결과대로라면 매장크기를 계속 늘리면 매출도 무한정 는다는 뜻이 될텐데.. 어딘가 문제가 있어보인다.. 분석 결과 이대로 보고해도 되는걸까...? 분석결과가 상식적으로 좀 안 맞는데요? 그렇다. 매장.. 2022. 9. 30.
[데이터 분석] 03. 선형회귀 - 데이터 분석결과에서 어떤 것을 봐야할까? 앞으로는 통계학에 근거하여 데이터 분석과 분석결과를 해석하는 방법에 대해 알아보도록 한다. 예측: 결과를 맞추는 것 추론: 원인과 결과 간 관계 파악 (데이터 분석 근거한 추론 - 방향의 기울기나 현상의 변화 정도를 구체적인 값으로 제시할 수 있다) 선형회귀: 데이터 분석 결과에서 대체 뭘 보라는 겁니까? 분산분석 (ANOVA: Analysis of Variance) Parameter Estimates 유의확률 (p-value/Pr/Prob) 결정계수(R²) 개별요인의 유의확률 계수(Parameter Estimates) 1. p-value(유의확률): 모형을 신뢰해도 되는지 확인할 때 필요 (분석결과의 유의성 확인하는 첫번째 절차) 유의확률 (p-value/Pr/Prob): 귀무가설이 맞다고 가정할 때 .. 2022. 9. 30.
반응형