일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Kaggle #EDA #Regression
- lazypredict
- fastcampus
- Algorithm_A/B_Test
- Data_Engineering
- Hadoop
- Soft_skills
- GCP
- e-commerce
- SPARK
- regression
- Kaggle_Transcripition
- kaggle
- 경제신문스크랩
- Today
- Total
목록전체 글 (55)
AI & Data를 활용하는 기술경영자
기간: 2022.05.03 ~ 2022.05.10 Q11) 중심극한 정리는 왜 유용한가? Intro 정규분포는 중앙치에 사례 수가 모여있는 형태입니다. 정의 동일한 확률 분포를 가지면서 독립 확률인 n개의 확률변수의 평균 분포가 점점 커지면 정규 분포에 가까워집니다. *이미지로 보는 중심극한 정리 모습 개인적인 질문) 왜 이게 중요할까? 이유: 중심극한정리로 인해서 모집단의 형태에 상관없이 표본 평균의 분포가 정규분포를 따르게 되고 이로 인해 Z깂을 통한 확률값을 구할 수 있게 됩니다. 다시 말하자면, 모집단의 형태가 난해해도 수학적 확률 추정을 할 수 있게 된 것입니다. Q12)엔트로피와 정보이득란? 정의1 엔트로피: 주어진 데이터의 혼잡도를 바탕으로 데이터가 어떤 클래스에 속할 확률에 대한 기댓값으로..
기간: 2022.05.04~ Github GitHub - qsdcfd/Kaggle-Competition-Prediction Contribute to qsdcfd/Kaggle-Competition-Prediction development by creating an account on GitHub. github.com 대회 사이트 JPX Tokyo Stock Exchange Prediction | Kaggle www.kaggle.com 분석과제 정의서 분석명 분석정의 소스 데이터 데이터 입수 난이도 분석방법 정형 데이터 와 시계열 데이터 하(Kaggle) EDA, Regression 분석 적용 난이도 분석적용 난이도 사유 분석 주기 분석결과 검증 Owner 상 시계열 데이터 daily 알고리즘 A/B TES..
기간:2022.04. 26 ~ 2022.05.03 Q6. 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요. 공분산은 X와 Y의 선형관계를 이룬다고 했을 때, X의 증감이 Y의 증감 경향을 측정하는 것으로 쉽게 말하면, 확률변수의 흩어진 정도를 말할 수 있습니다. 즉, 두 변수간의 양의 상관관계가 있는지 음의 상관관계가 있는지에 대한 정도를 아래의 그림처럼 알려주지만 그림처럼 둘 사이의 상관관계가 얼마나 큰 지는 알 수 없습니다. *공식 설명* 개인적인 질문) 왜? 공분산이 상관관계의 크기를 알 수 없던 이유! 공분산은 확률변수의 단위가 클수록 잡지 못하는 경향성을 보였기에 큰 단위의 경우 상관관계를 보지 못했습니다. 그래서, 그것을 극복하기 위한 개념인 상관계수가 등장하게 되었습니다. 상관계수(..
기간:2022.04.19 ~ 2022.04.26 Question 1: 고유값(eigen value)와 고유벡터(eigen vector)이 무엇이고 왜 중요한지 설명해주세요. 고유값, 고유 벡터에서 "벡터의 평행" 과 "선형변환"이라는 단어가 자주 나옵니다. 그래서 고유값과 고유벡터를 이야기하기 전에 벡터의 평행과 선형 변환에 대한 정의를 잡고 가겠습니다. 벡터의 평행: 영벡터가 아닌 두 벡터 가 같은 방향이거나 반대 방향일 때, 와 는 서로 평행하다고합니다. 선형변환: 벡터에서 사칙연산을 하는 개념으로, 이를 통해서 위치나 방향이 바뀌게 되는 것을 의미합니다. 이제 고유벡터와 값에 대한 설명을 드리겠습니다. 정방행렬 A에 벡터 x를 곱하면 기존의 방향과 평행하지 않은 벡터가 생성이 됩니다. 그러나 고유벡..
코드 링크 날짜: 2022.04.19 ~ Intro 보스턴 주택 가격 데이터를 먼저 EDA부터 적합한 회귀 모델을 찾으려는 과정을 블로그에 담았습니다. 허나, 단순히 코드만 나열하는 것보단 이 속에서 볼 수 있는 수리 통계적 개념과 회귀의 정의와 대표적인 모델을 설명하려고 합니다. 앞으로도 캐글을 공부한 내용을 수리적 개념과 모델의 내용을 정리하는 블로그를 진행하려고 합니다. 코드 전개 순서 1. EDA 2. 가설 설정 3. 가설 확인 4. 캐글 속 확통 5. 4가지 머신러닝 회귀 모델 EDA(Exploratory Data Analysis) 상세한 코드 내용은 링크를 통해서 봐주시길 바랍니다. 목표: 주택 가격과 관련있는 요소 찾기 1. 데이터 타입과 결측값 확인 *데이터 타입 확인 이유: csv파일 내..
1년 안에 AI 빅데이터 전문가가 되는 법을 읽고 정리한 것입니다. 데이터 사이언티스트가 가져야할 soft skills과 Technical skills에 대한 조언과 로드맵입니다. 이번 블로그는 실생활 과 회사에서 AI가 어떻게 활용되고 있는지 ~ 데이터 마이닝 기본 쌓기를 위한 서적과 공부법 추천을 정리한 것입니다. STEP1. AI의 인문학적 실제 사례(경영학적 관점) 빅데이터 기초: 개념, 동인, 기법(시그마 프레스) 인공지능 시대의 비지닛 전략(더 퀘스트) 빅데이터가 만드는 4차 산업혁명(북카라반) 빅데이터 비지니스 이해와 활용(위즈하임) 빅데이터 분석과 활용(학지사) *지하철 통학을 하면서 하루에 2시간 정도 한 권씩 차례대로 읽어 나갈 것입니다.* STEP2. 데이터 마이닝 알고리즘(데이터 분..