일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Algorithm_A/B_Test
- regression
- kaggle
- Hadoop
- SPARK
- 경제신문스크랩
- lazypredict
- GCP
- Kaggle #EDA #Regression
- e-commerce
- Data_Engineering
- Soft_skills
- Kaggle_Transcripition
- fastcampus
- Today
- Total
목록전체 글 (55)
AI & Data를 활용하는 기술경영자
Intro 추천시스템 톺아보기에선 추천시스템의 전반적인 흐름을 파악했다면, 이번에는 전통적인 추천시스템 알고리즘에 대해서 설명합니다. 콘텐츠기반 추천시스템 알고리즘을 알아보기 전 '콘텐츠'에 대해서 알아봅니다. 콘텐츠란? 추천시스템을 구축하기 위해서 사용되는 데이터로 Item Profile과 User Profile등이 있다. Item Profile Item을 set of features로 표현한다. 영화,작가,제목,배우, 키워드,TF-IDF를 Sample features라고 한다. Item의 여러 특성을 attributes, features라고 한다. 여러 특성을 분석하여 구성된 목록을 바탕으로 가중치를 부여하여 정량화한다. Item 설명은 text features이므로 text preprocessing..
Intro Killing Time 지킴이 결정 장애 해소, 고객의 만족도 향상 등 우리의 삶 속에서 깊이 스며든 추천 시스템에 대해서 어렵지 않게 이야기해보려고 합니다. 추천 시스템과 친해지기 추천 시스템을 알려면 해야 할 것은 추천 시스템의 역사, 정의, 특징, 활용 예시, 한계. 등등을 알아야겠죠? 등장 이유 우리는 현재 인터넷이라는 수많은 정보가 쏟아지는 공간에서 삽니다. 물론, 이로 인해서 편리성을 얻기는 했지만 때로는 수많은 정보와 데이터로 인해서 선택의 연속의 삶을 살고 있고 더 나아가 적절한 결정을 내리기 어려웠던 경험들이 있다고 생각합니다. 예시: 오늘 무슨 프로그램을 볼까? , 저녁은 뭐 먹지? , 오늘 뭐를 먼저 해야 하지?, 무슨 선물을 사지?, 이 옷 이쁠까?.. 등등 그로 인해서,..
회귀(Regression) *정의: 주어진 데이터(X, input data[feature vector])와 찾고 싶은 값(y, target value[real value]) 사이의 관계를 찾아서 모델링하는 것이다. *특징 - input data(독립변수)로 target value(종속변수)를 예측하는 것을 목표로 하고, 이를 위해서 관계식을 작성하고 이를 통해 모델링을 하는 것이 분석의 목표이다. - 머신러닝 모델이 관계식을 찾게 되면, 해당 관계식에 test data를 inference한 결과가 예측 값(결과값)이다. - 지도학습이기에, target value를 찾는 방향으로 학습이 진행된다. 수식과 코드로 보는 회귀분석 %config InlineBackend.figure_formats = {'png'..
Intro 코드와 함께 수학적인 내용을 정리하면 두 번 복습하는 효과가 있다는 것을 알리기 위해서 작성하게되었습니다. 목차 1. 통계적 가설검정 2. 2표본 문제- 독립비교 t검정 3. 월콕슨의 부호검정 4. 만, 위트니의 U검정(Mann-Whitney rank test) 5. 카이제곱검정 통계적 가설검정(Statistical Hypothesis Testing) 모집단의 모수에 관하여 두 가지 가설을 세우고, 표본으로부터 계산되는 통계량을 이용하여 가설이 옳은지 판단하는 통계적 기법이다. 대립가설(H1, Alternative Hypothesis):유의미한 차이 혹은 효과가 있다는 것을 주장하고 싶은 가설이다. 귀무가설(H0, Null Hypothesis): 대립가설의 반대되는 개념이다. 예시: 정책으로 ..
주제: 패스트 캠퍼스 강의 구매 데이터를 통해서 고객군 분석과 구매 내역 분석을 통해서 구매자의 패턴 파악하기 이번 블로그에서는 데이터를 분석하기 위해서 알아야할 도메인 지식을 포스팅한 것입니다. 깃허브 코드 GitHub - qsdcfd/Data_Hackthon Contribute to qsdcfd/Data_Hackthon development by creating an account on GitHub. github.com 패스트 캠퍼스 기업 분석 패스트 캠퍼스는 교육의 가치를 아는 기업으로 교육을 통해서 변화와 성장을 바라는 이들에게 기회의 창구가 될 곳인 것 같습니다. 세상의 빠른 변화로 인해서, 대학의 지식만으로는 변화하는 기술을 따라갈 수 없기에 학습의 꾸준함이 필요한 시대가 도래했습니다. 이러한..
최종 코드 GitHub - qsdcfd/kaggle Contribute to qsdcfd/kaggle development by creating an account on GitHub. github.com 캐글 필사하면서 배우게 된 것을 정리한 것입니다.(2022.04.25 ~ 2022.05.06) Intro Home Credit은 고객의 상환 능력을 예측하기 위해 통신 및 거래 정보를 포함한 다양한 대체 데이터와 다양한 통계 및 기계학습 방법을 이용하여 상환 능력이 있는 고객들이 거절당하지 않고 대출자들에게 성공하기 위한 원금, 만기, 상환 달력이 주어지도록 만드는 것이 목적입니다. ROC curve 톺아보기 FPR(false positive rate): 0인 케이스에 대해 1로 틀리게 예측하는 비율(1..