일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- kaggle
- SPARK
- Kaggle #EDA #Regression
- Hadoop
- lazypredict
- 경제신문스크랩
- e-commerce
- fastcampus
- Kaggle_Transcripition
- Data_Engineering
- GCP
- Soft_skills
- regression
- Algorithm_A/B_Test
- Today
- Total
목록전체 글 (55)
AI & Data를 활용하는 기술경영자
API란 무엇일까? Interface란 어떠한 두 가지(사람-사람, 사람-기계,기계-기계)가 서로 연결되고 영향을 미칠 수 있는 장소/방법/상황을 의미합니다. Application Programming Interface의 약자로 응용프로그램 간에 데이터를 주고받는 방법을 의미합니다. 그러한 이유로, api를 쓸 때는 api메뉴얼에 대한 공부를 한 후에 사용하는 것을 권장합니다. 예시: 공공데이터 오픈 API, 증권사 API, 알라딘 API, 카카오 API API는 왜 생겼을까 그리고 장점은? API를 활용해서 다양한 서비스가 나오게 되면 회사의 경쟁력이 악화될 수도 있는데 왜? API를 기업들이 만들었을까? 그 이유는 서비스의 복잡도가 점점 증가하게 되어서 전문적으로 하나의 로직만 만들어서는 되지 않는다..
쉽게 쓸 수 있는 방법: 순차(Grid) 및 임의 탐색법(Randomized Search) 탐색 전략 Overview 탐색 공간내에서 최대값을 찾는 방법으로 측정 횟수와 정확성의 Trade-off 조합 수에 따라: Grid < Randomized < Genetic Search or Bayesian Optimization 선호 Praticle swarm optimization 여러 위치를 동시 측정을 한 후에 위치별 gradient를 확인하여 측정 그룹을 고려한 뒤 다음 측정 위치를 정하기 Grid Search 가장 기본적인 탐색 전략으로 탐색공간 내 설정 범위의 후보 조합을 모두 계산하는 방법으로 Hyper-Parameter 탐색에 많이 사용된다. 확실한 방법일지라도 조합의 수가 많아지면 계산 시간을 고..
패스트캠퍼스 유전적 알고리즘 강의 시청 후 정리를 한 내용입니다. 예측모델 직접 구현하기 전/후방 우선 특성 소거법을 통한 특성 최적화(Feature Engineering) Feature란? 모델에 전달하는 문제 해결의 열쇠이자 우리를 야바위꾼으로 만들지 않게 해주는 요소이다. Feature의 발굴:Domain Knowledge가 반영되는 가장 중요한 부분 머신러닝 알고리즘을 작동하기 위해서 데이터의 도메인 지식을 활용해서 feature를 만드는 과정이다. 도메인 전문가 팀과 긴밀한 협업을 통하고 이때 모델 최종 성능이 상당부분 결정된다. Output과 관련있는 혹은 있을 것은 인자는 모두 선택/발굴한다. Feature의 생성(generation) 및 합성(synthesis) 발굴한 feature를 가공..
Intro DeepFM: A Factorization-Machine based Neural Network for CTR Prediction을 분석하고 정리하였습니다. 그리고 추가적으로, 영화 데이터셋을 활용하여 실습부분도 함께 있습니다. Abstract Click Through Rate(CTR)을 예측하는 모델이다. Low와 High-order feature interactions 모두 학습 가능하다. 저차원과 고차원의 특성을 공유하면서 End to End로 학습이다. 저차원과 고차원의 개별 특성값의 효과를 고려한 후 특성값을 변경함으로써 발생하는 예측값의 변화를 나타낸다. Factorization Machine의 장점과 Deep Learning의 장점을 모두 합친 모델인 DeepFM이다. Wide & ..
패스트캠퍼스 클라우드를 활용한 데이터 파이프라인 구출 Online 강의를 듣고 정리한 것이고 끝 부분에 week2에 대한 후기를 남기겠습니다. Week2의 목표: AWS 서비스 인터넷용 스토리즈 서비스 S3를 이해합니다. 대규모 데이터 레코드 스트림을 실시간으로 수집하고 처리하는 Kinesis Stream을 사용해봅니다. 1주차에 배운 데이터 온프레미스 수집방법과 클라우드상에서 데이터 수집방법 차이를 살펴봅니다. Week2의 실습: AWS패키지들을 이용한 데이터 수집 실습 Api-GateWay, Kinesis Stream, Firehose, S3의 이해 API Gateway 어떤 규모에서든 개발자가 API를 생성, 게시, 유지 관리, 모니터링 및 보호할 수 있게 해주는 AWS 서비스 모바일 및 웹 애플리..
일자: 2022/07/04~2022/07/13 패스트캠퍼스 클라우드를 활용한 데이터 파이프라인 구출 Online 강의를 듣고 정리한 것이고 끝 부분에 week1에 대한 후기를 남기겠습니다. Week1의 목표: 데이터 수집~분석~시각화에 이르는 분석의 기반이 되는 데이터 파이프라인의 흐름에 대해서 이해하고 이를 구성하는데 필요한 서비스의 각각의 용어와 의미에 대해서 알아봅니다. Week1의 실습: Kafka실습을 통해서 온프레미스(기존에 서버 호스팅방식)와 클라우드 환경에서의 데이터 수집의 차이를 살펴봅니다. Chapter 00 용어 맛보기 온프레미스 자사의 데이터센터를 두고 시스템 구축부터 운영까지 수행하는 형태 자체 구축 운용, 자체 보유 인프라 환경 내부에 구축된 인프라로 정보시스템을 사용자 자신이 ..