일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- e-commerce
- lazypredict
- Soft_skills
- GCP
- Hadoop
- 경제신문스크랩
- SPARK
- Data_Engineering
- fastcampus
- Kaggle_Transcripition
- Kaggle #EDA #Regression
- kaggle
- regression
- Algorithm_A/B_Test
- Today
- Total
목록Data Engineering (10)
AI & Data를 활용하는 기술경영자
패스트캠퍼스 한 번에 끝내는 빅데이터 처리 with Spark & Hadoop 강의를 듣고 정리한 것입니다. 빅데이터 플랫폼을 만드는다는 것은 아래와 같은 과정을 거치는 것이고 상황에 따라서 쓰는 프로그램은 다르다. Data Source Data의 종류 정형(Structured) 데이터 RDBMS, 스프레드시트(excel,csv,테이블의 형태) 비정형(Unstructured) 데이터 텍스트, 이미지, 음성, 영상 반정형(Semi-Structured) 데이터 JSON, XML, 웹 로그, 센서 데이터 Data Source의 종류 데이터베이스 OLTP(Transactional App)[현재 데이터] 정규화된 데이터가 주로 쓰이므로 테이블이 많고 트랜잭션이 많기에 빠른 처리가 필요하다. OLAP(Analyti..
패스트캠퍼스의 한 번 끝내는 빅데이터 처리 with Spark & Hadoop강의를 듣고 정리를 했습니다 빅데이터의 탄생 배경 수없이 들은 빅데이터, 이것이 왜 중요할까요? 아마, 이 예시를 보면 알 수 있을 것입니다. Google 570만의 검색 Facebook 24만 건의 사진 공유 Amazon 사용자가 28만 달러 어치 구매 slack 15만 간의 메시지 전송 Twitter 57만 건의 트윗 Tiktok 1억 6천만 건 이상의 비디어 시청 위의 표는 분당 발생하는 데이터의 수입니다. 이 데이터가 하루에 쌓이는 양, 한 달에 쌓이는 양, 연간 쌓이는 양은 어마무시 할 것입니다. 그러나, 기존의 방식대로 한다면 대량의 데이터를 수집, 저장, 분석 그리고 처리를 할 수 없습니다. 그러나, 저 데이터 안에..
패스트캠퍼스 클라우드를 활용한 데이터 파이프라인 구출 Online 강의를 듣고 정리한 것이고 끝 부분에 week2에 대한 후기를 남기겠습니다. Week2의 목표: AWS 서비스 인터넷용 스토리즈 서비스 S3를 이해합니다. 대규모 데이터 레코드 스트림을 실시간으로 수집하고 처리하는 Kinesis Stream을 사용해봅니다. 1주차에 배운 데이터 온프레미스 수집방법과 클라우드상에서 데이터 수집방법 차이를 살펴봅니다. Week2의 실습: AWS패키지들을 이용한 데이터 수집 실습 Api-GateWay, Kinesis Stream, Firehose, S3의 이해 API Gateway 어떤 규모에서든 개발자가 API를 생성, 게시, 유지 관리, 모니터링 및 보호할 수 있게 해주는 AWS 서비스 모바일 및 웹 애플리..
일자: 2022/07/04~2022/07/13 패스트캠퍼스 클라우드를 활용한 데이터 파이프라인 구출 Online 강의를 듣고 정리한 것이고 끝 부분에 week1에 대한 후기를 남기겠습니다. Week1의 목표: 데이터 수집~분석~시각화에 이르는 분석의 기반이 되는 데이터 파이프라인의 흐름에 대해서 이해하고 이를 구성하는데 필요한 서비스의 각각의 용어와 의미에 대해서 알아봅니다. Week1의 실습: Kafka실습을 통해서 온프레미스(기존에 서버 호스팅방식)와 클라우드 환경에서의 데이터 수집의 차이를 살펴봅니다. Chapter 00 용어 맛보기 온프레미스 자사의 데이터센터를 두고 시스템 구축부터 운영까지 수행하는 형태 자체 구축 운용, 자체 보유 인프라 환경 내부에 구축된 인프라로 정보시스템을 사용자 자신이 ..