일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 경제신문스크랩
- kaggle
- Data_Engineering
- lazypredict
- regression
- Algorithm_A/B_Test
- Kaggle_Transcripition
- SPARK
- e-commerce
- fastcampus
- Soft_skills
- Kaggle #EDA #Regression
- GCP
- Hadoop
- Today
- Total
AI & Data를 활용하는 기술경영자
빅데이터 처리(Spark & Hadoop) 본문
패스트캠퍼스의 한 번 끝내는 빅데이터 처리 with Spark & Hadoop강의를 듣고 정리를 했습니다
빅데이터의 탄생 배경
수없이 들은 빅데이터, 이것이 왜 중요할까요?
아마, 이 예시를 보면 알 수 있을 것입니다.
570만의 검색 | |
24만 건의 사진 공유 | |
Amazon | 사용자가 28만 달러 어치 구매 |
slack | 15만 간의 메시지 전송 |
57만 건의 트윗 | |
Tiktok | 1억 6천만 건 이상의 비디어 시청 |
위의 표는 분당 발생하는 데이터의 수입니다.
이 데이터가 하루에 쌓이는 양, 한 달에 쌓이는 양, 연간 쌓이는 양은 어마무시 할 것입니다. 그러나, 기존의 방식대로 한다면 대량의 데이터를 수집, 저장, 분석 그리고 처리를 할 수 없습니다.
그러나, 저 데이터 안에는 빠르고 더 나은 의사 결정을 지원, 새로운 전략과 제품 구축, 고객에 관한 통찰력 향상 및 가까운 미래를 예측하고, 새로운 개회를 창출할 수 있는 정보를 담고 있기에 중요합니다.
그래서, 생긴 아이디어가 저 많은 양을 처리하여 가치를 추출하고 결과를 분석하는 '빅데이터 처리'라는 기술 및 개념이 도래하게 됩니다.
실제로, 대부분의 기업은 빅데이터를 활용하기 위해서 데이터 분석과 예측을 위한 플랫폼 구축이 필요합니다.(이렇게 하기 위해선, 분석과 예측을 위한 프로그램(Presto,Superset..등등) 연동 및 데이터를 잘 모으고 관리(ETL) 작업이 필요하다.)
소셜 네트워킹 분석 및 광고 최적화 | |
Amazon | 고객 제품 추천 |
Netflix | 컨텐츠 추천 |
Uber | 예측을 통한 배차 시스템 최적화 |
빅데이터를 처리하고 저장하는 것을 단순히 로컬에서 가능할까요? 그렇지 않습니다.
그렇다면, 해야할 것은 플랫폼(인프라)를 구축하는 것입니다.
사용자 서비스 플랫폼의 구성과 빅데이터 플랫폼의 구성을 보여드리겠습니다.
서비스 제공자의 서비스를 다른 서비스들이 쉽게 사용할 수 있게 해주는 환경
기업 내의 많은 사용자들이 데이터를 처리하고 분석을 쉽게 할 수 있는 환경을 제공해주는 시스템
위의 시스템을 활용하면, 데이터 수집,처리,저장,발견,검색,보안 제공하여 데이터 분석 및 ML 지원이 가능하는 것이 목적이자 목표입니다
'Data Engineering' 카테고리의 다른 글
Stream Processing (0) | 2022.11.01 |
---|---|
Event Streaming (1) | 2022.11.01 |
빅데이터 플랫폼(아키텍처) 이해하기 (0) | 2022.10.19 |
데이터 수집 파이프라인 구축(Week2) (0) | 2022.07.15 |
데이터 수집 파이프라인 구축(Week1) (0) | 2022.07.13 |