AI & Data를 활용하는 기술경영자

빅데이터 처리(Spark & Hadoop) 본문

Data Engineering

빅데이터 처리(Spark & Hadoop)

Data_Lover 2022. 10. 19. 14:49
728x90

패스트캠퍼스의 한 번 끝내는 빅데이터 처리 with Spark & Hadoop강의를 듣고 정리를 했습니다

빅데이터의 탄생 배경

수없이 들은 빅데이터, 이것이 왜 중요할까요?

아마, 이 예시를 보면 알 수 있을 것입니다.

 

Google 570만의 검색
Facebook 24만 건의 사진 공유
Amazon 사용자가 28만 달러 어치 구매
slack 15만 간의 메시지 전송
Twitter 57만 건의 트윗
Tiktok 1억 6천만 건 이상의 비디어 시청

 

위의 표는 분당 발생하는 데이터의 수입니다.

이 데이터가 하루에 쌓이는 양, 한 달에 쌓이는 양, 연간 쌓이는 양은 어마무시 할 것입니다. 그러나, 기존의 방식대로 한다면 대량의 데이터를 수집, 저장, 분석 그리고 처리를 할 수 없습니다.

 

그러나, 저 데이터 안에는 빠르고 더 나은 의사 결정을 지원, 새로운 전략과 제품 구축, 고객에 관한 통찰력 향상 및 가까운 미래를 예측하고, 새로운 개회를 창출할 수 있는 정보를 담고 있기에 중요합니다.

 

그래서, 생긴 아이디어가 저 많은 양을 처리하여 가치를 추출하고 결과를 분석하는 '빅데이터 처리'라는 기술 및 개념이 도래하게 됩니다.

 

실제로, 대부분의 기업은 빅데이터를 활용하기 위해서 데이터 분석과 예측을 위한 플랫폼 구축이 필요합니다.(이렇게 하기 위해선, 분석과 예측을 위한 프로그램(Presto,Superset..등등) 연동 및 데이터를 잘 모으고 관리(ETL) 작업이 필요하다.)

 

facebook 소셜 네트워킹 분석 및 광고 최적화
Amazon 고객 제품 추천
Netflix 컨텐츠 추천
Uber 예측을 통한 배차 시스템 최적화

 

빅데이터를 처리하고 저장하는 것을 단순히 로컬에서 가능할까요? 그렇지 않습니다. 

그렇다면, 해야할 것은 플랫폼(인프라)를 구축하는 것입니다.

 

사용자 서비스 플랫폼의 구성과 빅데이터 플랫폼의 구성을 보여드리겠습니다.

 

서비스 제공자의 서비스를 다른 서비스들이 쉽게 사용할 수 있게 해주는 환경

사용자 플랫폼

 

기업 내의 많은 사용자들이 데이터를 처리하고 분석을 쉽게 할 수 있는 환경을 제공해주는 시스템

위의 시스템을 활용하면, 데이터 수집,처리,저장,발견,검색,보안 제공하여 데이터 분석 및 ML 지원이 가능하는 것이 목적이자 목표입니다

빅데이터 플랫폼

 

빅데이터 아키텍쳐로 빅데이터 플랫폼의 목적이자 목표

728x90

'Data Engineering' 카테고리의 다른 글

Stream Processing  (0) 2022.11.01
Event Streaming  (1) 2022.11.01
빅데이터 플랫폼(아키텍처) 이해하기  (0) 2022.10.19
데이터 수집 파이프라인 구축(Week2)  (0) 2022.07.15
데이터 수집 파이프라인 구축(Week1)  (0) 2022.07.13