빅데이터 처리(Spark & Hadoop)

250x250

Notice

Recent Posts

Tags more

Archives

관리 메뉴

AI & Data를 활용하는 기술경영자

Data Engineering

Data_Lover 2022. 10. 19. 14:49

728x90

패스트캠퍼스의 한 번 끝내는 빅데이터 처리 with Spark & Hadoop강의를 듣고 정리를 했습니다

수없이 들은 빅데이터, 이것이 왜 중요할까요?

아마, 이 예시를 보면 알 수 있을 것입니다.

위의 표는 분당 발생하는 데이터의 수입니다.

이 데이터가 하루에 쌓이는 양, 한 달에 쌓이는 양, 연간 쌓이는 양은 어마무시 할 것입니다. 그러나, 기존의 방식대로 한다면 대량의 데이터를 수집, 저장, 분석 그리고 처리를 할 수 없습니다.

그러나, 저 데이터 안에는 빠르고 더 나은 의사 결정을 지원, 새로운 전략과 제품 구축, 고객에 관한 통찰력 향상 및 가까운 미래를 예측하고, 새로운 개회를 창출할 수 있는 정보를 담고 있기에 중요합니다.

그래서, 생긴 아이디어가 저 많은 양을 처리하여 가치를 추출하고 결과를 분석하는 '빅데이터 처리'라는 기술 및 개념이 도래하게 됩니다.

실제로, 대부분의 기업은 빅데이터를 활용하기 위해서 데이터 분석과 예측을 위한 플랫폼 구축이 필요합니다.(이렇게 하기 위해선, 분석과 예측을 위한 프로그램(Presto,Superset..등등) 연동 및 데이터를 잘 모으고 관리(ETL) 작업이 필요하다.)

빅데이터를 처리하고 저장하는 것을 단순히 로컬에서 가능할까요? 그렇지 않습니다.

그렇다면, 해야할 것은 플랫폼(인프라)를 구축하는 것입니다.

사용자 서비스 플랫폼의 구성과 빅데이터 플랫폼의 구성을 보여드리겠습니다.

서비스 제공자의 서비스를 다른 서비스들이 쉽게 사용할 수 있게 해주는 환경

기업 내의 많은 사용자들이 데이터를 처리하고 분석을 쉽게 할 수 있는 환경을 제공해주는 시스템

위의 시스템을 활용하면, 데이터 수집,처리,저장,발견,검색,보안 제공하여 데이터 분석 및 ML 지원이 가능하는 것이 목적이자 목표입니다

728x90

'Data Engineering' Related Articles