일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- fastcampus
- kaggle
- e-commerce
- Kaggle #EDA #Regression
- lazypredict
- Algorithm_A/B_Test
- 경제신문스크랩
- GCP
- Soft_skills
- regression
- SPARK
- Hadoop
- Kaggle_Transcripition
- Data_Engineering
- Today
- Total
목록전체 글 (55)
AI & Data를 활용하는 기술경영자
네이버 edwith 강의인 데이터베이스를 듣고 정리한 것입니다. DBMS 탄생 이전의 데이터 저장 주로, file system을 활용해서 데이터를 저장했으나 이는 비효율적인 측면과 단점이 존재했다. Data redundancy and inconsistency(데이터 중복과 불일치) 여러 명의 프로그래머가 응용 프로그램을 만들고 응용 프로그램에서 사용할 데이터가 저장된 파일 시스템이 만들어질 경우, 프로그래밍 언어가 다르게 구성이 되었다면, 프로그램들이 저장하는 파일의 포맷이 달라질 수 있다. 그러한 이유로, 다수의 파일은 여러 형식을 갖을 수 있게 되어서 같은 내용의 데이터나 정보가 여러 파일에 중복 저장 혹은 서로 다른 형식의 파일로 저장되는 불일치가 발생하낟. Difficulty in accessin..
데이터가 시간 데이터인데 어떻게 시각화 하지..? 뉴스 혹은 기사에서 시간 데이터는 주로 어떤 그래프였을까요? 아마도, 아래의 그림처럼 라인 차트였을 것입니다. 그렇습니다.!! 기본은 라인 차트이고 라인 차트에 이중축이 포함되는 경우도 있습니다. 그러나, "시간 데이터"라고 무조건 라인이랑 이중축이 효과적이진 않습니다. 기본일 뿐 상황에 따라서 시각적으로 인지적으로 좋은 그래프가 있고 그것에 대한 이야기를 지금 해보려고 합니다. 양 구성비 경향 영역 차트 누적 영역 차트 100% 누적 영역 차트 슬로프 차트 스파크 라인 이중축 차트 정의 이중축은 2개의 측정값 각각의 축을 의미하고, 차트의 왼쪽 및 오른쪽에 존재하고, 각 분기 항목에 2개의 측정값 bar를 겹쳐서 표현하곤 합니다. 예시로 Sample-S..
Batch Processing Hadoop Spark MapReduce Hive Sqoop
Stream Processing 데이터 스트리밍 플랫폼은 이벤트와 프로세스를 수집하거나, 이벤트 스트림을 변환하며 이벤트 스트림 프로세싱은 데이터 스트림에서 패턴을 찾는데 사용될 수 있다. Flume https://flume.apache.org Welcome to Apache Flume — Apache Flume Welcome to Apache Flume Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming da..
Event Streaming 실시간 정보의 지속적인 흐름을 뜻하고, 데이터 세트에서 발생한 변경 사항 혹은 이벤트의 실행 로그로 표시되는 경우가 많이 있습니다. 종종 이벤트 기반 아키텍쳐 모델(이벤트 스트림처리:Apache Kafka, 단순 이벤트 처리: 소비자에게 즉각적인 트리거, 복합 이벤트 처리: 소비자가 패턴을 감지하기 위한 일련의 이벤트 처리)사용하여 데이터가 도착하는 즉시 처리한다. Kafka 개요 Apache Kafka는 실시간으로 기록 스트림을 게시, 구독, 저장 및 처리할 수 있는 분산 데이터 스트리밍 플랫폼으로, 여러 소스에서 데이터 스트림을 처리하고 여러 사용자에게 전달하도록 설계되었습니다. 간단하게 말하면, A지점에서 B지점까지 이동하는 것뿐만 아니라 A지점에서 Z지점을 비롯해 필요..
좋은 워크시트를 만들면 필요한 것은 기본 개념을 갖추는 것이다. 마크 카드 마크카드는 색상, 크기, 텍스트, 세부 정도, 도구 설명으로 테이터에 컨텍스트를 추가하여 효율적으로 정보를 전달해야 한다. 색상 라인 그래프는 시간에 따른 흐름을 나타낼 때 쓰는 것으로 지역별 매출과 같은 것을 비교할 땐 쓰면 안된다. 그러나, 태블로는 잘못된 마크 타입 선택을 막지 않기에 사용자가 주의를 갖고 써야 한다. Cognitive Load(인지 부하)는 보는 사람이 시각화를 빠르게 이해하려면 여러 가지 색상을 쓰는 것이 좋지 않지만 한 대시보드에서 속성별로 같은 색상을 사용하는 차트가 여러 개를 비교하는 경우는 예외적으로 사용한다. 크기 막대 그래츠의 너비는 여백보다 폭이 넓어야하고, 길이보다 면적이 먼저 보일 정도로 ..