일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- lazypredict
- SPARK
- Hadoop
- 경제신문스크랩
- fastcampus
- Kaggle_Transcripition
- Algorithm_A/B_Test
- Kaggle #EDA #Regression
- regression
- Soft_skills
- Data_Engineering
- kaggle
- e-commerce
- GCP
- Today
- Total
목록전체 글 (55)
AI & Data를 활용하는 기술경영자
태블로 설치와 데이터 연결 파일 데이터 연결하기 데이터가 자주 업데이트 되지 않고 일회성 Ad-hoc분석을 하는 경우 주로 파일 데이터를 활용한다. 종류로는 Excel, Text(csv, txt), JSON, PDF, Spatial(shp file), Statistical(SAS, SPSS, R), 저장된 데이터 원본, Hyper, TDE 서버 데이터 연결하기 데이터의 업데이트와 스키마 변경이 빈번하게 일어나서 실시간 대시보드를 만들 경우, 보안이 중요한 데이터(권한이 있어야만 접근이 가능한 데이터)일 때, 주로 연결합니다. 종류로는 Tableau Server, MySQL, Google BigQuery, Google Spreadsheet, Salesfore, Amazon Redshift, Cloudera..
현재, 회사에서 시장 점유율을 늘리기 위해서 데이터 보고서 with 시각화가 필요합니다. 그렇기 위해서, 패스트캠퍼스 데이터 시각화 강의를 듣고 정리를 했습니다. 데이터 시각화 시그널은 최대한 노이즈는 최소화 시그널 : 데이터가 가지고 있는 원래의 의미가 상대방에게 보다 쉽게 전달되는 효과 노이즈 : 데이터가 가지고 있는 원래의 의미가 아닌 것이 상대방에게 전달되는 효과 사람이 한 번에 처리할 수 있는 정보량은 한계가 존재하기에 "최대한 효율적으로 정보를 전달"해야한다. 이 개념이 정말 추상적이기에 아래의 이미지와 비교하면 될 것 같다. 데이터 잉크 비율을 높이자 데이터 분야에서 저명한 학자인 Edward Tufte는 1983년 지필한 저서에 따르면 "데이터를 나타내기 위해선 잉크의 양과 전체에 사용되는..
패스트캠퍼스 한 번에 끝내는 빅데이터 처리 with Spark & Hadoop 강의를 듣고 정리한 것입니다. 빅데이터 플랫폼을 만드는다는 것은 아래와 같은 과정을 거치는 것이고 상황에 따라서 쓰는 프로그램은 다르다. Data Source Data의 종류 정형(Structured) 데이터 RDBMS, 스프레드시트(excel,csv,테이블의 형태) 비정형(Unstructured) 데이터 텍스트, 이미지, 음성, 영상 반정형(Semi-Structured) 데이터 JSON, XML, 웹 로그, 센서 데이터 Data Source의 종류 데이터베이스 OLTP(Transactional App)[현재 데이터] 정규화된 데이터가 주로 쓰이므로 테이블이 많고 트랜잭션이 많기에 빠른 처리가 필요하다. OLAP(Analyti..
패스트캠퍼스의 한 번 끝내는 빅데이터 처리 with Spark & Hadoop강의를 듣고 정리를 했습니다 빅데이터의 탄생 배경 수없이 들은 빅데이터, 이것이 왜 중요할까요? 아마, 이 예시를 보면 알 수 있을 것입니다. Google 570만의 검색 Facebook 24만 건의 사진 공유 Amazon 사용자가 28만 달러 어치 구매 slack 15만 간의 메시지 전송 Twitter 57만 건의 트윗 Tiktok 1억 6천만 건 이상의 비디어 시청 위의 표는 분당 발생하는 데이터의 수입니다. 이 데이터가 하루에 쌓이는 양, 한 달에 쌓이는 양, 연간 쌓이는 양은 어마무시 할 것입니다. 그러나, 기존의 방식대로 한다면 대량의 데이터를 수집, 저장, 분석 그리고 처리를 할 수 없습니다. 그러나, 저 데이터 안에..
딥 피드 포워드 네트워크란? 일종의 전통적인 딥러닝 학습 모델로 어떤 함수 f를 fitting하는 것으로 입력값 x를 모종의 예측 출력값y로 변환하고 파라미터의 값을 학습하여 최적의 함수에 모델이 근사하도록 만드는 것입니다. 즉, 네트워크 모델 중 한 부류의 통칭인데, 자주 사용하는 알고리즘으로는 다층 퍼셉트론, 오토 인코더(atuoencoder), 제한된 볼츠만 머신(restricted Boltzmann machine), 그리고 합성곱 신경망(convolution neural network)이 있습니다. 다층 퍼셉트론으로 XOR 문제를 해결했다고 하는데 최소 몇 개의 은닉층이 필요할까? 먼저, 0개의 은닉층이 있는 상황(로지스틱 회귀)을 고려해 XOR 연산 표현할 수 있습니다. 이진 입력만 고려한다면 ..
논문 링크: https://www.researchgate.net/publication/311491420_AutoRec_Autoencoders_Meet_Collaborative_Filtering AutoEncoders 차원 축소 특징 추출 Encoder- Manifold Learning: 고차원데이터가 있을 때 고차원 데이터를 데이터 공간에 뿌리면 샘플들을 잘 아우르는 subpsace가 있을 것이라 가정에서 학습을 진행 Deconder- Generative Model: 주어진 학습 데이터를 학습하여 학습 데이터의 분포를 따르는 유사한 데이터를 생성 Autoencoder를 CF에 적용한 논문이다. MovieLens와 Netflix 데이터 셋에서 좋은 성능을 나타낸다. Matrix Factorization이 ..