데이터과학이란 무엇인가
- 실험적 데이터 분석 & 시각화
- 머신러닝 & 통계학
- scale을 다루는 고성능 계산 (computing) 기술
데이터과학에 필요한 스킬
- computer science + domain science + statistics
Typical Data Science Pipeline
1. 흥미로운 질문 던지기 : 가장 중요한 부분
2. 데이터 수집
3. 데이터 탐색
4. 데이터 모델링
5. 커뮤니케이션, 시각화
컴퓨터과학과 실제 과학의 차이
과학자 | 컴퓨터과학자 |
- Data-driven -복잡한 자연세상을 이해하려고 노력함. - finding에 집중: 결과가 중요하지 method는 그렇게 관심있지 않음. - 새로운 것을 발견 - 정확도보다는 meaning이 중요함 - 완전히 true인 것은 없다. (이 현상이 이럴 수도 있지만, 저럴 수도 있다 - ex. 유전법칙에 항상 맞는 것은 없는 것) |
- Algorithm-driven - 자신들의 깨끗한 가상환경을 만듦 - method에 집중 - 새로운 것을 발명 - 정확도가 중요 |
데이터 사이언티스트
데이터 사이언티스트들은 실제 과학자처럼 생각하는 방법을 배워야 한다.
소프트웨어 개발자는 code를 생산하지만 데이터 사이언티스트들은 insight를 창출한다.
좋은 데이터 사이언티스트들은 연구분야에 대한 호기심을 갖고 있다. 늘 세상에 대한 더 넓은 시각을 갖고자 한다.
좋은 질문 하기
소프트웨어 개발자와 달리 데이터 사이언티스트들은 질문을 해야한다.
예시)
- 주어진 데이터셋으로부터 배울 수 있을 것은?
- 나 또는 대중들이 알고 싶어하는 것이 무엇인가?
- 이 분야에서 얻을 수 있는 데이터셋은 무엇인가?
Who / What / Where / When / Why 에 입각하여 질문해보자.
ex1) 야구 데이터를 갖고 있을 때
- 수비 포지션에 따라 타격 성적이 달라지는가?
(이 질문에 대해서는 2017-2018시즌 모 선수 데이터를 활용해서 한 번 분석해보고 싶다.)
- 루키의 성적이 과연 괜찮을까?
(루키의 경우 자료가 없으므로 예측이 어려울 수 있음. 이때 기존 선수들의 루키 시절 자료 중 비교대상과 비슷한 특성을 갖는 사람을 군집화하여 average를 구하면 예측값으로 사용할 수 있다.)
ex2) 인구통계학
- 왼손잡이가 오른손잡이보다 더 짧은 수명을 갖고 있는가?
- 키, 몸무게가 인구 전반적으로 커지고 있는가?
ex3) 영화 데이터 (IMDb)
- 영화배우들의 social network에 대해 알아보기
- 영화 흥행 예측하기
ex4) NYC Taxi Cab Data - Freedom of Information Act Request (FOA) 에 의해 공개된 자료
- 효율적으로 택시를 배치하는 방안
- 심야버스/일반 버스 노선 정할 때 수요가 많은 지역 탐색
Google Ngrams
구글이 책 자료를 이용하여 만든 데이터셋. 단어를 입력하면 그 단어가 발행된 책들 가운데 몇 번 빈도로 나타났는지 수치로 확인할 수 있으며 여러 개 입력도 가능하다.
그 시대의 가치를 파악하거나, 특정 단어 (예: 욕설) 가 어떻게 변화하였는지? 추적하는 수단으로 사용될 수 있다.
Google Trends
특정 search-term이 전체 검색량 중 얼만큼의 빈도로 입력되었는지 보여주는 툴. 여러 단어 사이의 상대적인 검색빈도를 비교할 수 있음.
논문 Quantifying Trading Behavior in Financial Markets Using Google Trends 에서 사용되었다. 이 논문에서는 debt라는 단어의 검색 빈도수와 Dow Jones Industrial Average 사이 관계를 시각화해서 보여주었으며, debt의 검색 빈도수 추이에 따라 주식 투자를 했을 때 수익률이 일반 전략 (buy and hold, random...) 보다 더 높은 수익률을 보여주었다고 설명하고 있다. financial times에서 여러 차례 언급된 키워드 여러 개 중 가장 성능이 좋았던 것이 debt이었기 때문에 논문에서 소개하고 있다. 다만 unseen data에 대해서 동일한 성과를 낼 수 있는지는 보장된 바가 없다 (단순히 운이었을 수도 있기는 하다.)
데이터의 특성
1. Structured / Unstructured Data
2. Quantitative / Categorical Data
아래 글 참고
[EDA] 데이터 종류별 시각화 방법
데이터의 종류 데이터는 크게 범주형, 수치형 두 가지 분류로 나눌 수 있다. 범주형 데이터는 범주/카테고리를 구분하는 각각의 이름을 갖는 데이터 종류다. ex) 성별 - 여성, 남성 / 학력 - 초졸,
iamnotwhale.tistory.com
데이터의 종류
1. Nominal (Categorical) (N) : 구분은 되지만 순위는 나눌 수 없는 데이터 =, !=
2. Ordinal (O) : < 처럼 순위를 구분할 수 있는 데이터 =, !=, >, <
3. Quantitative (Q) : arithmetic을 할 수 있는 데이터
3-1. Q - Interval (location of zero arbitrary) : 원점이 고정되어있지 않은 데이터 ex) 날짜 =, !=, >, <, +, -
3-2. Q - Ratio (zero fixed) : 사칙연산이 모두 가능한 데이터 ex) 길이 =, !=, >, <, +, -, *, /
Classification vs Regression
Classification(분류)는 input에 label을 붙이는 것. 서로 다른 세트로 나누는 느낌이다. 반면 Regression(회귀)는 continuous target을 예측하는 것이다. 따라서, 가격이 높아질 것인가 낮아질 것인가? 는 분류, 가격이 얼마가 될 것인가? 는 회귀라고 볼 수 있다.
+
이번 학기 데이터과학 수업하시는 교수님 랩실에서 BioBERT를 개발하셨다고 한다. 또 이 랩실은 DreamChallenges라는 bio-medicine분야의 캐글과 같은 대회들에서 상도 많이 타셨다. 진짜 진짜 내가 관심 있는 분야가 이런 분야였는데! 싶고... 심장이 뛰고 (?) ... 아무튼 수업 말고도 교수님 랩실에서 나온 논문 같은 거 도전해보기! 가 2023년 목표