영이 공부노트

데이터과학이란 무엇인가

- 실험적 데이터 분석 & 시각화

- 머신러닝 & 통계학

- scale을 다루는 고성능 계산 (computing) 기술

데이터과학에 필요한 스킬

- computer science + domain science + statistics

Typical Data Science Pipeline

1. 흥미로운 질문 던지기 : 가장 중요한 부분

2. 데이터 수집

3. 데이터 탐색

4. 데이터 모델링

5. 커뮤니케이션, 시각화

컴퓨터과학과 실제 과학의 차이

과학자	컴퓨터과학자
- Data-driven -복잡한 자연세상을 이해하려고 노력함. - finding에 집중: 결과가 중요하지 method는 그렇게 관심있지 않음. - 새로운 것을 발견 - 정확도보다는 meaning이 중요함 - 완전히 true인 것은 없다. (이 현상이 이럴 수도 있지만, 저럴 수도 있다 - ex. 유전법칙에 항상 맞는 것은 없는 것)	- Algorithm-driven - 자신들의 깨끗한 가상환경을 만듦 - method에 집중 - 새로운 것을 발명 - 정확도가 중요

데이터 사이언티스트

데이터 사이언티스트들은 실제 과학자처럼 생각하는 방법을 배워야 한다.

소프트웨어 개발자는 code를 생산하지만 데이터 사이언티스트들은 insight를 창출한다.

좋은 데이터 사이언티스트들은 연구분야에 대한 호기심을 갖고 있다. 늘 세상에 대한 더 넓은 시각을 갖고자 한다.

좋은 질문 하기

소프트웨어 개발자와 달리 데이터 사이언티스트들은 질문을 해야한다.

예시)

- 주어진 데이터셋으로부터 배울 수 있을 것은?

- 나 또는 대중들이 알고 싶어하는 것이 무엇인가?

- 이 분야에서 얻을 수 있는 데이터셋은 무엇인가?

Who / What / Where / When / Why 에 입각하여 질문해보자.

ex1) 야구 데이터를 갖고 있을 때

- 수비 포지션에 따라 타격 성적이 달라지는가?

(이 질문에 대해서는 2017-2018시즌 모 선수 데이터를 활용해서 한 번 분석해보고 싶다.)

- 루키의 성적이 과연 괜찮을까?

(루키의 경우 자료가 없으므로 예측이 어려울 수 있음. 이때 기존 선수들의 루키 시절 자료 중 비교대상과 비슷한 특성을 갖는 사람을 군집화하여 average를 구하면 예측값으로 사용할 수 있다.)

ex2) 인구통계학

- 왼손잡이가 오른손잡이보다 더 짧은 수명을 갖고 있는가?

- 키, 몸무게가 인구 전반적으로 커지고 있는가?

ex3) 영화 데이터 (IMDb)

- 영화배우들의 social network에 대해 알아보기

- 영화 흥행 예측하기

ex4) NYC Taxi Cab Data - Freedom of Information Act Request (FOA) 에 의해 공개된 자료

- 효율적으로 택시를 배치하는 방안

- 심야버스/일반 버스 노선 정할 때 수요가 많은 지역 탐색

Google Ngrams

구글이 책 자료를 이용하여 만든 데이터셋. 단어를 입력하면 그 단어가 발행된 책들 가운데 몇 번 빈도로 나타났는지 수치로 확인할 수 있으며 여러 개 입력도 가능하다.

그 시대의 가치를 파악하거나, 특정 단어 (예: 욕설) 가 어떻게 변화하였는지? 추적하는 수단으로 사용될 수 있다.

Google Trends

특정 search-term이 전체 검색량 중 얼만큼의 빈도로 입력되었는지 보여주는 툴. 여러 단어 사이의 상대적인 검색빈도를 비교할 수 있음.

논문 Quantifying Trading Behavior in Financial Markets Using Google Trends 에서 사용되었다. 이 논문에서는 debt라는 단어의 검색 빈도수와 Dow Jones Industrial Average 사이 관계를 시각화해서 보여주었으며, debt의 검색 빈도수 추이에 따라 주식 투자를 했을 때 수익률이 일반 전략 (buy and hold, random...) 보다 더 높은 수익률을 보여주었다고 설명하고 있다. financial times에서 여러 차례 언급된 키워드 여러 개 중 가장 성능이 좋았던 것이 debt이었기 때문에 논문에서 소개하고 있다. 다만 unseen data에 대해서 동일한 성과를 낼 수 있는지는 보장된 바가 없다 (단순히 운이었을 수도 있기는 하다.)

데이터의 특성

1. Structured / Unstructured Data

2. Quantitative / Categorical Data

아래 글 참고

[EDA] 데이터 종류별 시각화 방법

데이터의 종류 데이터는 크게 범주형, 수치형 두 가지 분류로 나눌 수 있다. 범주형 데이터는 범주/카테고리를 구분하는 각각의 이름을 갖는 데이터 종류다. ex) 성별 - 여성, 남성 / 학력 - 초졸,

iamnotwhale.tistory.com

데이터의 종류

1. Nominal (Categorical) (N) : 구분은 되지만 순위는 나눌 수 없는 데이터 =, !=

2. Ordinal (O) : < 처럼 순위를 구분할 수 있는 데이터 =, !=, >, <

3. Quantitative (Q) : arithmetic을 할 수 있는 데이터

3-1. Q - Interval (location of zero arbitrary) : 원점이 고정되어있지 않은 데이터 ex) 날짜 =, !=, >, <, +, -

3-2. Q - Ratio (zero fixed) : 사칙연산이 모두 가능한 데이터 ex) 길이 =, !=, >, <, +, -, *, /

Classification vs Regression

Classification(분류)는 input에 label을 붙이는 것. 서로 다른 세트로 나누는 느낌이다. 반면 Regression(회귀)는 continuous target을 예측하는 것이다. 따라서, 가격이 높아질 것인가 낮아질 것인가? 는 분류, 가격이 얼마가 될 것인가? 는 회귀라고 볼 수 있다.

이번 학기 데이터과학 수업하시는 교수님 랩실에서 BioBERT를 개발하셨다고 한다. 또 이 랩실은 DreamChallenges라는 bio-medicine분야의 캐글과 같은 대회들에서 상도 많이 타셨다. 진짜 진짜 내가 관심 있는 분야가 이런 분야였는데! 싶고... 심장이 뛰고 (?) ... 아무튼 수업 말고도 교수님 랩실에서 나온 논문 같은 거 도전해보기! 가 2023년 목표

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Chapter 1. What is Data Science?

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역