profile-img
The merit of an action lies in finishing it to the end.
slide-image

๋ฐ์ดํ„ฐ๊ณผํ•™์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€

- ์‹คํ—˜์  ๋ฐ์ดํ„ฐ ๋ถ„์„ & ์‹œ๊ฐํ™”

- ๋จธ์‹ ๋Ÿฌ๋‹ & ํ†ต๊ณ„ํ•™

- scale์„ ๋‹ค๋ฃจ๋Š” ๊ณ ์„ฑ๋Šฅ ๊ณ„์‚ฐ (computing) ๊ธฐ์ˆ 

 

๋ฐ์ดํ„ฐ๊ณผํ•™์— ํ•„์š”ํ•œ ์Šคํ‚ฌ

- computer science + domain science + statistics

 

Typical Data Science Pipeline

1. ํฅ๋ฏธ๋กœ์šด ์งˆ๋ฌธ ๋˜์ง€๊ธฐ : ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ถ€๋ถ„

2. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

3. ๋ฐ์ดํ„ฐ ํƒ์ƒ‰

4. ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง

5. ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜, ์‹œ๊ฐํ™”

 

์ปดํ“จํ„ฐ๊ณผํ•™๊ณผ ์‹ค์ œ ๊ณผํ•™์˜ ์ฐจ์ด

๊ณผํ•™์ž ์ปดํ“จํ„ฐ๊ณผํ•™์ž
- Data-driven
-๋ณต์žกํ•œ ์ž์—ฐ์„ธ์ƒ์„ ์ดํ•ดํ•˜๋ ค๊ณ  ๋…ธ๋ ฅํ•จ.
- finding์— ์ง‘์ค‘: ๊ฒฐ๊ณผ๊ฐ€ ์ค‘์š”ํ•˜์ง€ method๋Š” ๊ทธ๋ ‡๊ฒŒ ๊ด€์‹ฌ์žˆ์ง€ ์•Š์Œ.
- ์ƒˆ๋กœ์šด ๊ฒƒ์„ ๋ฐœ๊ฒฌ

- ์ •ํ™•๋„๋ณด๋‹ค๋Š” meaning์ด ์ค‘์š”ํ•จ
- ์™„์ „ํžˆ true์ธ ๊ฒƒ์€ ์—†๋‹ค. (์ด ํ˜„์ƒ์ด ์ด๋Ÿด ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ์ €๋Ÿด ์ˆ˜๋„ ์žˆ๋‹ค - ex. ์œ ์ „๋ฒ•์น™์— ํ•ญ์ƒ ๋งž๋Š” ๊ฒƒ์€ ์—†๋Š” ๊ฒƒ)
- Algorithm-driven
- ์ž์‹ ๋“ค์˜ ๊นจ๋—ํ•œ ๊ฐ€์ƒํ™˜๊ฒฝ์„ ๋งŒ๋“ฆ
- method์— ์ง‘์ค‘
- ์ƒˆ๋กœ์šด ๊ฒƒ์„ ๋ฐœ๋ช…

- ์ •ํ™•๋„๊ฐ€ ์ค‘์š”

 

๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ

๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๋“ค์€ ์‹ค์ œ ๊ณผํ•™์ž์ฒ˜๋Ÿผ ์ƒ๊ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์›Œ์•ผ ํ•œ๋‹ค.

์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ์ž๋Š” code๋ฅผ ์ƒ์‚ฐํ•˜์ง€๋งŒ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๋“ค์€ insight๋ฅผ ์ฐฝ์ถœํ•œ๋‹ค.

์ข‹์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๋“ค์€ ์—ฐ๊ตฌ๋ถ„์•ผ์— ๋Œ€ํ•œ ํ˜ธ๊ธฐ์‹ฌ์„ ๊ฐ–๊ณ  ์žˆ๋‹ค. ๋Š˜ ์„ธ์ƒ์— ๋Œ€ํ•œ ๋” ๋„“์€ ์‹œ๊ฐ์„ ๊ฐ–๊ณ ์ž ํ•œ๋‹ค.

 

์ข‹์€ ์งˆ๋ฌธ ํ•˜๊ธฐ

์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ์ž์™€ ๋‹ฌ๋ฆฌ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๋“ค์€ ์งˆ๋ฌธ์„ ํ•ด์•ผํ•œ๋‹ค.

์˜ˆ์‹œ)

- ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์„ ๊ฒƒ์€?

- ๋‚˜ ๋˜๋Š” ๋Œ€์ค‘๋“ค์ด ์•Œ๊ณ  ์‹ถ์–ดํ•˜๋Š” ๊ฒƒ์ด ๋ฌด์—‡์ธ๊ฐ€?

- ์ด ๋ถ„์•ผ์—์„œ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹์€ ๋ฌด์—‡์ธ๊ฐ€?

Who / What / Where / When / Why ์— ์ž…๊ฐํ•˜์—ฌ ์งˆ๋ฌธํ•ด๋ณด์ž.

 

ex1) ์•ผ๊ตฌ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ–๊ณ  ์žˆ์„ ๋•Œ

- ์ˆ˜๋น„ ํฌ์ง€์…˜์— ๋”ฐ๋ผ ํƒ€๊ฒฉ ์„ฑ์ ์ด ๋‹ฌ๋ผ์ง€๋Š”๊ฐ€?

(์ด ์งˆ๋ฌธ์— ๋Œ€ํ•ด์„œ๋Š” 2017-2018์‹œ์ฆŒ ๋ชจ ์„ ์ˆ˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด์„œ ํ•œ ๋ฒˆ ๋ถ„์„ํ•ด๋ณด๊ณ  ์‹ถ๋‹ค.)

- ๋ฃจํ‚ค์˜ ์„ฑ์ ์ด ๊ณผ์—ฐ ๊ดœ์ฐฎ์„๊นŒ?

(๋ฃจํ‚ค์˜ ๊ฒฝ์šฐ ์ž๋ฃŒ๊ฐ€ ์—†์œผ๋ฏ€๋กœ ์˜ˆ์ธก์ด ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Œ. ์ด๋•Œ ๊ธฐ์กด ์„ ์ˆ˜๋“ค์˜ ๋ฃจํ‚ค ์‹œ์ ˆ ์ž๋ฃŒ ์ค‘ ๋น„๊ต๋Œ€์ƒ๊ณผ ๋น„์Šทํ•œ ํŠน์„ฑ์„ ๊ฐ–๋Š” ์‚ฌ๋žŒ์„ ๊ตฐ์ง‘ํ™”ํ•˜์—ฌ average๋ฅผ ๊ตฌํ•˜๋ฉด ์˜ˆ์ธก๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.)

 

ex2) ์ธ๊ตฌํ†ต๊ณ„ํ•™

- ์™ผ์†์žก์ด๊ฐ€ ์˜ค๋ฅธ์†์žก์ด๋ณด๋‹ค ๋” ์งง์€ ์ˆ˜๋ช…์„ ๊ฐ–๊ณ  ์žˆ๋Š”๊ฐ€?

- ํ‚ค, ๋ชธ๋ฌด๊ฒŒ๊ฐ€ ์ธ๊ตฌ ์ „๋ฐ˜์ ์œผ๋กœ ์ปค์ง€๊ณ  ์žˆ๋Š”๊ฐ€?

 

ex3) ์˜ํ™” ๋ฐ์ดํ„ฐ (IMDb)

- ์˜ํ™”๋ฐฐ์šฐ๋“ค์˜ social network์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ธฐ

- ์˜ํ™” ํฅํ–‰ ์˜ˆ์ธกํ•˜๊ธฐ

 

ex4) NYC Taxi Cab Data - Freedom of Information Act Request (FOA) ์— ์˜ํ•ด ๊ณต๊ฐœ๋œ ์ž๋ฃŒ

- ํšจ์œจ์ ์œผ๋กœ ํƒ์‹œ๋ฅผ ๋ฐฐ์น˜ํ•˜๋Š” ๋ฐฉ์•ˆ

- ์‹ฌ์•ผ๋ฒ„์Šค/์ผ๋ฐ˜ ๋ฒ„์Šค ๋…ธ์„  ์ •ํ•  ๋•Œ ์ˆ˜์š”๊ฐ€ ๋งŽ์€ ์ง€์—ญ ํƒ์ƒ‰

 

Google Ngrams

๊ตฌ๊ธ€์ด ์ฑ… ์ž๋ฃŒ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋งŒ๋“  ๋ฐ์ดํ„ฐ์…‹. ๋‹จ์–ด๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ๊ทธ ๋‹จ์–ด๊ฐ€ ๋ฐœํ–‰๋œ ์ฑ…๋“ค ๊ฐ€์šด๋ฐ ๋ช‡ ๋ฒˆ ๋นˆ๋„๋กœ ๋‚˜ํƒ€๋‚ฌ๋Š”์ง€ ์ˆ˜์น˜๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์—ฌ๋Ÿฌ ๊ฐœ ์ž…๋ ฅ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค.

๊ทธ ์‹œ๋Œ€์˜ ๊ฐ€์น˜๋ฅผ ํŒŒ์•…ํ•˜๊ฑฐ๋‚˜, ํŠน์ • ๋‹จ์–ด (์˜ˆ: ์š•์„ค) ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜์˜€๋Š”์ง€? ์ถ”์ ํ•˜๋Š” ์ˆ˜๋‹จ์œผ๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

 

Google Trends

ํŠน์ • search-term์ด ์ „์ฒด ๊ฒ€์ƒ‰๋Ÿ‰ ์ค‘ ์–ผ๋งŒํผ์˜ ๋นˆ๋„๋กœ ์ž…๋ ฅ๋˜์—ˆ๋Š”์ง€ ๋ณด์—ฌ์ฃผ๋Š” ํˆด. ์—ฌ๋Ÿฌ ๋‹จ์–ด ์‚ฌ์ด์˜ ์ƒ๋Œ€์ ์ธ ๊ฒ€์ƒ‰๋นˆ๋„๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Œ.

๋…ผ๋ฌธ Quantifying Trading Behavior in Financial Markets Using Google Trends ์—์„œ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” debt๋ผ๋Š” ๋‹จ์–ด์˜ ๊ฒ€์ƒ‰ ๋นˆ๋„์ˆ˜์™€ Dow Jones Industrial Average ์‚ฌ์ด ๊ด€๊ณ„๋ฅผ ์‹œ๊ฐํ™”ํ•ด์„œ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, debt์˜ ๊ฒ€์ƒ‰ ๋นˆ๋„์ˆ˜ ์ถ”์ด์— ๋”ฐ๋ผ ์ฃผ์‹ ํˆฌ์ž๋ฅผ ํ–ˆ์„ ๋•Œ ์ˆ˜์ต๋ฅ ์ด ์ผ๋ฐ˜ ์ „๋žต (buy and hold, random...) ๋ณด๋‹ค ๋” ๋†’์€ ์ˆ˜์ต๋ฅ ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๊ณ  ์„ค๋ช…ํ•˜๊ณ  ์žˆ๋‹ค. financial times์—์„œ ์—ฌ๋Ÿฌ ์ฐจ๋ก€ ์–ธ๊ธ‰๋œ ํ‚ค์›Œ๋“œ ์—ฌ๋Ÿฌ ๊ฐœ ์ค‘ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋˜ ๊ฒƒ์ด debt์ด์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋…ผ๋ฌธ์—์„œ ์†Œ๊ฐœํ•˜๊ณ  ์žˆ๋‹ค. ๋‹ค๋งŒ unseen data์— ๋Œ€ํ•ด์„œ ๋™์ผํ•œ ์„ฑ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋Š”์ง€๋Š” ๋ณด์žฅ๋œ ๋ฐ”๊ฐ€ ์—†๋‹ค (๋‹จ์ˆœํžˆ ์šด์ด์—ˆ์„ ์ˆ˜๋„ ์žˆ๊ธฐ๋Š” ํ•˜๋‹ค.)

 

๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ

1. Structured / Unstructured Data 

2. Quantitative / Categorical Data

์•„๋ž˜ ๊ธ€ ์ฐธ๊ณ 

 

[EDA] ๋ฐ์ดํ„ฐ ์ข…๋ฅ˜๋ณ„ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ•

๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜ ๋ฐ์ดํ„ฐ๋Š” ํฌ๊ฒŒ ๋ฒ”์ฃผํ˜•, ์ˆ˜์น˜ํ˜• ๋‘ ๊ฐ€์ง€ ๋ถ„๋ฅ˜๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค. ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋Š” ๋ฒ”์ฃผ/์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฐ๊ฐ์˜ ์ด๋ฆ„์„ ๊ฐ–๋Š” ๋ฐ์ดํ„ฐ ์ข…๋ฅ˜๋‹ค. ex) ์„ฑ๋ณ„ - ์—ฌ์„ฑ, ๋‚จ์„ฑ / ํ•™๋ ฅ - ์ดˆ์กธ,

iamnotwhale.tistory.com

 

๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜

1. Nominal (Categorical) (N) : ๊ตฌ๋ถ„์€ ๋˜์ง€๋งŒ ์ˆœ์œ„๋Š” ๋‚˜๋ˆŒ ์ˆ˜ ์—†๋Š” ๋ฐ์ดํ„ฐ =, != 

2. Ordinal (O) : < ์ฒ˜๋Ÿผ ์ˆœ์œ„๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ =, !=, >, <

3. Quantitative (Q) : arithmetic์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ 

   3-1. Q - Interval (location of zero arbitrary) : ์›์ ์ด ๊ณ ์ •๋˜์–ด์žˆ์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ ex) ๋‚ ์งœ =, !=, >, <, +, -

   3-2. Q - Ratio (zero fixed) : ์‚ฌ์น™์—ฐ์‚ฐ์ด ๋ชจ๋‘ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ex) ๊ธธ์ด =, !=, >, <, +, -, *, /

 

Classification vs Regression

Classification(๋ถ„๋ฅ˜)๋Š” input์— label์„ ๋ถ™์ด๋Š” ๊ฒƒ. ์„œ๋กœ ๋‹ค๋ฅธ ์„ธํŠธ๋กœ ๋‚˜๋ˆ„๋Š” ๋Š๋‚Œ์ด๋‹ค. ๋ฐ˜๋ฉด Regression(ํšŒ๊ท€)๋Š” continuous target์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ, ๊ฐ€๊ฒฉ์ด ๋†’์•„์งˆ ๊ฒƒ์ธ๊ฐ€ ๋‚ฎ์•„์งˆ ๊ฒƒ์ธ๊ฐ€? ๋Š” ๋ถ„๋ฅ˜, ๊ฐ€๊ฒฉ์ด ์–ผ๋งˆ๊ฐ€ ๋  ๊ฒƒ์ธ๊ฐ€? ๋Š” ํšŒ๊ท€๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

+

์ด๋ฒˆ ํ•™๊ธฐ ๋ฐ์ดํ„ฐ๊ณผํ•™ ์ˆ˜์—…ํ•˜์‹œ๋Š” ๊ต์ˆ˜๋‹˜ ๋žฉ์‹ค์—์„œ BioBERT๋ฅผ ๊ฐœ๋ฐœํ•˜์…จ๋‹ค๊ณ  ํ•œ๋‹ค. ๋˜ ์ด ๋žฉ์‹ค์€ DreamChallenges๋ผ๋Š” bio-medicine๋ถ„์•ผ์˜ ์บ๊ธ€๊ณผ ๊ฐ™์€ ๋Œ€ํšŒ๋“ค์—์„œ ์ƒ๋„ ๋งŽ์ด ํƒ€์…จ๋‹ค. ์ง„์งœ ์ง„์งœ ๋‚ด๊ฐ€ ๊ด€์‹ฌ ์žˆ๋Š” ๋ถ„์•ผ๊ฐ€ ์ด๋Ÿฐ ๋ถ„์•ผ์˜€๋Š”๋ฐ! ์‹ถ๊ณ ... ์‹ฌ์žฅ์ด ๋›ฐ๊ณ  (?) ... ์•„๋ฌดํŠผ ์ˆ˜์—… ๋ง๊ณ ๋„ ๊ต์ˆ˜๋‹˜ ๋žฉ์‹ค์—์„œ ๋‚˜์˜จ ๋…ผ๋ฌธ ๊ฐ™์€ ๊ฑฐ ๋„์ „ํ•ด๋ณด๊ธฐ! ๊ฐ€ 2023๋…„ ๋ชฉํ‘œ

'School/COSE471 ๋ฐ์ดํ„ฐ๊ณผํ•™' Related Articles +