profile-img
The merit of an action lies in finishing it to the end.
slide-image

ν•™νšŒμ—μ„œ 주어진 지문에 λŒ€ν•œ 객관식 μ§ˆλ¬Έμ„ μƒμ„±ν•˜λŠ” Question Generation NLP ν”„λ‘œμ νŠΈλ₯Ό 진행 쀑이닀.

QG ν”„λ‘œμ νŠΈμ— μ‚¬μš©ν•  수 μžˆλŠ” λŒ€ν‘œμ μΈ 데이터셋을 μ†Œκ°œν•˜κ³ μž ν•œλ‹€.

 

1. SQuAD 

https://rajpurkar.github.io/SQuAD-explorer/

 

The Stanford Question Answering Dataset

What is SQuAD? Stanford Question Answering Dataset (SQuAD) is a reading comprehension dataset, consisting of questions posed by crowdworkers on a set of Wikipedia articles, where the answer to every question is a segment of text, or span, from the correspo

rajpurkar.github.io

- μ˜μ–΄ λ¨Έμ‹ λŸ¬λ‹ Reading Comprehension 데이터셋 

- 버전: v1.1, v2.0

Stanford Question Answering Dataset (SQuAD)의 μ•½μžλ‹€. μš°λ¦¬λŠ” QG ν”„λ‘œμ νŠΈμ— μ‚¬μš©ν–ˆμ§€λ§Œ, μ›λž˜λŠ” QAλ₯Ό μœ„ν•œ 데이터셋이닀.

버전 v1.1의 κ²½μš°μ—λŠ” 500+개의 μ•„ν‹°ν΄λ‘œ λ§Œλ“€μ–΄μ§„ 100,000+개의 QA 쌍이 μ‘΄μž¬ν•œλ‹€.

μ‚¬μ΄νŠΈμ— λ“€μ–΄κ°€μ„œ 확인해보면, μ˜ˆμ‹œ 지문과 ground truth 데이터, 그리고 μ˜ˆμΈ‘ν•œ λ‹΅ 일뢀λ₯Ό 확인해볼 수 μžˆλ‹€.

μ•„λ¬΄λž˜λ„ λŒ€νšŒ ν˜•μ‹μ΄λ‹€ λ³΄λ‹ˆκΉŒ λ‹€λ₯Έ μ‚¬μš©μžλ“€μ΄ μ–Όλ§ˆλ‚˜ 닡변을 잘 μ°Ύμ•˜λŠ”μ§€ (높은 점수λ₯Ό μ–»μ—ˆλŠ”μ§€) μŠ€μ½”μ–΄λ³΄λ“œλ₯Ό 확인할 수 μžˆλ‹€.

v1.1μ—λŠ” λ‹΅λ³€ν•  수 μžˆλŠ” 질문 λ°μ΄ν„°λ§Œ ν¬ν•¨λ˜μ–΄μžˆλ‹€κ³  ν•œλ‹€λ©΄, v2.0μ—λŠ” μΌλΆ€λŸ¬ 닡을 찾을 수 μ—†λŠ” λ¬Έμ œκΉŒμ§€ 포함이 λ˜μ–΄μžˆλ‹€. 이럴 κ²½μš°μ— λͺ¨λΈμ€ 닡을 찾을 수 μ—†λŠ” λ¬Έμ œμž„μ„ 인식할 수 μžˆμ–΄μ•Ό ν•œλ‹€κ³  ν•œλ‹€.

QG ν”„λ‘œμ νŠΈμ—μ„œλŠ” 지문과 질문만 μ‚¬μš©ν•˜λ©΄ λ˜λ‹ˆκΉŒ 크게 상관은 μ—†λ‹€.

 

2. KorQuAD

https://korquad.github.io/

 

KorQuAD

What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0μ—μ„œ μ§ˆλ¬Έλ‹΅λ³€ 20,000+ μŒμ„ ν¬ν•¨ν•˜μ—¬ 총 100,000+ 쌍으둜 κ΅¬μ„±λœ ν•œκ΅­μ–΄ Machine Reading Comprehension 데이터셋 μž…λ‹ˆλ‹€. KorQuAD 1.0κ³ΌλŠ” λ‹€λ₯΄κ²Œ 1~2 문단이 μ•„λ‹Œ Wikipedia artic

korquad.github.io

- ν•œκ΅­μ–΄ λ¨Έμ‹ λŸ¬λ‹ Reading Comprehension 데이터셋

- 버전: v1.0, v2.0

SQuAD와 λ™μΌν•œ λ°©μ‹μœΌλ‘œ λ§Œλ“€μ–΄μ§„ 데이터셋이닀. λŒ€μ‹  ν•œκ΅­μ–΄λ‘œ λ˜μ–΄μžˆλ‹€λŠ” 차이가 μžˆμŠ΅λ‹ˆλ‹€. μœ„ν‚€ν”Όλ””μ•„μ˜ 데이터λ₯Ό ν™œμš©ν•˜μ—¬ μ œμž‘λ˜μ—ˆλ‹€κ³  ν•œλ‹€. SQuAD v2.0은 v1.0κ³Ό λ‹€λ₯΄κ²Œ 1~2문단이 μ•„λ‹Œ μœ„ν‚€ν”Όλ””μ•„ μ „μ²΄μ—μ„œ 닡을 μ°ΎλŠ”λ‹€λŠ” 차이가 μžˆλ‹€.

 

SQuAD와 KorQuADλŠ” λ™μΌν•œ μ–΄λ…Έν…Œμ΄μ…˜ ꡬ쑰λ₯Ό 가진 λ°μ΄ν„°μ…‹μ΄λ―€λ‘œ, ν”„λ‘œμ νŠΈλ₯Ό 진행할 λ•Œ μ›ν•˜λŠ” μ–Έμ–΄κ°€ μ˜μ–΄μΈμ§€ ν•œκ΅­μ–΄μΈμ§€μ— λ”°λΌμ„œ μ μ ˆν•˜κ²Œ μ„ νƒν•˜μ—¬ ν”„λ‘œμ νŠΈλ₯Ό μˆ˜ν–‰ν•˜λ©΄ λœλ‹€.

'CS study/λ¨Έμ‹ λŸ¬λ‹' Related Articles +