ννμμ μ£Όμ΄μ§ μ§λ¬Έμ λν κ°κ΄μ μ§λ¬Έμ μμ±νλ Question Generation NLP νλ‘μ νΈλ₯Ό μ§ν μ€μ΄λ€.
QG νλ‘μ νΈμ μ¬μ©ν μ μλ λνμ μΈ λ°μ΄ν°μ μ μκ°νκ³ μ νλ€.
1. SQuAD
https://rajpurkar.github.io/SQuAD-explorer/
The Stanford Question Answering Dataset
What is SQuAD? Stanford Question Answering Dataset (SQuAD) is a reading comprehension dataset, consisting of questions posed by crowdworkers on a set of Wikipedia articles, where the answer to every question is a segment of text, or span, from the correspo
rajpurkar.github.io
- μμ΄ λ¨Έμ λ¬λ Reading Comprehension λ°μ΄ν°μ
- λ²μ : v1.1, v2.0
Stanford Question Answering Dataset (SQuAD)μ μ½μλ€. μ°λ¦¬λ QG νλ‘μ νΈμ μ¬μ©νμ§λ§, μλλ QAλ₯Ό μν λ°μ΄ν°μ μ΄λ€.
λ²μ v1.1μ κ²½μ°μλ 500+κ°μ μν°ν΄λ‘ λ§λ€μ΄μ§ 100,000+κ°μ QA μμ΄ μ‘΄μ¬νλ€.
μ¬μ΄νΈμ λ€μ΄κ°μ νμΈν΄λ³΄λ©΄, μμ μ§λ¬Έκ³Ό ground truth λ°μ΄ν°, κ·Έλ¦¬κ³ μμΈ‘ν λ΅ μΌλΆλ₯Ό νμΈν΄λ³Ό μ μλ€.
μ무λλ λν νμμ΄λ€ 보λκΉ λ€λ₯Έ μ¬μ©μλ€μ΄ μΌλ§λ λ΅λ³μ μ μ°Ύμλμ§ (λμ μ μλ₯Ό μ»μλμ§) μ€μ½μ΄λ³΄λλ₯Ό νμΈν μ μλ€.
v1.1μλ λ΅λ³ν μ μλ μ§λ¬Έ λ°μ΄ν°λ§ ν¬ν¨λμ΄μλ€κ³ νλ€λ©΄, v2.0μλ μΌλΆλ¬ λ΅μ μ°Ύμ μ μλ λ¬Έμ κΉμ§ ν¬ν¨μ΄ λμ΄μλ€. μ΄λ΄ κ²½μ°μ λͺ¨λΈμ λ΅μ μ°Ύμ μ μλ λ¬Έμ μμ μΈμν μ μμ΄μΌ νλ€κ³ νλ€.
QG νλ‘μ νΈμμλ μ§λ¬Έκ³Ό μ§λ¬Έλ§ μ¬μ©νλ©΄ λλκΉ ν¬κ² μκ΄μ μλ€.
2. KorQuAD
KorQuAD
What is KorQuAD 2.0? KorQuAD 2.0μ KorQuAD 1.0μμ μ§λ¬Έλ΅λ³ 20,000+ μμ ν¬ν¨νμ¬ μ΄ 100,000+ μμΌλ‘ ꡬμ±λ νκ΅μ΄ Machine Reading Comprehension λ°μ΄ν°μ μ λλ€. KorQuAD 1.0κ³Όλ λ€λ₯΄κ² 1~2 λ¬Έλ¨μ΄ μλ Wikipedia artic
korquad.github.io
- νκ΅μ΄ λ¨Έμ λ¬λ Reading Comprehension λ°μ΄ν°μ
- λ²μ : v1.0, v2.0
SQuADμ λμΌν λ°©μμΌλ‘ λ§λ€μ΄μ§ λ°μ΄ν°μ μ΄λ€. λμ νκ΅μ΄λ‘ λμ΄μλ€λ μ°¨μ΄κ° μμ΅λλ€. μν€νΌλμμ λ°μ΄ν°λ₯Ό νμ©νμ¬ μ μλμλ€κ³ νλ€. SQuAD v2.0μ v1.0κ³Ό λ€λ₯΄κ² 1~2λ¬Έλ¨μ΄ μλ μν€νΌλμ μ 체μμ λ΅μ μ°Ύλλ€λ μ°¨μ΄κ° μλ€.
SQuADμ KorQuADλ λμΌν μ΄λ Έν μ΄μ ꡬ쑰λ₯Ό κ°μ§ λ°μ΄ν°μ μ΄λ―λ‘, νλ‘μ νΈλ₯Ό μ§νν λ μνλ μΈμ΄κ° μμ΄μΈμ§ νκ΅μ΄μΈμ§μ λ°λΌμ μ μ νκ² μ ννμ¬ νλ‘μ νΈλ₯Ό μννλ©΄ λλ€.