영이 공부노트

Scores and Rankings

- Scoring functions: 다차원 데이터를 단일 값으로 변경하여 특정 성질을 강조하는 방법

- Rankings: 점수를 정렬하여 항목의 순위를 매김

Assigning Grades

- 학점은 scoring function으로 부여된다.

- 특징: 임의성 (교수님마다 기준이 다름), validation data 없음 ("옳은" 등급은 없음), general robustness (다른 수업이어도 학생마다 학점은 비슷비슷함)

Scoring vs. Regression

- gold standard/right answer가 없다.

- 머신러닝에서 선형 회귀 같은 경우는 scoring function을 학습시킬 수 있지만 보통 그러지 않는다.

BMI 지수

- BMI = mass / height^2

- BMI는 해석하기 쉽다.

- 운동선수의 BMI를 확인해봤을 떄, 농구선수는 비만인 비율이 낮고, 풋볼은 정상인 비율이 낮다.

Gold Standards and Proxies

- Gold standards: scoring goal을 반영하는, 우리가 맞다고 맞는 지표 또는 정답

- Proxies: 측정하고자 하는 것과 관련된 접근가능성 있는 자료

ex) GPA -> 수업에 얼마나 잘 참여하고 있는지 판단하는 자료로 사용

Scoring vs. Machine Learning

- gold standard가 있다면 정확하게 값을 예측하기 위해 regression function을 학습시킬 수 있음.

- proxy가 있다면 scoring function을 평가하는 것만 하면 된다.

Scores vs. Rankings

- 값이 독립적으로 표현될 수 있나? (351팀 중 111등 / RPI = 39.18)

- 값의 분포가 어떤가? (1등과 2등의 차이가 얼마인가?)

- 중앙값이나 극한을 생각할 것인가? (1등과 2등 차 vs 50등 51등 차?)

Recognizing Good Scoring Functions

- 쉽게 계산 가능하고 이해 가능

- Monotic interpretation 가능

- 이상치에 대한 만족할 만한 결과 도출

- 시스템적으로 정규화된 변수 이용

Normalization and Z-scores

Z_i = (X_i - Xbar)/sigma

- 단위가 없어지도록 만들 수 있음

- 평균 0, 시그마 1

Advanced Ranking Techniques

- Linear combinations of normalized values

- Elo rankings

- Merging rank orderings

- Directed graph orderings

Binary Comparisons

- A팀과 B팀 사이의 비교

- 이러한 비교는 팀 사이 경쟁의 난이도가 차이가 있을 때 적합하지 않다.

Elo Rankings

- 같은 순위로 시작한 이후, 각 시합의 난이도를 반영하여 점수를 매기는 시스템

한 게임이 끝난 이후 값 (k*(Sa_ua))를 더하여 순위를 변경시키는 시스템이다.

- S_A: 경기에서 A팀이 얻은 점수. 보통 1점 -> 승, -1점 -> 패

- u_A: B와의 경기에서 A가 얻을 것이라고 에측되는 점수

* 약체인 팀을 상대할 때, 1에 가까운 값을 가지고, 강팀을 상대할 때 -1에 가까운 값을 가진다.

* 강팀을 상대해서 이겼을 때 등수에 크게 반영되어야 하므로

- k: 단일 경기에서 얻을 수 있는 최대 점수 조정

Expected Match Score

- P(A>B)가 A가 B를 이길 확률이라면, u_A는 다음과 같이 정의된다.

- 순위 매기는 시스템이 의미있다면, P(A>B)는 r(A)-r(B)의 함수가 되어야 한다.

* 만약 전적이 없는 경우 이길 가능성을 어떻게 판단할까?

-> ranking 차로 mapping을 해볼 수 있다. (잘 만든 시스템일 경우 잘 작동할 것이다.)

-> mapping을 하는 방법? Logit function 이용

Logit Function

f(0) = 1/2

f(∞) = 1

f(-∞) = 0 인 함수를 가리키며, 그 함수는 다음과 같다.

그래프를 살펴보면 다음과 같은 형태를 보인다.

x의 의미는 r(A)-r(B)이다.

Borda's method

- 여러 번의 경쟁이 있는 상황에서 사용할 수 있는 방법

- 순위(위치)에 따라 점수를 다르게 매겨주고, 총합 점수를 통해 rank를 결정

- Linear position weight는 모든 등수 사이에 같은 confidence가 있을 때에는 문제가 없으나, 보통 1등/꼴등 근처 구별이 중앙보다 쉬움

-> normally distributed weight를 사용해야 함

Directed Graph Orderings

- A>B를 edge(A, B)로 나타낼 수 있음

- inconsistency가 없다면, directed acyclic graph를 얻게 된다.

- Topologically sorting

뽑는 방법

1. incoming edge가 없는 A 노드를 선택 후 삭제

2. 다음 노드 중 incoming edge가 없는 노드를 고르고 삭제 -> 반복

결과) ABCGDEF or GABCDEF

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Chapter 4. Scores and Rankings

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역