Scores and Rankings
- Scoring functions: 다차원 데이터를 단일 값으로 변경하여 특정 성질을 강조하는 방법
- Rankings: 점수를 정렬하여 항목의 순위를 매김
Assigning Grades
- 학점은 scoring function으로 부여된다.
- 특징: 임의성 (교수님마다 기준이 다름), validation data 없음 ("옳은" 등급은 없음), general robustness (다른 수업이어도 학생마다 학점은 비슷비슷함)
Scoring vs. Regression
- gold standard/right answer가 없다.
- 머신러닝에서 선형 회귀 같은 경우는 scoring function을 학습시킬 수 있지만 보통 그러지 않는다.
BMI 지수
- BMI = mass / height^2
- BMI는 해석하기 쉽다.
- 운동선수의 BMI를 확인해봤을 떄, 농구선수는 비만인 비율이 낮고, 풋볼은 정상인 비율이 낮다.
Gold Standards and Proxies
- Gold standards: scoring goal을 반영하는, 우리가 맞다고 맞는 지표 또는 정답
- Proxies: 측정하고자 하는 것과 관련된 접근가능성 있는 자료
ex) GPA -> 수업에 얼마나 잘 참여하고 있는지 판단하는 자료로 사용
Scoring vs. Machine Learning
- gold standard가 있다면 정확하게 값을 예측하기 위해 regression function을 학습시킬 수 있음.
- proxy가 있다면 scoring function을 평가하는 것만 하면 된다.
Scores vs. Rankings
- 값이 독립적으로 표현될 수 있나? (351팀 중 111등 / RPI = 39.18)
- 값의 분포가 어떤가? (1등과 2등의 차이가 얼마인가?)
- 중앙값이나 극한을 생각할 것인가? (1등과 2등 차 vs 50등 51등 차?)
Recognizing Good Scoring Functions
- 쉽게 계산 가능하고 이해 가능
- Monotic interpretation 가능
- 이상치에 대한 만족할 만한 결과 도출
- 시스템적으로 정규화된 변수 이용
Normalization and Z-scores
Z_i = (X_i - Xbar)/sigma
- 단위가 없어지도록 만들 수 있음
- 평균 0, 시그마 1

Advanced Ranking Techniques
- Linear combinations of normalized values
- Elo rankings
- Merging rank orderings
- Directed graph orderings
Binary Comparisons
- A팀과 B팀 사이의 비교
- 이러한 비교는 팀 사이 경쟁의 난이도가 차이가 있을 때 적합하지 않다.
Elo Rankings
- 같은 순위로 시작한 이후, 각 시합의 난이도를 반영하여 점수를 매기는 시스템

한 게임이 끝난 이후 값 (k*(Sa_ua))를 더하여 순위를 변경시키는 시스템이다.
- S_A: 경기에서 A팀이 얻은 점수. 보통 1점 -> 승, -1점 -> 패
- u_A: B와의 경기에서 A가 얻을 것이라고 에측되는 점수
* 약체인 팀을 상대할 때, 1에 가까운 값을 가지고, 강팀을 상대할 때 -1에 가까운 값을 가진다.
* 강팀을 상대해서 이겼을 때 등수에 크게 반영되어야 하므로
- k: 단일 경기에서 얻을 수 있는 최대 점수 조정
Expected Match Score
- P(A>B)가 A가 B를 이길 확률이라면, u_A는 다음과 같이 정의된다.

- 순위 매기는 시스템이 의미있다면, P(A>B)는 r(A)-r(B)의 함수가 되어야 한다.
* 만약 전적이 없는 경우 이길 가능성을 어떻게 판단할까?
-> ranking 차로 mapping을 해볼 수 있다. (잘 만든 시스템일 경우 잘 작동할 것이다.)
-> mapping을 하는 방법? Logit function 이용
Logit Function
f(0) = 1/2
f(∞) = 1
f(-∞) = 0 인 함수를 가리키며, 그 함수는 다음과 같다.

그래프를 살펴보면 다음과 같은 형태를 보인다.

x의 의미는 r(A)-r(B)이다.
Borda's method
- 여러 번의 경쟁이 있는 상황에서 사용할 수 있는 방법
- 순위(위치)에 따라 점수를 다르게 매겨주고, 총합 점수를 통해 rank를 결정
- Linear position weight는 모든 등수 사이에 같은 confidence가 있을 때에는 문제가 없으나, 보통 1등/꼴등 근처 구별이 중앙보다 쉬움
-> normally distributed weight를 사용해야 함
Directed Graph Orderings
- A>B를 edge(A, B)로 나타낼 수 있음
- inconsistency가 없다면, directed acyclic graph를 얻게 된다.
- Topologically sorting

뽑는 방법
1. incoming edge가 없는 A 노드를 선택 후 삭제
2. 다음 노드 중 incoming edge가 없는 노드를 고르고 삭제 -> 반복
결과) ABCGDEF or GABCDEF