본문 바로가기

CS study

(12)
[git] fatal: the remote end hung up unexpectedly everything up-to-date 오류 해결 vscode를 이용해서 git 관리를 하고 있는데 (코드를 따로 작성하지는 않고 확장 프로그램을 이용한다) 난생 처음 보는 오류를 맞닥뜨렸다."unexpected disconnect while reading sideband packet fatal: the remote end hung up unexpectedly everything up-to-date"이라는 창이 뜨면서 푸시가 되지 않는 현상이 발생했다.인터넷 오류인가 싶어서 다른 와이파이를 이용하였지만 이 문제는 아니었다. 구글링을 통해 오류의 원인을 파악했다. 기본적으로 푸시할 수 있는 한 개 파일의 최대 용량이 1MB여서, 용량 초과한 파일을 push할 때 오류가 발생한다고 한다. 이번에 처음으로 1MB가 넘는 파일을 업로드해서 그런 것이었다.이를 ..
[Selenium] 무한스크롤 페이지 스크롤 끝까지 내리는 방법 무한스크롤 페이지에서 크롤링을 할 일이 생겼다.무한스크롤 페이지에서 항목의 목록을 모두 수집하기 위해서는 스크롤 바를 맨 끝까지 내려야한다.따라서 페이지를 내려도 계속해서 새로운 내용이 로딩되는 무한스크롤 웹페이지에서 스크롤 바를 계속해서 내리는 방법을 알아보자. 여러 가지 방법이 있는데, Keys.PAGE_DOWN를 사용할 수 있다. 1. 필요 라이브러리를 불러온다.from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by import By 2. Keys.PAGE_DOWN..
[LLM] SQuAD / KorQuAD 학회에서 주어진 지문에 대한 객관식 질문을 생성하는 Question Generation NLP 프로젝트를 진행 중이다.QG 프로젝트에 사용할 수 있는 대표적인 데이터셋을 소개하고자 한다. 1. SQuAD https://rajpurkar.github.io/SQuAD-explorer/ The Stanford Question Answering DatasetWhat is SQuAD? Stanford Question Answering Dataset (SQuAD) is a reading comprehension dataset, consisting of questions posed by crowdworkers on a set of Wikipedia articles, where the answer to every qu..
CNN을 이용한 오디오 분류 모델 만들기 다이브 가을 기수 2주차 과제 - Audio Classification Model (오디오 분류 모델) 만들기 과제 하는 과정 간략하게 정리해보도록 하겠다. 우선, 나는 딥러닝을 그렇게 잘 아는 편은 아니라서 가장 쉬운 방법으로 과제를 해결하기로 하였고 그 과정에서 채택된 것이 바로 CNN 모델이다. Tensorflow를 이용하였다. (학교에서 시키는 과제는 파이토치를 쓰기 때문에,, 텐서플로우는 처음이다) 1) 오디오 데이터 불러오기 사용한 데이터 설명은 다음과 같다. 14개의 악기들별 소리가 저장되어 있는 데이터셋입니다. 오디오를 MFCC 계수의 개수를 13개로 설정한 MFCC 형태로 전처리했으며 전처리 방식은 아래와 같습니다. 전체 데이터셋에서 무작위로 하나의 악기를 고르고, 해당 악기 레이블의 데..
Microaveraging vs. Macroaveraging 이진 분류기의 성능을 계산할 때 우리는 confusion matrix (혼동행렬) 을 그려 True positive, True negative, False positive, False negative를 확인하고 이를 통해 precision, recall, accuracy등을 확인할 수 있다. 그런데 만약 분류해야 할 클래스가 3개 이상이라면 어떻게 해야할까? 두 가지 방식이 있는데 바로 Microaveraging 과 Macroaveraging이다. 둘의 차이를 확인해보자. Macroaveraging 구하고 싶은 각각의 클래스에 대해서 성능을 계산한다. 그 이후 각 클래스에 대한 평균값이 최종 성능이 된다. 만약 클래스가 4개라면, 작은 confusion matrix 4개를 그리고, 이 4개에 대한 평균값..
Categorical Data Encoding: Mean Target Encoding 이번 포스팅에서는 카테고리 (범주형) 자료 인코딩 방법 중 하나인 Mean Target Encoding에 대해 소개하고자 한다. 사실 나는 범주형 변수 인코딩 방법에 라벨인코딩과 원 핫 인코딩만 있는 줄 알았다. 그런데 이번 채무불이행 데이터를 분석할 때 내가 했던 절차들이 사실은 Mean Target Encoding이었다는 것을 알게 되어 놀랄 수밖에 없었다. 아무튼 본론으로 들어가자. 범주형 변수가 무엇인지는, 이전에 내가 작성하였던 글을 참고하면 좋을 것 같다. https://iamnotwhale.tistory.com/5 [EDA] 데이터 종류별 시각화 방법 데이터의 종류 데이터는 크게 범주형, 수치형 두 가지 분류로 나눌 수 있다. 범주형 데이터는 범주/카테고리를 구분하는 각각의 이름을 갖는 데이..
[회귀분석] 다중공선성과 VIF 다중공선성이란? 회귀분석을 할 때 다중공선성을 고려해야 한다고 하는데, 과연 다중공선성이란 무엇일까? 다중공선성(Multicollinearity)는 회귀분석 시 독립변수들 간의 강한 상관관계가 나타날 때를 일컫는 용어다. 만약 변수들 간 다중공선성이 높다고 판단되면, 이 변수들은 더이상 독립변수라고 보기 어렵다. 회귀분석의 전제인 독립변수 X들을 통해 Y를 예측한다는 가정이 성립할 수 없게 되므로 다중공선성은 회귀분석의 심각한 문제 중 하나로 손꼽힌다. VIF Variance Inflation Factor의 약자인 VIF는 한국어로 번역하면 분산 팽창 인수다. 이 값은 독립변수의 다중공선성을 판단하기 위한 지표로 사용되며 계산식은 다음과 같다. r_i는 i번째 변수를 제외한 회귀식의 R^2값이다. 보통 ..
github에 파일 업로드하기 1. 새 repository 생성 github에 로그인하여 상단 +버튼을 통해 새로운 repository를 생성한다. README file 추가를 해두면 나중에 repository 설명 추가할 때 요긴하게 사용할 수 있다. repository의 주소가 있어야 해당 repository에 파일 업로드가 가능하다. 2. 원하는 파일 위치에서 git 실행 https://git-scm.com/ Git git-scm.com 위 페이지에서 git을 다운로드 받아 설치한다. 업로드를 원하는 파일이 있는 폴더를 열고 빈 공간에 마우스 우클릭을 하여 Git Bash Here를 클릭한다. 3. git init 창에 다음과 같이 입력한다. git init 4. git add git add test.txt 원하는 파일을 git..