영이 공부노트

다이브 가을 기수 2주차 과제 - Audio Classification Model (오디오 분류 모델) 만들기 과제 하는 과정

간략하게 정리해보도록 하겠다.

우선, 나는 딥러닝을 그렇게 잘 아는 편은 아니라서 가장 쉬운 방법으로 과제를 해결하기로 하였고

그 과정에서 채택된 것이 바로 CNN 모델이다.

Tensorflow를 이용하였다. (학교에서 시키는 과제는 파이토치를 쓰기 때문에,, 텐서플로우는 처음이다)

1) 오디오 데이터 불러오기

사용한 데이터 설명은 다음과 같다.

14개의 악기들별 소리가 저장되어 있는 데이터셋입니다. 오디오를 MFCC 계수의 개수를 13개로 설정한 MFCC 형태로 전처리했으며 전처리 방식은 아래와 같습니다. 전체 데이터셋에서 무작위로 하나의 악기를 고르고, 해당 악기 레이블의 데이터 중 랜덤하게 파일을 골라 그 음성 파일 내에서 공백 부분을 제외하고 0.5초를 샘플링하는 과정을 전체 데이터셋에 대해 56789번 반복했습니다. 데이터의 형태는 다음과 같습니다. 데이터는 어떤 정규화나 표준화도 거치지 않았습니다.

데이터의 형태는 넘파이로 저장되어 있었기 때문에 넘파이를 이용해 불러와준다.

import numpy as np
Xdata = np.load("Xdata.npy")
ydata = np.load("ydata.npy")

그 후, 필요한 모듈들을 임포트 해온다.

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from sklearn.model_selection import train_test_split

2) 정규화 진행 및 데이터 분할

넘파이 배열 형태이기 때문에 전처리로 간단하게 정규화를 진행해 보았다.

Xdata_normalized = (Xdata - np.mean(Xdata)) / np.std(Xdata)

또한 학습과 테스트 데이터셋 분리를 위해 train_test_split을 이용하였다.

X_train, X_test, y_train, y_test = train_test_split(Xdata_normalized, ydata, test_size = 0.2, random_state = 42)

3) 모델 생성 및 학습

model = tf.keras.Sequential([
    tf.keras.layers.Conv1D(64, kernel_size=3, activation='relu', input_shape=X_train.shape[1:]),
    tf.keras.layers.MaxPooling1D(pool_size=2),
    tf.keras.layers.Conv1D(128, kernel_size=3, activation='relu'),
    tf.keras.layers.MaxPooling1D(pool_size=2),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(512, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(256, activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(y_train.shape[1], activation='softmax')
])

케라스를 이용하여 CNN 층을 쌓아준다. 과적합 방지용으로 Dropout을 이용한다.

층을 쌓는 기준이라 한다면 사실 잘 모르겠고 이것저것 조합해보았다.

# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 모델 학습
history = model.fit(X_train, y_train, epochs=50, batch_size=64)

모델 학습을 위와 같이 진행한다. 에포크 수는 처음에 20으로 했다가 수렴이 안됐길래 더 크게 해줬다.

4) 성능 테스트

Epoch 50/50 688/688 [==============================] - 7s 11ms/step - loss: 0.2341 - accuracy: 0.9247

학습 결과 정확도가 0.9247이었다.

더 학습시키면 완전 수렴할 것 같지만 시간관계상..

Test 데이터셋으로 다시 평가했을 때 결과는 accuracy: 0.8739 이었다. 약간 과적합이 된 걸까?.? 싶기도...

다른 팀원은 LSTM으로 하고 나도 시계열 데이터는 LSTM이 더 성능이 좋다고 알고 있는데 이미 CNN으로 너무 좋은 성능을 내서 더 좋아질 수 있을지 궁금해졌다!

++ 딥러닝 공부 좀 해야겠..다

저작자표시 (새창열림)

CNN을 이용한 오디오 분류 모델 만들기

티스토리툴바