ASR 모델 비교

Beam search 개수 ⓘ 디코딩 시 동시에 탐색하는 후보 수. 1=greedy(가장 빠름), 높을수록 정확하지만 느려짐. 4~8 권장.

Temperature ⓘ 샘플링 다양성. 0=결정론적, 높을수록 다양한(불안정한) 결과. ASR 에서는 보통 0.0~0.3 으로 낮게 둠.

Repetition penalty ⓘ 이미 등장한 토큰의 logit 을 줄여서 반복을 억제. 1.0=중립, 1.5↑은 자연 반복("네 네" 같은 것)도 차단해 누락 위험.

No-repeat n-gram ⓘ 같은 N-gram 이 두 번 연속 못 나오게 차단. 0=비활성, 2~3이 일반적. 낮을수록 강하게 차단.

Beam search 개수 ⓘ 디코딩 시 동시 탐색하는 후보 수. 1=greedy(가장 빠름), 4-6 권장. 높이면 정확도↑ 속도↓.

Repetition penalty ⓘ 이미 등장한 토큰 logit 감소. 무음에서 "네 네 네" 같은 환각이 심하면 1.3~1.5. 너무 높이면 자연 발화도 손상.

No-repeat n-gram ⓘ 같은 N-gram 두 번 못 나오게 차단. 0=비활성, 2-3 권장. 낮을수록 강하게 차단되어 환각 감소.

청크 길이 (초) ⓘ 긴 오디오를 자르는 단위. 짧을수록 안정적이고 환각이 적지만 경계 손실이 누적될 수 있음. 길수록 컨텍스트가 풍부하지만 무음 구간에서 환각 발생 위험 증가. 30이 안정적.

No-repeat n-gram ⓘ 같은 N-gram 두 번 못 나오게 차단. "사랑합니다 사랑합니다" 같은 디코더 루프 방지. 0=비활성, 2-3 권장.

Repetition penalty ⓘ 이미 등장한 토큰 logit 감소. 1.0=중립, 높이면 반복 감소하지만 자연 발화도 손상될 수 있음.