정답 파일 덮어쓰기
기존 내용은 지워지고 새로운 내용으로 변경됩니다.
취소
확인
분석 진행 중
0
초
첫 분석은 모델 로드(특히 Cohere ~4GB)로 수십 초 걸릴 수 있습니다.
두 번째 분석부터는 캐시되어 즉시 시작됩니다.
분석 실행
ASR 모델 비교
여러 ASR 모델로 분석 후 비교 리포트를 띄웁니다
▼
분석 옵션
(클릭하여 접기/펼치기)
1
음원 파일
서버
0-31.mp3
1-43.mp3
1-59.m4a
2-03.mp3
3-10.m4a
6-57.mp3
english_voice.mp3
업로드
3
정답 텍스트
(선택)
정답으로 등록
2
모델 / 언어
whisper-large-v3-turbo
cohere-transcribe-03-2026
Qwen3-ASR-1.7B
언어
ko
en
ja
zh
es
fr
de
4
전처리
(선택)
silero-vad
ⓘ
비음성/무음 구간을 자동 감지해서 잘라냄. 통화 시작·끝의 무음에서 흔히 나오는 환각("사랑합니다 사랑합니다" 같은 반복) 을 줄여 ASR 정확도 향상. 1.7MB 신경망, CPU/GPU 모두 빠름.
DeepFilterNet
ⓘ
딥러닝 기반 노이즈 제거. 에어컨·홀 잡음·사무실 소음 같은 비정상(non-stationary) 잡음에 강함. 음원이 깨끗하면 효과 미미하고 처리 시간만 추가됨. 둘 다 켜면 노이즈 제거 → VAD 순으로 적용.
⚙️ 고급 설정 (모델별 튜닝값)
whisper-large-v3-turbo
Beam search 개수
ⓘ
디코딩 시 동시에 탐색하는 후보 수. 1=greedy(가장 빠름), 높을수록 정확하지만 느려짐. 4~8 권장.
Temperature
ⓘ
샘플링 다양성. 0=결정론적, 높을수록 다양한(불안정한) 결과. ASR 에서는 보통 0.0~0.3 으로 낮게 둠.
Repetition penalty
ⓘ
이미 등장한 토큰의 logit 을 줄여서 반복을 억제. 1.0=중립, 1.5↑은 자연 반복("네 네" 같은 것)도 차단해 누락 위험.
No-repeat n-gram
ⓘ
같은 N-gram 이 두 번 연속 못 나오게 차단. 0=비활성, 2~3이 일반적. 낮을수록 강하게 차단.
cohere-transcribe-03-2026
Beam search 개수
ⓘ
디코딩 시 동시 탐색하는 후보 수. 1=greedy(가장 빠름), 4-6 권장. 높이면 정확도↑ 속도↓.
Repetition penalty
ⓘ
이미 등장한 토큰 logit 감소. 무음에서 "네 네 네" 같은 환각이 심하면 1.3~1.5. 너무 높이면 자연 발화도 손상.
No-repeat n-gram
ⓘ
같은 N-gram 두 번 못 나오게 차단. 0=비활성, 2-3 권장. 낮을수록 강하게 차단되어 환각 감소.
청크 길이 (초)
ⓘ
긴 오디오를 자르는 단위. 짧을수록 안정적이고 환각이 적지만 경계 손실이 누적될 수 있음. 길수록 컨텍스트가 풍부하지만 무음 구간에서 환각 발생 위험 증가. 30이 안정적.
Qwen3-ASR-1.7B
No-repeat n-gram
ⓘ
같은 N-gram 두 번 못 나오게 차단. "사랑합니다 사랑합니다" 같은 디코더 루프 방지. 0=비활성, 2-3 권장.
Repetition penalty
ⓘ
이미 등장한 토큰 logit 감소. 1.0=중립, 높이면 반복 감소하지만 자연 발화도 손상될 수 있음.
첫 분석은 모델 로드(Cohere ~4GB)로 수십 초 걸릴 수 있습니다. 두 번째 분석부터는 캐시되어 즉시 시작.
옵션을 선택한 뒤 우측 상단의
분석 실행
버튼을 누르세요.