Hello! 👋

I'm Junseok Oh (오준석) aka june-oh / RiceBerry

서강대학교 컴퓨터공학과 박사과정 수료

About Me

서강대학교 컴퓨터공학과 박사과정 수료 (지도교수: 김지환). 주요 연구 분야는 End-to-End 음성 인식(ASR), 음성 분석 및 평가, 문맥 인식 및 도메인 특화 ASR, 대규모 언어 모델(LLM)과 음성 기술의 통합입니다. 강건한 저지연 스트리밍 ASR 시스템 개발과 자동 말하기 평가 프레임워크 구축에 주력하고 있습니다.

Tech Stack

Programming & Tools

Speech & ML Frameworks

NVIDIA NeMo Kaldi KenLM Hugging Face Transformers & PEFT Whisper Wav2Vec FastConformer

Research Interests

음성 인식

스트리밍 ASR 강건 ASR 컨텍스트 바이어싱 도메인 적응

Speech + LLM

Speech LLM LLM 기반 ASR 멀티모달 AI

음성 분석

말하기 자동 평가 마비말장애 분석 오디오 이벤트 검출

Research Projects

박사 학위 논문: Adapter-Only Speech–LLM Bridging

2025.10 - 현재

Whisper(음성 인코더)와 Gemma(LLM) 모두 동결 상태에서 전체의 0.44% 경량 어댑터만 학습. 학술 강연 4개 분야 평균 26.8% WER 감소. 자연어 도메인 프롬프팅으로 전문 어휘 F1 +7.2%p 향상. PAKDD 2026 Accepted (Oral).

PyTorchWhisperGemmaAdapterDomain Adaptation

SEAM: 음성–LLM 시간의미론적 정렬

2025.05 - 2026.01

교차 어텐션 기반 가변 속도 생성 인코더-디코더 모듈. 음성 인코더 동결 + LLM LoRA. LibriSpeech 2.6%/5.2% WER, 교차 도메인 TED-LIUM-v2 4.7% WER 달성. EACL 2026 Findings Accepted.

PyTorchWhisperLLMLoRAASR

음성/가창 변환 (SVC)

2025

Partner:개인 프로젝트

so-vits-svc 및 whisper-vits-svc를 활용한 End-to-end SVC 파이프라인. 약 10시간 화자 데이터 수집, UVR5 보컬 추출, RTX A5000 학습. 음성 변환 및 가창 변환 추론 수행.

so-vits-svcWhisperUVR5SVCTTS

End-to-End 한국어 음성인식 프로젝트

2024 - 2025.04

Partner:산학협력: 스마일게이트

Hybrid FastConformer RNNT+CTC 기반 범용 한국어 ASR 시스템 개발. Cache-aware 스트리밍 저지연 추론 구현. 게임 도메인 어휘 컨텍스트 바이어싱 적용으로 인식 성능 향상.

NVIDIA NeMoFastConformerRNNTCTC

전화망(8kHz) 환경 End-to-End 음성인식

2024.04 - 2024.12

Partner:산학협력: 롯데이노베이트

8kHz 전화망 데이터에 최적화된 스트리밍/비스트리밍 한국어 ASR 파이프라인 개발 (FastConformer-CTC). 도메인 시프트 대응 동적 컨텍스트 바이어싱 모듈 구현.

FastConformerCTCStreaming ASR

(외국인을 위한) 2024년 한국어 평가 말하기, 쓰기 자동 채점 연구

2024.05 - 2024.12

Partner:주관: 문화체육관광부

Wav2Vec 기반 멀티 태스크 학습으로 발음, 유창성, 내용을 공동 모델링하는 L2-한국어 말하기 평가 프레임워크 개발. Conformer-CTC ASR + LLaMa 결합 다측면 자동 채점.

Wav2VecConformerLLaMa

대화 기반 설명가능성을 멀티모달로 제공하는 인공지능 기술 개발

2022.04 - 현재

Partner:주관: 과학기술정보통신부/IITP

마비말장애 중증도 분류를 위한 AI 프레임워크 개발. 음향/언어 특성 분석 기반 해석 가능한 진단 모듈 구현. 대화형 멀티모달 환경에서 AI 출력과 사용자 이해 간 해석 격차 완화.

Explainable AIMulti-modalSpeech Analysis

무분별적 유해성 미디어 배포 문제 해결을 위한 지능적 분석/분류 기반 콘텐츠 등급분류 기술 개발

2022 - 2024

Partner:주관: 과학기술정보통신부

자동 영상 등급 판정 프레임워크 내 음성인식 및 오디오 분석 담당. 음향 이벤트 검출(SED) 모델 설계. 도메인 영상 코퍼스에 맞춰 Whisper ASR 파인튜닝.

WhisperSound Event DetectionFine-tuning

(외국인을 위한) 2023년 한국어 평가 말하기, 쓰기 자동 채점 연구

2023.05 - 2023.12

Partner:주관: 문화체육관광부

Conformer-CTC ASR 출력 + BERT 기반 의미 점수화를 결합한 L2-한국어 평가 파이프라인 구축. 발음 정확도, 발화 속도, 구문적 정확성 정량화 알고리즘 개발.

ConformerCTCBERT

010

비디오 튜링 테스트를 통과할 수준의 비디오 스토리 이해 기반 질의응답 기술 개발

2017.09 - 2019.12

Partner:주관: 과학기술정보통신부

Kaldi 문장 단위 디코더를 수정하여 실시간 비디오 QA에서 RT 1.0 미만 달성. 타깃 비디오에서 도메인 특화 코퍼스 수집/정제, 음향/언어 모델 최적화.

KaldiLanguage ModelReal-time ASR

Experience

박사 연구원

서강대학교 Auditory Intelligence Lab

2022.03 - 현재

지도교수: 김지환
End-to-End ASR, 음성 분석, LLM 통합 기술 연구
FastConformer RNNT+CTC 기반 스트리밍 ASR 시스템 개발
EACL, PAKDD, TIIS 등 국제 학술대회/저널 논문 게재

석사 연구원

서강대학교 Auditory Intelligence Lab

2017.09 - 2019.08

지도교수: 김지환
학위 논문: 약한 레이블 말뭉치를 이용한 한국어 실시간 자동 전사 시스템
Kaldi 디코더 수정으로 sub-1.0 RT 실시간 추론 달성
도메인 특화 코퍼스 수집 및 음향/언어 모델 최적화

Education

컴퓨터공학과 박사과정 수료

서강대학교

2022.03 - 현재

지도교수: 김지환
연구 분야: End-to-End ASR, 음성 분석, LLM 통합
PAKDD 2026 Accepted (Oral Presentation)
EACL 2026 Findings Accepted

컴퓨터공학과 공학석사

서강대학교

2017.09 - 2019.08

지도교수: 김지환
학위 논문: 약한 레이블 말뭉치를 이용한 한국어 실시간 자동 전사 시스템

컴퓨터공학과 공학학사

서강대학교

2010.03 - 2017.08

Publications

International Journals

[1]
J. Oh, J. Nam, and J.-H. Kim, "HiTCA: Fusing Hierarchical Text and Contextual Audio for Accurate VCR," EURASIP Journal on Audio, Speech, and Music Processing, 2025.SCIE, Under Review
[2]
S. Ma, J. Oh, M. Kim, and J.-H. Kim, "Survey on Deep Learning-based Speech Technologies in Voice Chatbot Systems," KSII Transactions on Internet & Information Systems (TIIS), vol. 19, no. 5, pp. 1406-1440, 2025.SCIE
[3]
J. Oh, E. Cho, and J.-H. Kim, "Integration of WFST language model in pre-trained Korean E2E ASR model," KSII Transactions on Internet and Information Systems (TIIS), vol. 18, no. 6, pp. 1692–1705, 2024.SCIE
[4]
S. Seo, J. Oh, E. Cho, H. Park, G. Kim, and J.-H. Kim, "TP-MobNet: A Two-pass Mobile Network for Low-complexity Classification of Acoustic Scene," Computers, Materials & Continua, vol. 73, no. 2, 2022.SCIE
[5]
M. Lim, D. Lee, H. Park, Y. Kang, J. Oh, J.-S. Park, G.-J. Jang, and J.-H. Kim, "Convolutional neural network based audio event classification," KSII Transactions on Internet and Information Systems (TIIS), vol. 12, no. 6, pp. 2748–2760, 2018.SCIE

International Conferences

[1]
J. Oh and J.-H. Kim, "Adapter-Only Bridging of Frozen Speech Encoder and Frozen LLM for ASR," in Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2026.Accepted, Oral
[2]
J. Oh and J.-H. Kim, "SEAM: Bridging the Temporal-Semantic Granularity Gap for LLM-based Speech Recognition," in Findings of the Association for Computational Linguistics: EACL 2026, pp. 2135–2144, 2026.
[3]
J. Oh, H. Park, and J.-H. Kim, "Speech Intelligibility Prediction of Dysarthria Using Deep Convolutional Networks," in Proc. Asia Pacific International Conference on Information Science and Technology (APIC-IST), pp. 236–237, 2023.
[4]
M. Kim, J. Oh, and J.-H. Kim, "Automated Dysarthria Severity Classification Using Diadochokinetic test and Speech Intelligibility Based on LightGBM," in Proc. Asia Pacific International Conference on Information Science and Technology (APIC-IST), pp. 12–13, 2023.
[5]
S. Seo, M. Lim, D. Lee, H. Park, J. Oh, D. J. Rim, and J.-H. Kim, "Environmental noise robustness for Korean fricatives using speech enhancement generative adversarial networks," in Proc. IEEE Int. Conf. Big Data and Smart Computing (BigComp), pp. 1–4, 2019.
[6]
S. Seo, D. J. Rim, M. Lim, D. Lee, H. Park, J. Oh, C. Kim, and J.-H. Kim, "Shortcut connections based deep speaker embeddings for end-to-end speaker verification system," in Proc. Interspeech, pp. 2928–2932, 2019.

Domestic Journals

[1]
이정필, 장재후, 김지현, 김민섭, 김성준, 김민서, 김하영, 오준석, 정원, 김장연 외, "음성에 기반한 마비말장애 진단과 설명이 가능한 시스템," 정보과학회지, vol. 42, no. 4, pp. 45–56, 2024.KCI
[2]
H. Park, Y. Kang, M. Lim, D. Lee, J. Oh, and J.-H. Kim, "LFMMI-based acoustic modeling by using external knowledge," The Journal of the Acoustical Society of Korea, vol. 38, no. 5, pp. 607–613, 2019.KCI

Teaching

Teaching Assistant Experience

강의 조교CSE5109/CSEG109/AIEG109/AIE5109

생성형 AI 기반 오디오인식 및 합성/변환

2024년 2학기

서강대학교 · 김지환 교수

오디오 처리, 딥러닝 기초, 언어 모델, FastSpeech2 TTS 실습

Lab Materials

강의 조교Samsung AI Academy

딥러닝 기반 자동 음성 인식

2023년 여름

서강대학교 × 삼성전자 · 김지환 교수

김지환 교수 초청 강의 조교. 오디오 처리, MLP, CTC, Whisper, NeMo 파인튜닝, WFST 실습.

Lab Materials

강의 조교CSE5109/CSEG109/AIEG109/AIE5109

오디오인식 및 합성변환

2023년 2학기

서강대학교 · 김지환 교수

오디오 처리, PyTorch, RNN/CNN/Seq2Seq, FastSpeech2/VocGAN TTS 실습

Lab Materials

강의 조교CSE5311/CSEG311/GITA370

대화형 사용자 인터페이스개론

2022년

서강대학교 · 김지환 교수

대화 시스템 및 대화형 AI 인터페이스 설계 실습

Achievements

Awards

장려상2023

한국어 AI 경진대회

Track2-1, 상담 음성인식

Team '상담 ONE': 오준석, 김민서, 남주형

주관: 한국지능정보사회진흥원(NIA)

최우수상 / 네이버 대표 (1위)2022

한국어 인공지능 경진대회

기업현안 (회의음성)

Team 'SGCSE': 오준석, 김하영

주관: 한국지능정보사회진흥원(NIA)

최우수상 (1위)2021

음절인식률 측정 알고리즘 개발 대회

숫자 포함 패턴발화 음성 데이터셋 활용

Team '검은사케동': 박호성, 오준석, 조은수

주관: KT alpha

Patents

KR 10-2699607 (B1) - 코퍼스 구축 서비스 제공 서버 및 방법 (등록: 2024.08)

Certificates

NVIDIA Deep Learning Institute - Building Conversational AI Applications (2022)