"화면 없는 AI"가 2025년의 가장 뜨거운 제품 범주가 된 이유. 실시간 음성 파이프라인(VAD/STT/LLM/TTS), 음성 LLM(GPT-4o realtime/Gemini Live/Moshi), Turn-taking과 인터럽션, 감정·억양 제어, 전화·브라우저·모바일 실전, 딥페이크 방어와 보안, 한국어 음성 제품의 특수성까지.
오픈소스만으로 실시간 음성 챗봇을 구현하는 종합 가이드. Silero VAD, faster-whisper, Ollama, Piper TTS를 조합한 파이프라인에 barge-in(사용자 발화 시 즉시 응답 중단) 기능을 구현하는 상태머신 설계, Python 예시 코드, 지연시간 최적화, 한국어 품질 개선 팁까지 다룹니다.