ai-startup
CHAPTER 47 / 100
읽기 약 2분
FUNCTION
AI 음성 변환: STT + TTS 서비스
핵심 개념
Whisper·ElevenLabs·실시간·다국어 — 음성 기반 서비스.
본문
STT (Speech-to-Text)
[Whisper (OpenAI)]
- 가격: $0.006/분
- 정확도: 매우 좋음 (다국어)
- 한국어: 우수
- API: openai.audio.transcriptions
[Deepgram]
- 가격: $0.0043/분 (저렴)
- 실시간 스트리밍
- 발화자 분리
[Google Speech-to-Text]
- 가격: $0.024/분
- 한국어 좋음
- 단어 timestampWhisper 사용
import OpenAI from 'openai';
import fs from 'fs';
const openai = new OpenAI();
// 파일 전사
const result = await openai.audio.transcriptions.create({
file: fs.createReadStream('audio.mp3'),
model: 'whisper-1',
language: 'ko', // ISO 639-1
response_format: 'verbose_json', // text, json, srt, vtt, verbose_json
timestamp_granularities: ['word', 'segment'],
});
// 결과
console.log(result.text); // 전체 텍스트
console.log(result.segments); // 세그먼트별 (timestamps)
console.log(result.words); // 단어별 timestampsTTS (Text-to-Speech)
[ElevenLabs] — 가장 자연스러움
- 가격: $5/22,000 chars (Starter)
- 다국어 (다국어 모델)
- 음성 복제 가능
[OpenAI TTS]
- 가격: $15/1M chars
- 6 voices (다국어)
- 빠름
[Google Cloud TTS]
- 가격: $4/1M chars
- 한국어 우수
- 다양한 voice
[Korean Voice]
- Naver Clova Voice (한국어 최고)
- 토스 보이스ElevenLabs
import { ElevenLabsClient } from 'elevenlabs';
const elevenlabs = new ElevenLabsClient({ apiKey: ELEVEN_KEY });
// 음성 생성
const audio = await elevenlabs.generate({
voice: 'Soyoung', // 한국어 voice
text: '안녕하세요. AI 영어 회화 시작해볼까요?',
model_id: 'eleven_multilingual_v2',
voice_settings: {
stability: 0.7, // 0~1, 높을수록 일관됨
similarity_boost: 0.8, // 음성 유사도
style: 0.2, // 표현력
},
output_format: 'mp3_44100_128',
});
// 스트림으로 받기
const stream = await elevenlabs.generate({ ..., stream: true });
for await (const chunk of stream) {
res.write(chunk);
}실시간 음성 대화
[실시간 영어 회화 SaaS 흐름]
1. 사용자가 마이크로 말함
↓
2. 음성 chunk → STT (Deepgram 실시간)
↓
3. 텍스트 → LLM (Claude)
↓
4. LLM 응답 → TTS (ElevenLabs 스트림)
↓
5. 오디오 → 사용자 스피커
↓
6. 1번부터 반복
→ 1.5~3초 latency
→ 자연스러운 대화음성 복제 (Voice Cloning)
// ElevenLabs — 30초 샘플로 복제
const voice = await elevenlabs.voices.add({
name: 'My Voice',
files: [fs.createReadStream('sample.mp3')],
description: 'My speaking voice',
});
// 그 voice로 어떤 텍스트도 생성
const audio = await elevenlabs.generate({
voice: voice.voice_id,
text: 'Any text in my voice',
});
// 윤리적 사용 — 본인·동의받은 사람만비용 (예상 사용량)
[STT — 1000명 사용자 × 일 5분]
- 5000분/일
- Whisper: $30/일
- Deepgram: $21/일
- 월 $600~900
[TTS — 1000명 × 일 500자]
- 500K chars/일
- ElevenLabs: $7/일
- OpenAI: $3/일
- 월 $90~210
→ 음성 SaaS 비용 비싸 — 가격 책정 신중
→ 무료 한도 작게, Pro 비싸게다음 챕터
CH.48 "Chrome 확장 프로그램".
AI 프롬프트
🤖 AI에게 잘 물어보는 법 — 모델·전략별 프롬프트
무료
월 $0 — 검증·시작 단계
AI 음성 변환을 무료 도구만으로 시작하는 방법을 알려줘.
소자본
월 $20~50 — MVP·초기 운영
월 $20~50 예산으로 AI 음성 변환을 검증·MVP 단계까지 진행하는 전략은?
프로덕션
월 $200~500 — 성장 단계
AI 음성 변환을 프로덕션 단계로 확장할 때 필요한 도구·운영 체계는?
스택
풀스택 — 도구 조합 분석
2026년 AI 음성 변환 관련 도구 5개를 조합한 추천 스택을 알려줘.
⭐ 이것만 기억하세요
AI 음성 변환: STT + TTS 서비스는 이 3가지만 확실히 잡으세요
1.Whisper = STT 표준, ElevenLabs = TTS 자연스러움
2.실시간 음성 대화 = STT → LLM → TTS 1.5~3초
3.STT/TTS 비용 비쌈 — 가격 책정 신중
공유하기
진행도 47 / 100