OPEN HYPER STEP
← 목록으로 (ai-startup)
AI-STARTUP · 47 / 100
ai-startup
CHAPTER 47 / 100
읽기 약 2
FUNCTION

AI 음성 변환: STT + TTS 서비스


핵심 개념

Whisper·ElevenLabs·실시간·다국어 — 음성 기반 서비스.

본문

STT (Speech-to-Text)

📋 코드 (15줄)
[Whisper (OpenAI)]
- 가격: $0.006/분
- 정확도: 매우 좋음 (다국어)
- 한국어: 우수
- API: openai.audio.transcriptions

[Deepgram]
- 가격: $0.0043/분 (저렴)
- 실시간 스트리밍
- 발화자 분리

[Google Speech-to-Text]
- 가격: $0.024/분
- 한국어 좋음
- 단어 timestamp

Whisper 사용

TYPESCRIPT📋 코드 (19줄)
import OpenAI from 'openai';
import fs from 'fs';

const openai = new OpenAI();

// 파일 전사
const result = await openai.audio.transcriptions.create({
  file: fs.createReadStream('audio.mp3'),
  model: 'whisper-1',
  language: 'ko',  // ISO 639-1
  response_format: 'verbose_json',  // text, json, srt, vtt, verbose_json
  timestamp_granularities: ['word', 'segment'],
});


// 결과
console.log(result.text);  // 전체 텍스트
console.log(result.segments);  // 세그먼트별 (timestamps)
console.log(result.words);  // 단어별 timestamps

TTS (Text-to-Speech)

📋 코드 (18줄)
[ElevenLabs] — 가장 자연스러움
- 가격: $5/22,000 chars (Starter)
- 다국어 (다국어 모델)
- 음성 복제 가능

[OpenAI TTS]
- 가격: $15/1M chars
- 6 voices (다국어)
- 빠름

[Google Cloud TTS]
- 가격: $4/1M chars
- 한국어 우수
- 다양한 voice

[Korean Voice]
- Naver Clova Voice (한국어 최고)
- 토스 보이스

ElevenLabs

TYPESCRIPT📋 코드 (22줄)
import { ElevenLabsClient } from 'elevenlabs';
const elevenlabs = new ElevenLabsClient({ apiKey: ELEVEN_KEY });

// 음성 생성
const audio = await elevenlabs.generate({
  voice: 'Soyoung',  // 한국어 voice
  text: '안녕하세요. AI 영어 회화 시작해볼까요?',
  model_id: 'eleven_multilingual_v2',
  voice_settings: {
    stability: 0.7,        // 0~1, 높을수록 일관됨
    similarity_boost: 0.8, // 음성 유사도
    style: 0.2,            // 표현력
  },
  output_format: 'mp3_44100_128',
});


// 스트림으로 받기
const stream = await elevenlabs.generate({ ..., stream: true });
for await (const chunk of stream) {
  res.write(chunk);
}

실시간 음성 대화

📋 코드 (17줄)
[실시간 영어 회화 SaaS 흐름]

1. 사용자가 마이크로 말함
   ↓
2. 음성 chunk → STT (Deepgram 실시간)
   ↓
3. 텍스트 → LLM (Claude)
   ↓
4. LLM 응답 → TTS (ElevenLabs 스트림)
   ↓
5. 오디오 → 사용자 스피커
   ↓
6. 1번부터 반복


→ 1.5~3초 latency
→ 자연스러운 대화

음성 복제 (Voice Cloning)

TYPESCRIPT📋 코드 (16줄)
// ElevenLabs — 30초 샘플로 복제
const voice = await elevenlabs.voices.add({
  name: 'My Voice',
  files: [fs.createReadStream('sample.mp3')],
  description: 'My speaking voice',
});


// 그 voice로 어떤 텍스트도 생성
const audio = await elevenlabs.generate({
  voice: voice.voice_id,
  text: 'Any text in my voice',
});


// 윤리적 사용 — 본인·동의받은 사람만

비용 (예상 사용량)

📋 코드 (15줄)
[STT — 1000명 사용자 × 일 5분]
- 5000분/일
- Whisper: $30/일
- Deepgram: $21/일
- 월 $600~900

[TTS — 1000명 × 일 500자]
- 500K chars/일
- ElevenLabs: $7/일
- OpenAI: $3/일
- 월 $90~210


→ 음성 SaaS 비용 비싸 — 가격 책정 신중
→ 무료 한도 작게, Pro 비싸게

다음 챕터

CH.48 "Chrome 확장 프로그램".


AI 프롬프트
🤖 AI에게 잘 물어보는 법 — 모델·전략별 프롬프트
무료

월 $0 — 검증·시작 단계

AI 음성 변환을 무료 도구만으로
시작하는 방법을 알려줘.
소자본

월 $20~50 — MVP·초기 운영

월 $20~50 예산으로 AI 음성 변환을
검증·MVP 단계까지 진행하는 전략은?
프로덕션

월 $200~500 — 성장 단계

AI 음성 변환을 프로덕션 단계로
확장할 때 필요한 도구·운영 체계는?
스택

풀스택 — 도구 조합 분석

2026년 AI 음성 변환 관련 도구 5개를
조합한 추천 스택을 알려줘.

⭐ 이것만 기억하세요
AI 음성 변환: STT + TTS 서비스 이 3가지만 확실히 잡으세요
1.Whisper = STT 표준, ElevenLabs = TTS 자연스러움
2.실시간 음성 대화 = STT → LLM → TTS 1.5~3초
3.STT/TTS 비용 비쌈 — 가격 책정 신중


공유하기
진행도 47 / 100