SpeechGen.io에서 텍스트 음성 변환 사용법: 완벽 가이드

08-09-2025 , 16-09-2025

🚀 빠른 시작 — 4단계로 오디오 만들기

1단계: 언어 선택

언어 드롭다운을 열고 텍스트의 언어를 선택하세요. 지원 언어: 150개 이상 (AI 음성 라이브러리).

2단계: 음성 선택

언어를 선택하면 음성 목록이 나타납니다. 샘플을 듣고 마음에 드는 음성을 선택하세요.

3단계: 텍스트 붙여넣기

텍스트 상자에 텍스트를 복사하거나 파일을 업로드하세요 (DOCX, PDF). 자막을 음성으로 변환하려면 전용 SRT를 음성으로 변환 페이지를 사용하세요.

4단계: "음성 생성" (파란색 버튼) 클릭

4단계: 음성 생성 클릭

처리될 때까지 기다린 후 완성된 오디오 파일을 다운로드하세요.

끝입니다! 몇 분 안에 첫 보이스오버가 완성됩니다.

텍스트 준비

권장 사항:

불필요한 기호 없이 일반 텍스트를 사용하세요.
구두점(마침표, 쉼표, 느낌표)을 올바르게 사용하세요.
긴 텍스트는 단락으로 나누세요.

피해야 할 사항:

이모티콘 및 이모티콘 (오디오 생성에 방해가 될 수 있습니다).
특이한 기호: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
특수 유니코드 기호:

💡 팁: PDF 파일에서 복사할 때 텍스트에 특별히 주의하세요. 보이지 않는 문자가 나타나 오디오를 망칠 수 있습니다!

제한 사항

지원 언어: 150개 이상 (전체 목록).
업로드 형식: 일반 텍스트, DOCX, PDF, SRT.

한 번에 최대 생성량: 2,000,000자 (약 285,000-330,000 단어) - 한 번의 생성으로 변환할 수 있는 인상적인 양의 텍스트로, 전체 책이나 방대한 문서와 같은 긴 형식의 콘텐츠에 이상적입니다.

자세한 단계별 지침

1단계: 텍스트 업로드

텍스트 붙여넣기: 텍스트 상자에 텍스트를 복사하세요.
파일 업로드: 또는 업로드 버튼을 클릭하고 파일을 선택하세요(DOCX, PDF).
텍스트 확인: 텍스트가 올바르게 표시되는지 확인하세요.

2단계: 언어 선택

⚠️ 중요: 먼저 텍스트에 맞는 올바른 언어를 선택하세요.

언어 드롭다운 목록을 엽니다.
필요한 언어를 찾습니다 (150개 이상 지원).
다국어 텍스트의 경우 다중 음성 오디오 생성을 사용하세요.

3단계: 음성 선택

언어를 선택하면 사용 가능한 음성 목록이 열립니다. 각 음성의 재생 버튼을 클릭하여 샘플을 듣고 가장 적합한 음성을 찾으세요. 일반 음성은 표준 품질을 제공하고, PRO 음성은 향상된 품질과 자연스러움을 제공하며, 다국어 음성(언어 코드(예: Ava_US, Ava_ES)로 표시됨)은 여러 언어에 걸쳐 음성 일관성을 유지할 수 있습니다. 톤, 감정, 개성이 크게 다르므로 각 음성을 미리 들어보는 시간을 가지세요.

4단계: 매개변수 구성

음성 속도: x0.1 (매우 느림) ~ x2.2 (매우 빠름)
음성 높낮이: -20 ~ +20 (2단계)

텍스트 상자 아래, 생성 버튼 위에 있는 일시 중지 설정을 조정할 수 있습니다:

일시 중지 설정

문장 간 일시 중지: 150ms - 30초
단락 간 일시 중지: 150ms - 30초

5단계: 음성 생성

텍스트 상자 아래의 "음성 생성" 버튼을 클릭하여 변환 프로세스를 시작하세요. 처리 시간은 텍스트 길이에 따라 달라집니다. 짧은 텍스트는 몇 초 안에 완료되고 긴 문서는 몇 분이 걸릴 수 있습니다. 생성이 완료되면 브라우저에서 직접 결과를 듣고 기대에 부합하는지 확인할 수 있습니다.

6단계: 다운로드

생성이 완료되면 "다운로드" 버튼이 나타납니다. 기본적으로 MP3로 파일을 다운로드할 수 있습니다. 그러나 다른 형식(WAV 또는 OPUS)이 필요하거나 오디오 품질(8000 ~ 44000Hz의 샘플 속도)을 변경하려면 먼저 드롭다운 메뉴에서 해당 옵션을 선택하고 선택한 설정으로 음성을 다시 생성한 다음 원하는 사양으로 파일을 다운로드해야 합니다.

오디오 매개변수 설정

음성 속도

속도 스케일:

x0.1 - x0.9: 느리게 (복잡한 자료, 언어 학습용)
x1.0: 보통 속도 (기본값)
x1.1 - x2.2: 빠르게 (동적인 콘텐츠용)

이 스케일이 사용된 이유: 1보다 작은 소수 값은 음성을 느리게 하고, 1보다 큰 값은 빠르게 합니다. 이를 통해 청중에 맞게 정확한 템포를 선택할 수 있습니다.

속도 권장 사항:

교육: x0.8-x1.0 (이해력 향상)
프레젠테이션: x0.9-x1.1 (공식적인 속도)
팟캐스트: x1.0-x1.2 (활기찬 속도)
YouTube: x1.1-x1.4 (주의 집중 유지)

음성 높낮이

높낮이 범위: -20 ~ +20 (2단계)

2단계인 이유: 2단위 단계는 눈에 띄지만 급격하지 않은 높낮이 변화를 제공합니다. 더 작은 단계는 눈에 띄지 않고, 더 큰 단계는 너무 극적입니다.

높낮이 영향:

음수 값 (-2 ~ -20): 목소리를 낮고, 더 진지하며, 권위 있게 만듭니다.
양수 값 (+2 ~ +20): 목소리를 높고, 더 친근하며, 더 활기차게 만듭니다.
0: 중립적인 높낮이 (기본값)

용도:

비즈니스 콘텐츠: -4 ~ +2
어린이 콘텐츠: +4 ~ +12
드라마 콘텐츠: -8 ~ -16
친근한 콘텐츠: +2 ~ +8

일시 중지 작업

자동 일시 중지

문장 간 일시 중지: 300ms (기본값)

단락 간 일시 중지: 400ms (기본값)

이 설정은 150ms에서 30초까지 드롭다운 메뉴에서 변경할 수 있습니다.

수동 일시 중지 삽입

인터페이스를 통해:

텍스트에서 원하는 위치에 커서를 놓습니다.
메뉴에서 "일시 중지" 버튼을 클릭합니다.
텍스트에 .- 기호가 나타납니다.

태그를 통해:

원하는 위치에 <break time="200ms"/> 또는 <break time="2s"/> 태그를 삽입합니다.

일시 중지 규칙:

최대 일시 중지: 30초
더 긴 지연을 위해 연속으로 여러 일시 중지를 배치할 수 있습니다.
일시 중지는 추가 제한을 소비하지 않습니다.

일시 중지 사용 시기:

중요한 진술 전에
수사 의문문 후에
다른 주제 사이에
극적인 효과를 만들기 위해

다중 음성 오디오

대화 기능을 사용하면 한 텍스트에서 다른 음성을 사용할 수 있습니다.

용도:

오디오북: 등장인물별 다른 음성
교육용 대화: 교사와 학생
프레젠테이션: 메인 발표자와 해설자
팟캐스트: 여러 진행자

다중 음성 대화 기능은 단순한 캐릭터 음성 이상의 창의적인 가능성을 열어줍니다. 예를 들어, 외국어 교사는 이 기능을 사용하여 언어 학습을 위해 동일한 구절을 여러 속도로 시연하여 학생들이 다른 이해 수준에서 발음을 파악하도록 도울 수 있습니다. 자세한 기술 및 교실 응용 프로그램은 외국어 교육을 위한 텍스트 음성 변환 사용에 대한 가이드를 참조하세요.

음성 선택

다국어 음성

언어 코드(예: Ava_US, Ava_ES, Ava_DE)가 있는 음성은 여러 언어에 걸쳐 일관된 음성 인식을 유지하도록 설계되었습니다. 이러한 다국어 음성을 사용하면 다국어 콘텐츠에 대한 통일된 스타일을 만들 수 있으며, 동일한 음성 캐릭터가 여러 언어를 원활하게 구사할 수 있습니다. 이 기능은 대화 모드에서 특히 유용하며, 오디오 프로젝트 전체에서 동일한 인식 가능한 음성 개성을 유지하면서 언어를 전환할 수 있습니다.

오디오 분할

SpeechGen을 사용하면 단일 합성 프로젝트 내에서 오디오를 여러 세그먼트로 분할할 수 있어, 여러 장면이나 장에 대한 별도의 오디오 파일이 필요한 비디오 편집자에게 완벽합니다. 이 기능은 YouTube 동영상, 온라인 과정 또는 정확한 오디오 동기화가 필요한 모든 프로젝트에 대한 보이스오버를 만드는 데 특히 유용합니다.

세그먼트 생성 방법

오디오를 분할하려면 분할하려는 위치에 커서를 놓고 메뉴 패널의 자르기 버튼을 클릭하기만 하면 됩니다. 이렇게 하면 해당 위치에 <cut/> 태그가 삽입됩니다. 이 태그를 텍스트 전체에 수동으로 입력하거나 복사하여 붙여넣을 수도 있습니다. 사용자 지정 파일 이름을 사용하려면 다음 형식을 사용하세요:

<cut name="your-filename"/>

이 기능을 사용하면 다음과 같이 의미 있는 이름으로 세그먼트를 구성할 수 있습니다:

<cut name="intro"/>

<cut name="chapter-1"/>

세그먼트 다운로드 및 관리

하나 이상의 세그먼트 태그를 추가하면 생성 후 "세그먼트 다운로드" 버튼이 나타납니다. 한 번에 모든 세그먼트를 다운로드하려면 클릭하거나 오디오 플레이어의 "더 보기" 버튼을 사용하여 개별 세그먼트에 액세스하세요. 각 파일은 고유 ID, 시퀀스 번호 및 설명 제목(예: "7054789_1_first-sentence")으로 자동 이름이 지정되어 편집 소프트웨어에서 오디오 파일을 쉽게 식별하고 구성할 수 있습니다.

세그먼트 제한

짧은 세그먼트: 생성당 최대 1000개 세그먼트
긴 세그먼트: 생성당 최대 500개 세그먼트

더 큰 프로젝트의 경우 여러 번 생성하여 분할하세요. 포괄적인 지침, 고급 기술 및 비디오 튜토리얼은 전체 오디오 분할 설명서를 방문하세요.

억양 설정

일부 음성에는 억양 그래프가 있습니다:

억양 그래프는 음성 이름 옆에 설정 아이콘이 표시되는 음성에서 사용할 수 있습니다. 이 기능은 라이브러리의 절반 이상 음성에서 찾을 수 있으며, 일반 및 PRO 옵션 모두 포함됩니다.

그래프의 점을 드래그하여 억양을 변경하세요.
특정 단어의 높낮이를 높이려면 점을 올리세요.
더 진지한 톤을 만들려면 점을 내리세요.
자연스러움을 위해 다른 곡선을 실험해 보세요.

그래프의 점을 드래그하여 억양 변경

억양을 조정하려는 문장을 선택하고 억양 버튼을 누르세요. 이 인터페이스가 나타납니다.

캐싱 시스템 및 제한 절약

스마트 캐시

SpeechGen은 제한을 크게 절약하는 지능형 캐싱 시스템을 사용합니다. 이 시스템은 각 문장(최대 100,000자)을 7일 동안 캐시에 저장하여 작동합니다. 오디오를 다시 생성할 때 변경되지 않은 문장은 자동으로 무료로 캐시에서 검색됩니다. 새 문장이나 편집된 문장에 대해서만 비용을 지불하면 됩니다. 이는 문자 할당량을 매번 소비하지 않고 텍스트를 점진적으로 편집할 수 있음을 의미합니다. 프로젝트 기록은 30일 동안 저장되며, 즐겨찾기에 추가한 파일은 영구적으로 보관됩니다.

저장 기간:

문장 캐시: 7일
프로젝트 기록: 30일
즐겨찾기 파일: 영구 저장

일반적인 문제 해결

오디오 품질 문제

음성이 부자연스럽게 들립니다:

PRO 음성을 사용해 보세요.
속도를 x0.9-x1.1로 줄이세요.
구두점의 정확성을 확인하세요.
중립적인 높낮이(0)를 사용하세요.

잘못된 발음:

올바른 언어가 선택되었는지 확인하세요.
복잡한 단어는 소리 나는 대로 쓰세요.
정확한 제어를 위해 SSML 태그를 사용하세요.

부자연스러운 일시 중지:

구두점을 확인하세요.
문장 간 일시 중지를 구성하세요.
수동 일시 중지 .- 또는 <break time=""/>를 사용하세요.
추가 공백 및 줄 바꿈을 제거하세요.

SSML 오류:

태그의 정확성을 확인하세요.
모든 음성이 모든 SSML 태그를 지원하는 것은 아닙니다.

추가 기능

SSML (음성 합성 마크업 언어)

전문적인 음성 제어를 위해 SSML 태그를 사용하세요:

<break time="2s"/> — 일시 중지
<emphasis level="strong"> — 음성 강조
<prosody rate="slow" pitch="low"> — 음성 특성 변경

⚠️ 주의: 음성마다 지원하는 SSML 태그 세트가 다릅니다. 각 특정 음성에 대한 기능을 테스트하세요.

기록 및 즐겨찾기

프로젝트 기록: 30일 동안 자동 저장됩니다.
즐겨찾기: 중요한 프로젝트를 추가하여 영구 저장하세요.

통합 및 API

API는 개발자가 SpeechGen.io를 자체 애플리케이션 및 서비스에 통합할 수 있도록 제공됩니다.

파일이 SpeechGen에 업로드되지 않습니다. 어떻게 해야 하나요?

먼저 파일이 지원되는 형식(DOCX, PDF 또는 TXT)인지 확인하세요. 파일이 손상되지 않았는지 확인하고 다시 업로드해 보세요. 문제가 지속되면 텍스트를 수동으로 복사하여 텍스트 상자에 직접 붙여넣으세요. 또한 파일 크기가 플랫폼 제한을 초과하지 않는지 확인하세요.

SpeechGen은 생성된 오디오 파일을 얼마나 오래 보관하나요?

프로젝트 기록은 30일 동안 자동으로 저장됩니다. 스마트 캐시(문장 단위 저장용)는 7일 동안 유지됩니다. 파일을 영구적으로 보관하려면 즐겨찾기에 추가하세요. 이렇게 하면 중요한 오디오 프로젝트가 손실되지 않고 프로필에서 계속 액세스할 수 있습니다.

하나의 오디오 파일에서 다른 캐릭터에 대해 다른 음성을 사용할 수 있나요?

네! SpeechGen은 다중 음성 오디오 생성(대화 모드)을 제공합니다. 다른 텍스트 섹션에 다른 음성을 할당할 수 있어 여러 캐릭터가 등장하는 오디오북, 교육용 대화 또는 여러 발표자가 있는 팟캐스트에 적합합니다. 다국어 음성을 사용하여 캐릭터 일관성을 유지하면서 언어를 전환할 수도 있습니다.

SpeechGen의 일반 음성과 PRO 음성의 차이점은 무엇인가요?

PRO 음성은 일반 음성에 비해 우수한 품질과 자연스러움을 제공합니다. 일반적으로 더 나은 감정 표현, 더 정확한 발음을 가지며 일부는 억양 그래프와 같은 고급 기능을 지원합니다. 오디오북, 과정 또는 비즈니스 프레젠테이션과 같은 전문 프로젝트의 경우 PRO 음성을 권장합니다.

오디오 설정을 변경하면 문자 제한이 소모되나요?

어떤 설정을 변경하는지에 따라 다릅니다. 음성 속도나 높낮이를 조정하려면 전체 재생성이 필요하며 이러한 변경은 전체 음성 합성에 영향을 미치므로 문자 제한이 소모됩니다. 그러나 문장 및 단락 간의 일시 중지는 제한 소모 없이 자유롭게 수정할 수 있습니다. 또한 SpeechGen은 스마트 캐싱을 사용합니다. 대규모 텍스트를 생성한 다음 문장 하나만 편집하고 다시 생성하면 시스템은 전체 텍스트가 아닌 해당 단일 변경된 문장에 대해서만 비용을 청구합니다. 이 캐싱 시스템은 변경되지 않은 문장을 7일 동안 저장하여 반복 편집을 매우 경제적으로 만듭니다.

동영상

그래도 질문이 있으신가요?

커뮤니티에서 도움을 받으세요! Telegram 채팅에서 질문하세요: https://t.me/speechgen