08-09-2025 , 16-09-2025
언어 드롭다운을 열고 텍스트의 언어를 선택하세요. 지원 언어: 150개 이상 (AI 음성 라이브러리).
언어를 선택하면 음성 목록이 나타납니다. 샘플을 듣고 마음에 드는 음성을 선택하세요.
텍스트 상자에 텍스트를 복사하거나 파일을 업로드하세요 (DOCX, PDF). 자막을 음성으로 변환하려면 전용 SRT를 음성으로 변환 페이지를 사용하세요.
처리될 때까지 기다린 후 완성된 오디오 파일을 다운로드하세요.
끝입니다! 몇 분 안에 첫 보이스오버가 완성됩니다.
💡 팁: PDF 파일에서 복사할 때 텍스트에 특별히 주의하세요. 보이지 않는 문자가 나타나 오디오를 망칠 수 있습니다!
한 번에 최대 생성량: 2,000,000자 (약 285,000-330,000 단어) - 한 번의 생성으로 변환할 수 있는 인상적인 양의 텍스트로, 전체 책이나 방대한 문서와 같은 긴 형식의 콘텐츠에 이상적입니다.
⚠️ 중요: 먼저 텍스트에 맞는 올바른 언어를 선택하세요.
언어를 선택하면 사용 가능한 음성 목록이 열립니다. 각 음성의 재생 버튼을 클릭하여 샘플을 듣고 가장 적합한 음성을 찾으세요. 일반 음성은 표준 품질을 제공하고, PRO 음성은 향상된 품질과 자연스러움을 제공하며, 다국어 음성(언어 코드(예: Ava_US, Ava_ES)로 표시됨)은 여러 언어에 걸쳐 음성 일관성을 유지할 수 있습니다. 톤, 감정, 개성이 크게 다르므로 각 음성을 미리 들어보는 시간을 가지세요.
텍스트 상자 아래, 생성 버튼 위에 있는 일시 중지 설정을 조정할 수 있습니다:
텍스트 상자 아래의 "음성 생성" 버튼을 클릭하여 변환 프로세스를 시작하세요. 처리 시간은 텍스트 길이에 따라 달라집니다. 짧은 텍스트는 몇 초 안에 완료되고 긴 문서는 몇 분이 걸릴 수 있습니다. 생성이 완료되면 브라우저에서 직접 결과를 듣고 기대에 부합하는지 확인할 수 있습니다.
생성이 완료되면 "다운로드" 버튼이 나타납니다. 기본적으로 MP3로 파일을 다운로드할 수 있습니다. 그러나 다른 형식(WAV 또는 OPUS)이 필요하거나 오디오 품질(8000 ~ 44000Hz의 샘플 속도)을 변경하려면 먼저 드롭다운 메뉴에서 해당 옵션을 선택하고 선택한 설정으로 음성을 다시 생성한 다음 원하는 사양으로 파일을 다운로드해야 합니다.
속도 스케일:
이 스케일이 사용된 이유: 1보다 작은 소수 값은 음성을 느리게 하고, 1보다 큰 값은 빠르게 합니다. 이를 통해 청중에 맞게 정확한 템포를 선택할 수 있습니다.
속도 권장 사항:
높낮이 범위: -20 ~ +20 (2단계)
2단계인 이유: 2단위 단계는 눈에 띄지만 급격하지 않은 높낮이 변화를 제공합니다. 더 작은 단계는 눈에 띄지 않고, 더 큰 단계는 너무 극적입니다.
높낮이 영향:
용도:
문장 간 일시 중지: 300ms (기본값)
단락 간 일시 중지: 400ms (기본값)
이 설정은 150ms에서 30초까지 드롭다운 메뉴에서 변경할 수 있습니다.
인터페이스를 통해:
태그를 통해:
원하는 위치에 <break time="200ms"/> 또는 <break time="2s"/> 태그를 삽입합니다.
일시 중지 규칙:
일시 중지 사용 시기:
대화 기능을 사용하면 한 텍스트에서 다른 음성을 사용할 수 있습니다.
다중 음성 대화 기능은 단순한 캐릭터 음성 이상의 창의적인 가능성을 열어줍니다. 예를 들어, 외국어 교사는 이 기능을 사용하여 언어 학습을 위해 동일한 구절을 여러 속도로 시연하여 학생들이 다른 이해 수준에서 발음을 파악하도록 도울 수 있습니다. 자세한 기술 및 교실 응용 프로그램은 외국어 교육을 위한 텍스트 음성 변환 사용에 대한 가이드를 참조하세요.
언어 코드(예: Ava_US, Ava_ES, Ava_DE)가 있는 음성은 여러 언어에 걸쳐 일관된 음성 인식을 유지하도록 설계되었습니다. 이러한 다국어 음성을 사용하면 다국어 콘텐츠에 대한 통일된 스타일을 만들 수 있으며, 동일한 음성 캐릭터가 여러 언어를 원활하게 구사할 수 있습니다. 이 기능은 대화 모드에서 특히 유용하며, 오디오 프로젝트 전체에서 동일한 인식 가능한 음성 개성을 유지하면서 언어를 전환할 수 있습니다.
SpeechGen을 사용하면 단일 합성 프로젝트 내에서 오디오를 여러 세그먼트로 분할할 수 있어, 여러 장면이나 장에 대한 별도의 오디오 파일이 필요한 비디오 편집자에게 완벽합니다. 이 기능은 YouTube 동영상, 온라인 과정 또는 정확한 오디오 동기화가 필요한 모든 프로젝트에 대한 보이스오버를 만드는 데 특히 유용합니다.
오디오를 분할하려면 분할하려는 위치에 커서를 놓고 메뉴 패널의 자르기 버튼을 클릭하기만 하면 됩니다. 이렇게 하면 해당 위치에 <cut/> 태그가 삽입됩니다. 이 태그를 텍스트 전체에 수동으로 입력하거나 복사하여 붙여넣을 수도 있습니다. 사용자 지정 파일 이름을 사용하려면 다음 형식을 사용하세요:
<cut name="your-filename"/>
이 기능을 사용하면 다음과 같이 의미 있는 이름으로 세그먼트를 구성할 수 있습니다:
<cut name="intro"/>
<cut name="chapter-1"/>
하나 이상의 세그먼트 태그를 추가하면 생성 후 "세그먼트 다운로드" 버튼이 나타납니다. 한 번에 모든 세그먼트를 다운로드하려면 클릭하거나 오디오 플레이어의 "더 보기" 버튼을 사용하여 개별 세그먼트에 액세스하세요. 각 파일은 고유 ID, 시퀀스 번호 및 설명 제목(예: "7054789_1_first-sentence")으로 자동 이름이 지정되어 편집 소프트웨어에서 오디오 파일을 쉽게 식별하고 구성할 수 있습니다.
더 큰 프로젝트의 경우 여러 번 생성하여 분할하세요. 포괄적인 지침, 고급 기술 및 비디오 튜토리얼은 전체 오디오 분할 설명서를 방문하세요.
일부 음성에는 억양 그래프가 있습니다:
억양 그래프는 음성 이름 옆에 설정 아이콘이 표시되는 음성에서 사용할 수 있습니다. 이 기능은 라이브러리의 절반 이상 음성에서 찾을 수 있으며, 일반 및 PRO 옵션 모두 포함됩니다.
억양을 조정하려는 문장을 선택하고 억양 버튼을 누르세요. 이 인터페이스가 나타납니다.
SpeechGen은 제한을 크게 절약하는 지능형 캐싱 시스템을 사용합니다. 이 시스템은 각 문장(최대 100,000자)을 7일 동안 캐시에 저장하여 작동합니다. 오디오를 다시 생성할 때 변경되지 않은 문장은 자동으로 무료로 캐시에서 검색됩니다. 새 문장이나 편집된 문장에 대해서만 비용을 지불하면 됩니다. 이는 문자 할당량을 매번 소비하지 않고 텍스트를 점진적으로 편집할 수 있음을 의미합니다. 프로젝트 기록은 30일 동안 저장되며, 즐겨찾기에 추가한 파일은 영구적으로 보관됩니다.
저장 기간:
음성이 부자연스럽게 들립니다:
잘못된 발음:
부자연스러운 일시 중지:
SSML 오류:
전문적인 음성 제어를 위해 SSML 태그를 사용하세요:
⚠️ 주의: 음성마다 지원하는 SSML 태그 세트가 다릅니다. 각 특정 음성에 대한 기능을 테스트하세요.
API는 개발자가 SpeechGen.io를 자체 애플리케이션 및 서비스에 통합할 수 있도록 제공됩니다.
먼저 파일이 지원되는 형식(DOCX, PDF 또는 TXT)인지 확인하세요. 파일이 손상되지 않았는지 확인하고 다시 업로드해 보세요. 문제가 지속되면 텍스트를 수동으로 복사하여 텍스트 상자에 직접 붙여넣으세요. 또한 파일 크기가 플랫폼 제한을 초과하지 않는지 확인하세요.
프로젝트 기록은 30일 동안 자동으로 저장됩니다. 스마트 캐시(문장 단위 저장용)는 7일 동안 유지됩니다. 파일을 영구적으로 보관하려면 즐겨찾기에 추가하세요. 이렇게 하면 중요한 오디오 프로젝트가 손실되지 않고 프로필에서 계속 액세스할 수 있습니다.
네! SpeechGen은 다중 음성 오디오 생성(대화 모드)을 제공합니다. 다른 텍스트 섹션에 다른 음성을 할당할 수 있어 여러 캐릭터가 등장하는 오디오북, 교육용 대화 또는 여러 발표자가 있는 팟캐스트에 적합합니다. 다국어 음성을 사용하여 캐릭터 일관성을 유지하면서 언어를 전환할 수도 있습니다.
PRO 음성은 일반 음성에 비해 우수한 품질과 자연스러움을 제공합니다. 일반적으로 더 나은 감정 표현, 더 정확한 발음을 가지며 일부는 억양 그래프와 같은 고급 기능을 지원합니다. 오디오북, 과정 또는 비즈니스 프레젠테이션과 같은 전문 프로젝트의 경우 PRO 음성을 권장합니다.
어떤 설정을 변경하는지에 따라 다릅니다. 음성 속도나 높낮이를 조정하려면 전체 재생성이 필요하며 이러한 변경은 전체 음성 합성에 영향을 미치므로 문자 제한이 소모됩니다. 그러나 문장 및 단락 간의 일시 중지는 제한 소모 없이 자유롭게 수정할 수 있습니다. 또한 SpeechGen은 스마트 캐싱을 사용합니다. 대규모 텍스트를 생성한 다음 문장 하나만 편집하고 다시 생성하면 시스템은 전체 텍스트가 아닌 해당 단일 변경된 문장에 대해서만 비용을 청구합니다. 이 캐싱 시스템은 변경되지 않은 문장을 7일 동안 저장하여 반복 편집을 매우 경제적으로 만듭니다.
커뮤니티에서 도움을 받으세요! Telegram 채팅에서 질문하세요: https://t.me/speechgen