Как да използвате текст към говор в SpeechGen.io: Пълно ръководство

, 16-09-2025

🚀 Бърз старт — Създайте аудио в 4 стъпки

Стъпка 1: Изберете език

Стъпка 1: Изберете език

Отворете падащия списък с езици и изберете езика на вашия текст. Поддържани езици: Над 150 езика (библиотека с AI гласове).

Стъпка 2: Изберете глас

Стъпка 2: Изберете глас

След като изберете езика, ще се появи списък с гласове. Слушайте мостри и изберете любимия си

Стъпка 3: Поставете текст

Стъпка 3: Поставете текст

Копирайте текста си в текстовото поле или качете файл (DOCX, PDF). За преобразуване на субтитри в реч, използвайте специалната страница SRT към глас.

Стъпка 4: Натиснете "Генерирай реч" (син бутон)

Стъпка 4: Натиснете Генерирай реч

Изчакайте обработката и изтеглете готовия аудио файл

Това е! Първият ви гласов запис е готов само за няколко минути.

Подготовка на текста

Препоръчително:

Избягвайте:

  • Емотикони и емотикони (могат да нарушат генерирането на аудио)
  • Екзотични символи: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
  • Специални Unicode символи:  

💡 Съвет: Когато копирате от PDF файлове, обърнете специално внимание на текста — може да се появят невидими символи, които ще развалят аудиото!

Лимити и ограничения

Максимум на генериране: 2 000 000 символа (≈ 285 000-330 000 думи) - това е впечатляващото количество текст, което можете да преобразувате в реч при едно генериране, което го прави идеален за дълго съдържание като цели книги или обширна документация.

Подробни инструкции стъпка по стъпка

Стъпка 1: Качване на текст

  1. Поставете текст: Копирайте текста си в текстовото поле
  2. Качете файл: Или натиснете бутона за качване и изберете файл (DOCX, PDF)
  3. Проверете текста: Уверете се, че текстът се показва правилно

Стъпка 2: Изберете език

⚠️ Важно: Първо изберете правилния език за вашия текст

Стъпка 3: Изберете глас

След като изберете езика, ще се отвори списък с наличните гласове. Слушайте мостри, като натиснете бутона за възпроизвеждане за всеки глас, за да намерите този, който най-добре отговаря на вашите нужди. Ще видите различни типове гласове: Обикновените гласове предлагат стандартно качество, PRO гласовете осигуряват подобрено качество и естественост, а многоезичните гласове (маркирани с езикови кодове като Ava_US, Ava_ES) ви позволяват да поддържате последователност на гласа в различни езици. Отделете време, за да прегледате всеки глас, тъй като те се различават значително по тон, емоция и характер.

Стъпка 4: Конфигуриране на параметри

  • Скорост на речта: от x0.1 (много бавно) до x2.2 (много бързо)
  • Височина на гласа: от -20 до +20 (стъпка 2)

Под текстовото поле, над бутона за генериране, можете да регулирате настройките за пауза:

настройки за пауза

  • Паузи между изреченията: 150ms - 30 секунди
  • Паузи между абзаците: 150ms - 30 секунди

Стъпка 5: Генериране на реч

Натиснете бутона "Генерирай реч" под текстовото поле, за да започнете процеса на преобразуване. Времето за обработка зависи от дължината на текста ви — по-кратките текстове се завършват за секунди, докато по-дългите документи може да отнемат няколко минути. След като генерирането приключи, ще можете да слушате резултата директно в браузъра, за да се уверите, че отговаря на очакванията ви.

Стъпка 6: Изтегляне

След като генерирането приключи, ще се появи бутон "Изтегляне". По подразбиране можете просто да изтеглите файла като MP3. Ако обаче се нуждаете от различен формат (WAV или OPUS) или искате да промените качеството на аудиото (честота на дискретизация от 8000 до 44000 Hz), първо трябва да изберете тези опции от падащите менюта, да генерирате отново речта с избраните настройки и след това да изтеглите файла с предпочитаните от вас спецификации.

Настройки на аудио параметри

Скорост на речта

Скала на скоростта:

  • x0.1 - x0.9: Забавяне (за сложен материал, изучаване на езици)
  • x1.0: Нормална скорост (по подразбиране)
  • x1.1 - x2.2: Ускоряване (за динамично съдържание)

Защо тази скала: Дробните стойности под 1 забавят речта, а по-големите от 1 я ускоряват. Това позволява прецизен избор на темпо за вашата аудитория.

Препоръки за скорост:

  • Образование: x0.8-x1.0 (за по-добро разбиране)
  • Презентации: x0.9-x1.1 (официален темп)
  • Подкасти: x1.0-x1.2 (жив темп)
  • YouTube: x1.1-x1.4 (задържане на вниманието)

Височина на гласа

Диапазон на височината: от -20 до +20 със стъпка 2

Защо стъпка 2: Стъпка от 2 единици осигурява забележима, но не рязка промяна на височината. По-малките стъпки биха били незабележими, а по-големите — твърде драматични.

Влияние на височината:

  • Отрицателни стойности (-2 до -20): Правят гласа по-нисък, по-сериозен, авторитетен
  • Положителни стойности (+2 до +20): Правят гласа по-висок, по-приятелски, по-енергичен
  • 0: Неутрална височина (по подразбиране)

Приложения:

  • Бизнес съдържание: -4 до +2
  • Детско съдържание: +4 до +12
  • Драматично съдържание: -8 до -16
  • Приятелско съдържание: +2 до +8

Работа с паузи

Автоматични паузи

Паузи между изреченията: 300ms (по подразбиране)

Паузи между абзаците: 400ms (по подразбиране)

Тези настройки могат да се променят в падащи менюта от 150ms до 30 секунди.

Ръчно вмъкване на паузи

Чрез интерфейс:

  1. Поставете курсора на желаното място в текста
  2. Натиснете бутона "Пауза" в менюто
  3. Символът .- ще се появи в текста

Чрез тагове:

Вмъкнете таг <break time="200ms"/> или <break time="2s"/> на желаното място

Правила за паузи:

  • Максимална пауза: 30 секунди
  • Могат да се поставят няколко паузи една след друга за по-дълго забавяне
  • Паузите не консумират допълнителни лимити

Кога да използвате паузи:

  • Преди важни изявления
  • След риторични въпроси
  • Между различни теми
  • За създаване на драматичен ефект

Аудио с множество гласове

Функцията за диалог позволява използването на различни гласове в един текст.

Приложения:

  • Аудиокниги: Различни гласове за герои
  • Образователни диалози: Учител и ученик
  • Презентации: Основен говорител и коментатор
  • Подкасти: Множество водещи

Функцията за многоезичен диалог отваря творчески възможности отвъд просто гласовете на героите. Например, учителите по чужди езици могат да използват тази функция, за да демонстрират една и съща фраза с различни скорости за изучаване на езици, помагайки на учениците да усвоят произношението при различни нива на разбиране. За подробни техники и приложения в класната стая, вижте нашето ръководство за използване на текст към говор за преподаване на чужди езици.

Избор на глас

Многоезични гласове

Гласовете с езикови кодове (например Ava_US, Ava_ES, Ava_DE) са проектирани да поддържат последователно разпознаване на гласа в различни езици. Тези многоезични гласове ви позволяват да създадете единен стил за многоезично съдържание, като гарантирате, че една и съща гласова персона може да говори няколко езика безпроблемно. Тази функция е особено полезна в режим на диалог, където можете да превключвате между езици, като същевременно запазвате една и съща разпознаваема гласова личност през целия си аудио проект.

Сегментиране на аудио

SpeechGen ви позволява да разделяте генерираното аудио на множество сегменти в рамките на един проект за синтез, което го прави идеален за видео редактори, които се нуждаят от отделни аудио файлове за различни сцени или глави. Тази функция е особено полезна за създаване на гласови записи за YouTube видеоклипове, онлайн курсове или всеки проект, изискващ прецизна аудио синхронизация.

Как да създадете сегменти

За да разделите аудиото си, просто поставете курсора там, където искате да разделите текста, и натиснете бутона за рязане в панела на менюто. Това вмъква таг <cut/> на тази позиция. Можете също така ръчно да напишете или да копирате и поставите този таг в текста си. За персонализирани имена на файлове използвайте този формат:

<cut name="вашето-име-на-файл"/>

Тази функция ви помага да организирате сегментите със смислени имена като:

<cut name="въведение"/>

<cut name="глава-1"/>

Изтегляне и управление на сегменти

След като добавите поне един таг за сегмент, след генерирането се появява бутон "изтегляне на сегменти". Натиснете го, за да изтеглите всички сегменти наведнъж, или използвайте бутона "още" на аудио плейъра, за да получите достъп до отделни сегменти. Всеки файл се именува автоматично с уникален идентификатор, номер на последователност и описателно заглавие (например "7054789_1_първо-изречение"), което улеснява идентифицирането и организирането на аудио файловете ви в софтуера за редактиране.

Ограничения на сегментите

  • Кратки сегменти: До 1000 сегмента на генериране
  • Дълги сегменти: До 500 сегмента на генериране

За по-големи проекти разделете на няколко генерирания. За изчерпателни инструкции, разширени техники и видео уроци, посетете нашата пълна документация за сегментиране на аудио.

Настройка на интонацията

Някои гласове имат графики за интонация:

Графиките за интонация са налични за гласове, които показват икона за настройки до името на гласа — тази функция се намира при повече от половината гласове в библиотеката, включително както обикновени, така и PRO опции

  • Плъзнете точките на графиката, за да промените интонацията
  • Повдигнете точките, за да увеличите височината на определени думи
  • Спуснете точките, за да създадете по-сериозен тон
  • Експериментирайте с различни криви за естественост

Плъзнете точките на графиката, за да промените интонацията

Изберете изречението, в което искате да коригирате интонацията, и натиснете бутона интонация. Ще се появи този интерфейс.

Кеш система и спестяване на лимити

Интелигентен кеш

SpeechGen използва интелигентна кеш система, която значително спестява вашите лимити. Системата работи чрез запазване на всяко изречение (до 100 000 символа) в кеша за 7 дни. Когато генерирате отново аудиото си, всички непроменени изречения се извличат автоматично от кеша безплатно — плащате само за нови или редактирани изречения. Това означава, че можете да правите постепенни редакции на текста си, без да изразходвате целия си лимит на символи всеки път. Историята на проекта се съхранява за 30 дни, а файловете, които добавяте към любими, се пазят постоянно.

Периоди на съхранение:

  • Кеш на изречения: 7 дни
  • История на проекта: 30 дни
  • Любими файлове: Съхраняват се постоянно

Отстраняване на често срещани проблеми

Проблеми с качеството на аудиото

Гласът звучи неестествено:

  • Опитайте PRO гласове
  • Намалете скоростта до x0.9-x1.1
  • Проверете правилността на пунктуацията
  • Използвайте неутрална височина (0)

Неправилно произношение:

  • Уверете се, че е избран правилният език
  • Напишете сложни думи фонетично
  • Използвайте SSML тагове за прецизен контрол

Неестествени паузи:

  • Проверете пунктуацията
  • Конфигурирайте паузи между изреченията
  • Използвайте ръчни паузи .- или <break time=""/>
  • Премахнете излишните интервали и нови редове

SSML грешки:

  • Проверете правилността на таговете
  • Не всички гласове поддържат всички SSML тагове

Допълнителни функции

SSML (Speech Synthesis Markup Language)

За експертен контрол на гласа използвайте SSML тагове:

  • <break time="2s"/> — паузи
  • <emphasis level="strong"> — акцент на гласа
  • <prosody rate="slow" pitch="low"> — промяна на характеристиките на речта

⚠️ Внимание: Различните гласове поддържат различни набори от SSML тагове. Тествайте функционалността за всеки конкретен глас.

История и любими

  • История на проекта: Автоматично се запазва за 30 дни
  • Любими: Добавете важни проекти за постоянно съхранение

Интеграция и API

API е налично за разработчици за интегриране на SpeechGen.io в техните собствени приложения и услуги.

Моят файл не се качва в SpeechGen. Какво да направя?

Първо, проверете дали файлът ви е в поддържан формат (DOCX, PDF или TXT). Уверете се, че файлът не е повреден и опитайте да го качите отново. Ако проблемът продължава, копирайте текста ръчно и го поставете директно в текстовото поле. Също така проверете дали размерът на файла ви не надвишава лимитите на платформата.

Колко време SpeechGen пази моите генерирани аудио файлове?

Историята на вашия проект се запазва автоматично за 30 дни. Интелигентният кеш (за запазване на ниво изречение) трае 7 дни. За да запазите файловете постоянно, добавете ги към любимите си. Това гарантира, че важните ви аудио проекти никога няма да бъдат загубени и ще останат достъпни във вашия профил.

Мога ли да използвам различни гласове за различни герои в един аудио файл?

Да! SpeechGen предлага генериране на аудио с множество гласове (режим на диалог). Можете да присвоите различни гласове на различни текстови секции, което го прави идеален за аудиокниги с множество герои, образователни диалози или подкасти с множество говорители. Можете дори да използвате многоезични гласове, за да превключвате между езици, като същевременно поддържате последователност на героите.

Каква е разликата между обикновените и PRO гласовете в SpeechGen?

PRO гласовете предлагат превъзходно качество и естественост в сравнение с обикновените гласове. Те обикновено имат по-добро емоционално изразяване, по-точно произношение и някои поддържат разширени функции като графики за интонация. За професионални проекти като аудиокниги, курсове или бизнес презентации се препоръчват PRO гласове.

Промяната на аудио настройките консумира ли моите лимити за символи?

Зависи от това кои настройки променяте. Регулирането на скоростта на речта или височината изисква пълно регенериране и ще консумира вашите лимити за символи, тъй като тези промени засягат цялостния синтез на гласа. Въпреки това, можете свободно да променяте паузите между изреченията и абзаците без никакво консумиране на лимити. Освен това, SpeechGen използва интелигентен кеш: ако генерирате голям текст, след това редактирате само едно изречение и регенерирате, системата ще ви таксува само за това едно променено изречение, а не за целия текст. Тази кеш система запазва вашите непроменени изречения за 7 дни, което прави итеративното редактиране много икономично.

Видео

Все още имате въпроси?

Получете помощ от нашата общност! Задайте въпросите си в нашия Telegram чат: https://t.me/speechgen

Използваме Cookie, за да гарантираме, че получавате най-доброто изживяване на нашия уебсайт. Научете повече: Политика за поверителност

Приемане на Cookies