Como Usar Texto para Voz no SpeechGen.io: Guia Completo

08-09-2025 , 16-09-2025

🚀 Início Rápido — Crie Áudio em 4 Passos

Passo 1: Selecionar Idioma

Abra o menu suspenso de idiomas e selecione o idioma do seu texto. Idiomas suportados: Mais de 150 idiomas (biblioteca de vozes de IA).

Passo 2: Escolher Voz

Após selecionar o idioma, aparecerá uma lista de vozes. Ouça as amostras e escolha a sua preferida.

Passo 3: Colar Texto

Copie o seu texto para a caixa de texto ou carregue um ficheiro (DOCX, PDF). Para converter legendas em voz, use a página dedicada SRT para Voz.

Passo 4: Clicar em "Gerar Voz" (botão azul)

Passo 4: Clicar em Gerar Voz

Aguarde o processamento e descarregue o seu ficheiro de áudio pronto.

É tudo! A sua primeira locução está pronta em apenas alguns minutos.

Preparação do Texto

Evitar:

Emojis e emoticons (podem interromper a geração de áudio)
Símbolos exóticos: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Símbolos Unicode especiais:

💡 Dica: Ao copiar de ficheiros PDF, preste atenção especial ao texto — podem aparecer caracteres invisíveis que estragarão o áudio!

Limites e Restrições

Idiomas suportados: Mais de 150 idiomas (lista completa).
Formatos de carregamento: texto simples, DOCX, PDF, SRT.

Máximo por geração: 2.000.000 caracteres (≈ 285.000-330.000 palavras) - esta é uma quantidade impressionante de texto que pode converter em voz numa única geração, tornando-a ideal para conteúdos longos como livros inteiros ou documentação extensa.

Instruções Detalhadas Passo a Passo

Passo 1: Carregar Texto

Colar texto: Copie o seu texto para a caixa de texto
Carregar ficheiro: Ou clique no botão de carregamento e selecione um ficheiro (DOCX, PDF)
Verificar texto: Certifique-se de que o texto é exibido corretamente

Passo 2: Selecionar Idioma

⚠️ Importante: Primeiro, selecione o idioma correto para o seu texto

Abra a lista suspensa de idiomas
Encontre o idioma necessário (mais de 150 idiomas disponíveis)
Para textos multilíngues, use a geração de áudio com várias vozes

Passo 3: Escolher Voz

Após selecionar o idioma, abrirá uma lista de vozes disponíveis. Ouça as amostras clicando no botão de reprodução para cada voz para encontrar a que melhor se adapta às suas necessidades. Verá diferentes tipos de vozes disponíveis: Vozes Regulares oferecem qualidade padrão, vozes PRO fornecem qualidade e naturalidade melhoradas, e vozes Multilíngues (marcadas com códigos de idioma como Ava_US, Ava_ES) permitem manter a consistência da voz em diferentes idiomas. Dedique tempo a pré-visualizar cada voz, pois variam significativamente em tom, emoção e caráter.

Passo 4: Configurar Parâmetros

Velocidade da voz: de x0.1 (muito lenta) a x2.2 (muito rápida)
Tom da voz: de -20 a +20 (passo 2)

Abaixo da caixa de texto, acima do botão de gerar, pode ajustar as definições de pausa:

definições de pausa

Pausas entre frases: 150ms - 30 segundos
Pausas entre parágrafos: 150ms - 30 segundos

Passo 5: Gerar Voz

Clique no botão "Gerar Voz" abaixo da caixa de texto para iniciar o processo de conversão. O tempo de processamento depende do comprimento do seu texto — textos mais curtos completam em segundos, enquanto documentos mais longos podem levar alguns minutos. Assim que a geração estiver completa, poderá ouvir o resultado diretamente no navegador para garantir que atende às suas expectativas.

Passo 6: Descarregar

Após a conclusão da geração, aparecerá um botão "Descarregar". Por defeito, pode simplesmente descarregar o ficheiro como MP3. No entanto, se precisar de um formato diferente (WAV ou OPUS) ou quiser alterar a qualidade do áudio (taxa de amostragem de 8000 a 44000 Hz), terá de selecionar primeiro estas opções nos menus suspensos, regenerar a voz com as suas definições escolhidas e, em seguida, descarregar o ficheiro com as suas especificações preferidas.

Definições de Parâmetros de Áudio

Velocidade da Voz

Escala de velocidade:

x0.1 - x0.9: Desaceleração (para material complexo, aprendizagem de idiomas)
x1.0: Velocidade normal (padrão)
x1.1 - x2.2: Aceleração (para conteúdo dinâmico)

Porquê esta escala: Valores fracionários inferiores a 1 abrandam a fala, superiores a 1 aceleram. Isto permite uma seleção precisa do tempo para o seu público.

Recomendações de velocidade:

Educação: x0.8-x1.0 (para melhor compreensão)
Apresentações: x0.9-x1.1 (ritmo oficial)
Podcasts: x1.0-x1.2 (ritmo animado)
YouTube: x1.1-x1.4 (retenção de atenção)

Tom da Voz

Intervalo de tom: de -20 a +20 com passo 2

Porquê passo 2: Um passo de 2 unidades proporciona uma alteração de tom percetível, mas não abrupta. Passos menores seriam impercetíveis, passos maiores demasiado drásticos.

Influência do tom:

Valores negativos (-2 a -20): Tornam a voz mais grave, mais séria, autoritária
Valores positivos (+2 a +20): Tornam a voz mais aguda, mais amigável, mais enérgica
0: Tom neutro (padrão)

Aplicações:

Conteúdo empresarial: -4 a +2
Conteúdo infantil: +4 a +12
Conteúdo dramático: -8 a -16
Conteúdo amigável: +2 a +8

Trabalhar com Pausas

Pausas Automáticas

Pausas entre frases: 300ms (padrão)

Pausas entre parágrafos: 400ms (padrão)

Estas definições podem ser alteradas em menus suspensos de 150ms a 30 segundos.

Inserção Manual de Pausas

Através da interface:

Coloque o cursor no local desejado no texto
Clique no botão "Pausa" no menu
O símbolo .- aparecerá no texto

Através de tags:

Insira a tag <break time="200ms"/> ou <break time="2s"/> no local desejado

Regras de pausa:

Pausa máxima: 30 segundos
Pode colocar várias pausas seguidas para um atraso maior
As pausas não consomem limites adicionais

Quando usar pausas:

Antes de declarações importantes
Após perguntas retóricas
Entre tópicos diferentes
Para criar efeito dramático

Áudio com Várias Vozes

A função de diálogo permite usar diferentes vozes num único texto.

Aplicações:

Audiolivros: Vozes diferentes para personagens
Diálogos educativos: Professor e aluno
Apresentações: Orador principal e comentador
Podcasts: Vários apresentadores

A funcionalidade de diálogo com várias vozes abre possibilidades criativas para além das vozes de personagens. Professores de línguas estrangeiras, por exemplo, podem usar esta função para demonstrar a mesma frase em diferentes velocidades para aprendizagem de idiomas, ajudando os alunos a compreender a pronúncia em diferentes níveis de compreensão. Para técnicas detalhadas e aplicações em sala de aula, consulte o nosso guia sobre uso de texto para voz no ensino de línguas estrangeiras.

Seleção de Voz

Vozes Multilíngues

Vozes com códigos de idioma (por exemplo, Ava_US, Ava_ES, Ava_DE) são projetadas para manter o reconhecimento consistente da voz em diferentes idiomas. Estas vozes multilíngues permitem criar um estilo unificado para conteúdo multilíngue, garantindo que a mesma personalidade de voz possa falar vários idiomas sem problemas. Esta funcionalidade é particularmente útil no modo de diálogo, onde pode alternar entre idiomas mantendo a mesma personalidade de voz reconhecível ao longo do seu projeto de áudio.

Segmentação de Áudio

O SpeechGen permite dividir o seu áudio gerado em vários segmentos dentro de um único projeto de síntese, tornando-o perfeito para editores de vídeo que necessitam de ficheiros de áudio separados para diferentes cenas ou capítulos. Esta funcionalidade é particularmente útil para criar locuções para vídeos do YouTube, cursos online ou qualquer projeto que exija sincronização de áudio precisa.

Como Criar Segmentos

Para dividir o seu áudio, basta colocar o cursor onde deseja dividir o texto e clicar no botão de corte no painel do menu. Isto insere uma tag <cut/> nessa posição. Também pode digitar manualmente ou copiar e colar esta tag ao longo do seu texto. Para nomes de ficheiro personalizados, use este formato:

<cut name="o-seu-nome-de-ficheiro"/>

Esta funcionalidade ajuda a organizar segmentos com nomes significativos como:

<cut name="introducao"/>

<cut name="capitulo-1"/>

Descarregar e Gerir Segmentos

Depois de adicionar pelo menos uma tag de segmento, um botão "descarregar segmentos" aparece após a geração. Clique nele para descarregar todos os segmentos de uma vez, ou use o botão "mais" no leitor de áudio para aceder a segmentos individuais. Cada ficheiro é nomeado automaticamente com um ID único, número de sequência e título descritivo (por exemplo, "7054789_1_primeira-frase"), tornando fácil identificar e organizar os seus ficheiros de áudio no seu software de edição.

Limitações de Segmentos

Segmentos curtos: Até 1000 segmentos por geração
Segmentos longos: Até 500 segmentos por geração

Para projetos maiores, divida em várias gerações. Para instruções completas, técnicas avançadas e tutoriais em vídeo, visite a nossa documentação completa sobre segmentação de áudio.

Configuração de Entonação

Algumas vozes têm gráficos de entonação:

Os gráficos de entonação estão disponíveis em vozes que exibem um ícone de configurações ao lado do nome da voz — esta funcionalidade é encontrada em mais de metade das vozes na biblioteca, incluindo opções regulares e PRO

Arraste os pontos no gráfico para alterar a entonação
Aumente os pontos para aumentar o tom em certas palavras
Diminua os pontos para criar um tom mais sério
Experimente diferentes curvas para naturalidade

Arraste os pontos no gráfico para alterar a entonação

Selecione a frase em que deseja ajustar a entonação e pressione o botão de entonação. Esta interface aparecerá.

Sistema de Cache e Poupança de Limites

Cache Inteligente

O SpeechGen. utiliza um sistema de cache inteligente que poupa significativamente os seus limites. O sistema funciona guardando cada frase (até 100.000 caracteres) em cache por 7 dias. Quando regenera o seu áudio, quaisquer frases inalteradas são automaticamente recuperadas da cache gratuitamente — paga apenas pelas frases novas ou editadas. Isto significa que pode fazer edições incrementais no seu texto sem consumir toda a sua quota de caracteres a cada vez. O histórico do projeto é armazenado por 30 dias, e os ficheiros que adiciona aos favoritos são mantidos permanentemente.

Períodos de armazenamento:

Cache de frases: 7 dias
Histórico do projeto: 30 dias
Ficheiros favoritos: Armazenados permanentemente

Resolução de Problemas Comuns

Problemas de Qualidade de Áudio

A voz soa pouco natural:

Experimente vozes PRO
Reduza a velocidade para x0.9-x1.1
Verifique a correção da pontuação
Use tom neutro (0)

Pronúncia incorreta:

Certifique-se de que o idioma correto está selecionado
Escreva palavras complexas foneticamente
Use tags SSML para controlo preciso

Pausas não naturais:

Verifique a pontuação
Configure pausas entre frases
Use pausas manuais .- ou <break time=""/>
Remova espaços extras e quebras de linha

Erros SSML:

Verifique a correção das tags
Nem todas as vozes suportam todas as tags SSML

Funcionalidades Adicionais

SSML (Speech Synthesis Markup Language)

Para controlo de voz avançado, use tags SSML:

<break time="2s"/> — pausas
<emphasis level="strong"> — ênfase na voz
<prosody rate="slow" pitch="low"> — alteração das características da voz

⚠️ Atenção: Vozes diferentes suportam conjuntos diferentes de tags SSML. Teste a funcionalidade para cada voz específica.

Histórico e Favoritos

Histórico do projeto: Guardado automaticamente por 30 dias
Favoritos: Adicione projetos importantes para armazenamento permanente

Integração e API

A API está disponível para programadores para integrar o SpeechGen.io nas suas próprias aplicações e serviços.

O meu ficheiro não carrega no SpeechGen. O que devo fazer?

Primeiro, verifique se o seu ficheiro está num formato suportado (DOCX, PDF ou TXT). Certifique-se de que o ficheiro não está corrompido e tente carregá-lo novamente. Se o problema persistir, copie o texto manualmente e cole-o diretamente na caixa de texto. Verifique também se o tamanho do seu ficheiro não excede os limites da plataforma.

Por quanto tempo o SpeechGen guarda os meus ficheiros de áudio gerados?

O seu histórico de projetos é guardado automaticamente por 30 dias. A cache inteligente (para poupanças a nível de frase) dura 7 dias. Para manter os ficheiros permanentemente, adicione-os aos seus favoritos. Isto garante que os seus projetos de áudio importantes nunca se perdem e permanecem acessíveis no seu perfil.

Posso usar vozes diferentes para personagens diferentes num único ficheiro de áudio?

Sim! O SpeechGen oferece geração de áudio com várias vozes (modo de diálogo). Pode atribuir vozes diferentes a secções de texto diferentes, tornando-o perfeito para audiolivros com várias personagens, diálogos educativos ou podcasts com vários oradores. Pode até usar vozes multilíngues para alternar entre idiomas, mantendo a consistência da personagem.

Qual é a diferença entre vozes regulares e PRO no SpeechGen?

As vozes PRO oferecem qualidade e naturalidade superiores em comparação com as vozes regulares. Geralmente têm melhor expressão emocional, pronúncia mais precisa e algumas suportam funcionalidades avançadas como gráficos de entonação. Para projetos profissionais como audiolivros, cursos ou apresentações empresariais, as vozes PRO são recomendadas.

Alterar as definições de áudio consome os meus limites de caracteres?

Depende de quais definições altera. Ajustar a velocidade da voz ou o tom requer regeneração completa e consumirá os seus limites de caracteres, pois estas alterações afetam toda a síntese de voz. No entanto, pode modificar livremente as pausas entre frases e parágrafos sem qualquer consumo de limite. Além disso, o SpeechGen utiliza cache inteligente: se gerar um texto longo, depois editar apenas uma frase e regenerar, o sistema irá apenas cobrar-lhe por essa única frase alterada, não pelo texto inteiro. Este sistema de cache guarda as suas frases inalteradas por 7 dias, tornando a edição iterativa muito económica.

Vídeo

Ainda Tem Dúvidas?

Obtenha ajuda da nossa comunidade! Faça as suas perguntas no nosso chat do Telegram: https://t.me/speechgen