Como Usar Texto para Voz no SpeechGen.io: Guia Completo

, 16-09-2025

🚀 Início Rápido — Crie Áudio em 4 Passos

Passo 1: Selecionar Idioma

Passo 1: Selecionar Idioma

Abra o menu suspenso de idiomas e selecione o idioma do seu texto. Idiomas suportados: Mais de 150 idiomas (biblioteca de vozes de IA).

Passo 2: Escolher Voz

Passo 2: Escolher Voz

Após selecionar o idioma, aparecerá uma lista de vozes. Ouça as amostras e escolha a sua preferida.

Passo 3: Colar Texto

Passo 3: Colar Texto

Copie o seu texto para a caixa de texto ou carregue um ficheiro (DOCX, PDF). Para converter legendas em voz, use a página dedicada SRT para Voz.

Passo 4: Clicar em "Gerar Voz" (botão azul)

Passo 4: Clicar em Gerar Voz

Aguarde o processamento e descarregue o seu ficheiro de áudio pronto.

É tudo! A sua primeira locução está pronta em apenas alguns minutos.

Preparação do Texto

Recomendado:

Evitar:

  • Emojis e emoticons (podem interromper a geração de áudio)
  • Símbolos exóticos: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
  • Símbolos Unicode especiais:  

💡 Dica: Ao copiar de ficheiros PDF, preste atenção especial ao texto — podem aparecer caracteres invisíveis que estragarão o áudio!

Limites e Restrições

Máximo por geração: 2.000.000 caracteres (≈ 285.000-330.000 palavras) - esta é uma quantidade impressionante de texto que pode converter em voz numa única geração, tornando-a ideal para conteúdos longos como livros inteiros ou documentação extensa.

Instruções Detalhadas Passo a Passo

Passo 1: Carregar Texto

  1. Colar texto: Copie o seu texto para a caixa de texto
  2. Carregar ficheiro: Ou clique no botão de carregamento e selecione um ficheiro (DOCX, PDF)
  3. Verificar texto: Certifique-se de que o texto é exibido corretamente

Passo 2: Selecionar Idioma

⚠️ Importante: Primeiro, selecione o idioma correto para o seu texto

Passo 3: Escolher Voz

Após selecionar o idioma, abrirá uma lista de vozes disponíveis. Ouça as amostras clicando no botão de reprodução para cada voz para encontrar a que melhor se adapta às suas necessidades. Verá diferentes tipos de vozes disponíveis: Vozes Regulares oferecem qualidade padrão, vozes PRO fornecem qualidade e naturalidade melhoradas, e vozes Multilíngues (marcadas com códigos de idioma como Ava_US, Ava_ES) permitem manter a consistência da voz em diferentes idiomas. Dedique tempo a pré-visualizar cada voz, pois variam significativamente em tom, emoção e caráter.

Passo 4: Configurar Parâmetros

  • Velocidade da voz: de x0.1 (muito lenta) a x2.2 (muito rápida)
  • Tom da voz: de -20 a +20 (passo 2)

Abaixo da caixa de texto, acima do botão de gerar, pode ajustar as definições de pausa:

definições de pausa

  • Pausas entre frases: 150ms - 30 segundos
  • Pausas entre parágrafos: 150ms - 30 segundos

Passo 5: Gerar Voz

Clique no botão "Gerar Voz" abaixo da caixa de texto para iniciar o processo de conversão. O tempo de processamento depende do comprimento do seu texto — textos mais curtos completam em segundos, enquanto documentos mais longos podem levar alguns minutos. Assim que a geração estiver completa, poderá ouvir o resultado diretamente no navegador para garantir que atende às suas expectativas.

Passo 6: Descarregar

Após a conclusão da geração, aparecerá um botão "Descarregar". Por defeito, pode simplesmente descarregar o ficheiro como MP3. No entanto, se precisar de um formato diferente (WAV ou OPUS) ou quiser alterar a qualidade do áudio (taxa de amostragem de 8000 a 44000 Hz), terá de selecionar primeiro estas opções nos menus suspensos, regenerar a voz com as suas definições escolhidas e, em seguida, descarregar o ficheiro com as suas especificações preferidas.

Definições de Parâmetros de Áudio

Velocidade da Voz

Escala de velocidade:

  • x0.1 - x0.9: Desaceleração (para material complexo, aprendizagem de idiomas)
  • x1.0: Velocidade normal (padrão)
  • x1.1 - x2.2: Aceleração (para conteúdo dinâmico)

Porquê esta escala: Valores fracionários inferiores a 1 abrandam a fala, superiores a 1 aceleram. Isto permite uma seleção precisa do tempo para o seu público.

Recomendações de velocidade:

  • Educação: x0.8-x1.0 (para melhor compreensão)
  • Apresentações: x0.9-x1.1 (ritmo oficial)
  • Podcasts: x1.0-x1.2 (ritmo animado)
  • YouTube: x1.1-x1.4 (retenção de atenção)

Tom da Voz

Intervalo de tom: de -20 a +20 com passo 2

Porquê passo 2: Um passo de 2 unidades proporciona uma alteração de tom percetível, mas não abrupta. Passos menores seriam impercetíveis, passos maiores demasiado drásticos.

Influência do tom:

  • Valores negativos (-2 a -20): Tornam a voz mais grave, mais séria, autoritária
  • Valores positivos (+2 a +20): Tornam a voz mais aguda, mais amigável, mais enérgica
  • 0: Tom neutro (padrão)

Aplicações:

  • Conteúdo empresarial: -4 a +2
  • Conteúdo infantil: +4 a +12
  • Conteúdo dramático: -8 a -16
  • Conteúdo amigável: +2 a +8

Trabalhar com Pausas

Pausas Automáticas

Pausas entre frases: 300ms (padrão)

Pausas entre parágrafos: 400ms (padrão)

Estas definições podem ser alteradas em menus suspensos de 150ms a 30 segundos.

Inserção Manual de Pausas

Através da interface:

  1. Coloque o cursor no local desejado no texto
  2. Clique no botão "Pausa" no menu
  3. O símbolo .- aparecerá no texto

Através de tags:

Insira a tag <break time="200ms"/> ou <break time="2s"/> no local desejado

Regras de pausa:

  • Pausa máxima: 30 segundos
  • Pode colocar várias pausas seguidas para um atraso maior
  • As pausas não consomem limites adicionais

Quando usar pausas:

  • Antes de declarações importantes
  • Após perguntas retóricas
  • Entre tópicos diferentes
  • Para criar efeito dramático

Áudio com Várias Vozes

A função de diálogo permite usar diferentes vozes num único texto.

Aplicações:

  • Audiolivros: Vozes diferentes para personagens
  • Diálogos educativos: Professor e aluno
  • Apresentações: Orador principal e comentador
  • Podcasts: Vários apresentadores

A funcionalidade de diálogo com várias vozes abre possibilidades criativas para além das vozes de personagens. Professores de línguas estrangeiras, por exemplo, podem usar esta função para demonstrar a mesma frase em diferentes velocidades para aprendizagem de idiomas, ajudando os alunos a compreender a pronúncia em diferentes níveis de compreensão. Para técnicas detalhadas e aplicações em sala de aula, consulte o nosso guia sobre uso de texto para voz no ensino de línguas estrangeiras.

Seleção de Voz

Vozes Multilíngues

Vozes com códigos de idioma (por exemplo, Ava_US, Ava_ES, Ava_DE) são projetadas para manter o reconhecimento consistente da voz em diferentes idiomas. Estas vozes multilíngues permitem criar um estilo unificado para conteúdo multilíngue, garantindo que a mesma personalidade de voz possa falar vários idiomas sem problemas. Esta funcionalidade é particularmente útil no modo de diálogo, onde pode alternar entre idiomas mantendo a mesma personalidade de voz reconhecível ao longo do seu projeto de áudio.

Segmentação de Áudio

O SpeechGen permite dividir o seu áudio gerado em vários segmentos dentro de um único projeto de síntese, tornando-o perfeito para editores de vídeo que necessitam de ficheiros de áudio separados para diferentes cenas ou capítulos. Esta funcionalidade é particularmente útil para criar locuções para vídeos do YouTube, cursos online ou qualquer projeto que exija sincronização de áudio precisa.

Como Criar Segmentos

Para dividir o seu áudio, basta colocar o cursor onde deseja dividir o texto e clicar no botão de corte no painel do menu. Isto insere uma tag <cut/> nessa posição. Também pode digitar manualmente ou copiar e colar esta tag ao longo do seu texto. Para nomes de ficheiro personalizados, use este formato:

<cut name="o-seu-nome-de-ficheiro"/>

Esta funcionalidade ajuda a organizar segmentos com nomes significativos como:

<cut name="introducao"/>

<cut name="capitulo-1"/>

Descarregar e Gerir Segmentos

Depois de adicionar pelo menos uma tag de segmento, um botão "descarregar segmentos" aparece após a geração. Clique nele para descarregar todos os segmentos de uma vez, ou use o botão "mais" no leitor de áudio para aceder a segmentos individuais. Cada ficheiro é nomeado automaticamente com um ID único, número de sequência e título descritivo (por exemplo, "7054789_1_primeira-frase"), tornando fácil identificar e organizar os seus ficheiros de áudio no seu software de edição.

Limitações de Segmentos

  • Segmentos curtos: Até 1000 segmentos por geração
  • Segmentos longos: Até 500 segmentos por geração

Para projetos maiores, divida em várias gerações. Para instruções completas, técnicas avançadas e tutoriais em vídeo, visite a nossa documentação completa sobre segmentação de áudio.

Configuração de Entonação

Algumas vozes têm gráficos de entonação:

Os gráficos de entonação estão disponíveis em vozes que exibem um ícone de configurações ao lado do nome da voz — esta funcionalidade é encontrada em mais de metade das vozes na biblioteca, incluindo opções regulares e PRO

  • Arraste os pontos no gráfico para alterar a entonação
  • Aumente os pontos para aumentar o tom em certas palavras
  • Diminua os pontos para criar um tom mais sério
  • Experimente diferentes curvas para naturalidade

Arraste os pontos no gráfico para alterar a entonação

Selecione a frase em que deseja ajustar a entonação e pressione o botão de entonação. Esta interface aparecerá.

Sistema de Cache e Poupança de Limites

Cache Inteligente

O SpeechGen. utiliza um sistema de cache inteligente que poupa significativamente os seus limites. O sistema funciona guardando cada frase (até 100.000 caracteres) em cache por 7 dias. Quando regenera o seu áudio, quaisquer frases inalteradas são automaticamente recuperadas da cache gratuitamente — paga apenas pelas frases novas ou editadas. Isto significa que pode fazer edições incrementais no seu texto sem consumir toda a sua quota de caracteres a cada vez. O histórico do projeto é armazenado por 30 dias, e os ficheiros que adiciona aos favoritos são mantidos permanentemente.

Períodos de armazenamento:

  • Cache de frases: 7 dias
  • Histórico do projeto: 30 dias
  • Ficheiros favoritos: Armazenados permanentemente

Resolução de Problemas Comuns

Problemas de Qualidade de Áudio

A voz soa pouco natural:

  • Experimente vozes PRO
  • Reduza a velocidade para x0.9-x1.1
  • Verifique a correção da pontuação
  • Use tom neutro (0)

Pronúncia incorreta:

  • Certifique-se de que o idioma correto está selecionado
  • Escreva palavras complexas foneticamente
  • Use tags SSML para controlo preciso

Pausas não naturais:

  • Verifique a pontuação
  • Configure pausas entre frases
  • Use pausas manuais .- ou <break time=""/>
  • Remova espaços extras e quebras de linha

Erros SSML:

  • Verifique a correção das tags
  • Nem todas as vozes suportam todas as tags SSML

Funcionalidades Adicionais

SSML (Speech Synthesis Markup Language)

Para controlo de voz avançado, use tags SSML:

  • <break time="2s"/> — pausas
  • <emphasis level="strong"> — ênfase na voz
  • <prosody rate="slow" pitch="low"> — alteração das características da voz

⚠️ Atenção: Vozes diferentes suportam conjuntos diferentes de tags SSML. Teste a funcionalidade para cada voz específica.

Histórico e Favoritos

  • Histórico do projeto: Guardado automaticamente por 30 dias
  • Favoritos: Adicione projetos importantes para armazenamento permanente

Integração e API

A API está disponível para programadores para integrar o SpeechGen.io nas suas próprias aplicações e serviços.

O meu ficheiro não carrega no SpeechGen. O que devo fazer?

Primeiro, verifique se o seu ficheiro está num formato suportado (DOCX, PDF ou TXT). Certifique-se de que o ficheiro não está corrompido e tente carregá-lo novamente. Se o problema persistir, copie o texto manualmente e cole-o diretamente na caixa de texto. Verifique também se o tamanho do seu ficheiro não excede os limites da plataforma.

Por quanto tempo o SpeechGen guarda os meus ficheiros de áudio gerados?

O seu histórico de projetos é guardado automaticamente por 30 dias. A cache inteligente (para poupanças a nível de frase) dura 7 dias. Para manter os ficheiros permanentemente, adicione-os aos seus favoritos. Isto garante que os seus projetos de áudio importantes nunca se perdem e permanecem acessíveis no seu perfil.

Posso usar vozes diferentes para personagens diferentes num único ficheiro de áudio?

Sim! O SpeechGen oferece geração de áudio com várias vozes (modo de diálogo). Pode atribuir vozes diferentes a secções de texto diferentes, tornando-o perfeito para audiolivros com várias personagens, diálogos educativos ou podcasts com vários oradores. Pode até usar vozes multilíngues para alternar entre idiomas, mantendo a consistência da personagem.

Qual é a diferença entre vozes regulares e PRO no SpeechGen?

As vozes PRO oferecem qualidade e naturalidade superiores em comparação com as vozes regulares. Geralmente têm melhor expressão emocional, pronúncia mais precisa e algumas suportam funcionalidades avançadas como gráficos de entonação. Para projetos profissionais como audiolivros, cursos ou apresentações empresariais, as vozes PRO são recomendadas.

Alterar as definições de áudio consome os meus limites de caracteres?

Depende de quais definições altera. Ajustar a velocidade da voz ou o tom requer regeneração completa e consumirá os seus limites de caracteres, pois estas alterações afetam toda a síntese de voz. No entanto, pode modificar livremente as pausas entre frases e parágrafos sem qualquer consumo de limite. Além disso, o SpeechGen utiliza cache inteligente: se gerar um texto longo, depois editar apenas uma frase e regenerar, o sistema irá apenas cobrar-lhe por essa única frase alterada, não pelo texto inteiro. Este sistema de cache guarda as suas frases inalteradas por 7 dias, tornando a edição iterativa muito económica.

Vídeo

Ainda Tem Dúvidas?

Obtenha ajuda da nossa comunidade! Faça as suas perguntas no nosso chat do Telegram: https://t.me/speechgen

Usamos cookies para garantir que você tenha a melhor experiência em nosso site. Saiba mais: Política

Aceitar Cookies