08-09-2025 , 16-09-2025
Abra o menu suspenso de idiomas e selecione o idioma do seu texto. Idiomas suportados: Mais de 150 idiomas (biblioteca de vozes de IA).
Após selecionar o idioma, aparecerá uma lista de vozes. Ouça as amostras e escolha a sua preferida.
Copie o seu texto para a caixa de texto ou carregue um ficheiro (DOCX, PDF). Para converter legendas em voz, use a página dedicada SRT para Voz.
Aguarde o processamento e descarregue o seu ficheiro de áudio pronto.
É tudo! A sua primeira locução está pronta em apenas alguns minutos.
💡 Dica: Ao copiar de ficheiros PDF, preste atenção especial ao texto — podem aparecer caracteres invisíveis que estragarão o áudio!
Máximo por geração: 2.000.000 caracteres (≈ 285.000-330.000 palavras) - esta é uma quantidade impressionante de texto que pode converter em voz numa única geração, tornando-a ideal para conteúdos longos como livros inteiros ou documentação extensa.
⚠️ Importante: Primeiro, selecione o idioma correto para o seu texto
Após selecionar o idioma, abrirá uma lista de vozes disponíveis. Ouça as amostras clicando no botão de reprodução para cada voz para encontrar a que melhor se adapta às suas necessidades. Verá diferentes tipos de vozes disponíveis: Vozes Regulares oferecem qualidade padrão, vozes PRO fornecem qualidade e naturalidade melhoradas, e vozes Multilíngues (marcadas com códigos de idioma como Ava_US, Ava_ES) permitem manter a consistência da voz em diferentes idiomas. Dedique tempo a pré-visualizar cada voz, pois variam significativamente em tom, emoção e caráter.
Abaixo da caixa de texto, acima do botão de gerar, pode ajustar as definições de pausa:
Clique no botão "Gerar Voz" abaixo da caixa de texto para iniciar o processo de conversão. O tempo de processamento depende do comprimento do seu texto — textos mais curtos completam em segundos, enquanto documentos mais longos podem levar alguns minutos. Assim que a geração estiver completa, poderá ouvir o resultado diretamente no navegador para garantir que atende às suas expectativas.
Após a conclusão da geração, aparecerá um botão "Descarregar". Por defeito, pode simplesmente descarregar o ficheiro como MP3. No entanto, se precisar de um formato diferente (WAV ou OPUS) ou quiser alterar a qualidade do áudio (taxa de amostragem de 8000 a 44000 Hz), terá de selecionar primeiro estas opções nos menus suspensos, regenerar a voz com as suas definições escolhidas e, em seguida, descarregar o ficheiro com as suas especificações preferidas.
Escala de velocidade:
Porquê esta escala: Valores fracionários inferiores a 1 abrandam a fala, superiores a 1 aceleram. Isto permite uma seleção precisa do tempo para o seu público.
Recomendações de velocidade:
Intervalo de tom: de -20 a +20 com passo 2
Porquê passo 2: Um passo de 2 unidades proporciona uma alteração de tom percetível, mas não abrupta. Passos menores seriam impercetíveis, passos maiores demasiado drásticos.
Influência do tom:
Aplicações:
Pausas entre frases: 300ms (padrão)
Pausas entre parágrafos: 400ms (padrão)
Estas definições podem ser alteradas em menus suspensos de 150ms a 30 segundos.
Através da interface:
Através de tags:
Insira a tag <break time="200ms"/> ou <break time="2s"/> no local desejado
Regras de pausa:
Quando usar pausas:
A função de diálogo permite usar diferentes vozes num único texto.
A funcionalidade de diálogo com várias vozes abre possibilidades criativas para além das vozes de personagens. Professores de línguas estrangeiras, por exemplo, podem usar esta função para demonstrar a mesma frase em diferentes velocidades para aprendizagem de idiomas, ajudando os alunos a compreender a pronúncia em diferentes níveis de compreensão. Para técnicas detalhadas e aplicações em sala de aula, consulte o nosso guia sobre uso de texto para voz no ensino de línguas estrangeiras.
Vozes com códigos de idioma (por exemplo, Ava_US, Ava_ES, Ava_DE) são projetadas para manter o reconhecimento consistente da voz em diferentes idiomas. Estas vozes multilíngues permitem criar um estilo unificado para conteúdo multilíngue, garantindo que a mesma personalidade de voz possa falar vários idiomas sem problemas. Esta funcionalidade é particularmente útil no modo de diálogo, onde pode alternar entre idiomas mantendo a mesma personalidade de voz reconhecível ao longo do seu projeto de áudio.
O SpeechGen permite dividir o seu áudio gerado em vários segmentos dentro de um único projeto de síntese, tornando-o perfeito para editores de vídeo que necessitam de ficheiros de áudio separados para diferentes cenas ou capítulos. Esta funcionalidade é particularmente útil para criar locuções para vídeos do YouTube, cursos online ou qualquer projeto que exija sincronização de áudio precisa.
Para dividir o seu áudio, basta colocar o cursor onde deseja dividir o texto e clicar no botão de corte no painel do menu. Isto insere uma tag <cut/> nessa posição. Também pode digitar manualmente ou copiar e colar esta tag ao longo do seu texto. Para nomes de ficheiro personalizados, use este formato:
<cut name="o-seu-nome-de-ficheiro"/>
Esta funcionalidade ajuda a organizar segmentos com nomes significativos como:
<cut name="introducao"/>
<cut name="capitulo-1"/>
Depois de adicionar pelo menos uma tag de segmento, um botão "descarregar segmentos" aparece após a geração. Clique nele para descarregar todos os segmentos de uma vez, ou use o botão "mais" no leitor de áudio para aceder a segmentos individuais. Cada ficheiro é nomeado automaticamente com um ID único, número de sequência e título descritivo (por exemplo, "7054789_1_primeira-frase"), tornando fácil identificar e organizar os seus ficheiros de áudio no seu software de edição.
Para projetos maiores, divida em várias gerações. Para instruções completas, técnicas avançadas e tutoriais em vídeo, visite a nossa documentação completa sobre segmentação de áudio.
Algumas vozes têm gráficos de entonação:
Os gráficos de entonação estão disponíveis em vozes que exibem um ícone de configurações ao lado do nome da voz — esta funcionalidade é encontrada em mais de metade das vozes na biblioteca, incluindo opções regulares e PRO
Selecione a frase em que deseja ajustar a entonação e pressione o botão de entonação. Esta interface aparecerá.
O SpeechGen. utiliza um sistema de cache inteligente que poupa significativamente os seus limites. O sistema funciona guardando cada frase (até 100.000 caracteres) em cache por 7 dias. Quando regenera o seu áudio, quaisquer frases inalteradas são automaticamente recuperadas da cache gratuitamente — paga apenas pelas frases novas ou editadas. Isto significa que pode fazer edições incrementais no seu texto sem consumir toda a sua quota de caracteres a cada vez. O histórico do projeto é armazenado por 30 dias, e os ficheiros que adiciona aos favoritos são mantidos permanentemente.
Períodos de armazenamento:
A voz soa pouco natural:
Pronúncia incorreta:
Pausas não naturais:
Erros SSML:
Para controlo de voz avançado, use tags SSML:
⚠️ Atenção: Vozes diferentes suportam conjuntos diferentes de tags SSML. Teste a funcionalidade para cada voz específica.
A API está disponível para programadores para integrar o SpeechGen.io nas suas próprias aplicações e serviços.
Primeiro, verifique se o seu ficheiro está num formato suportado (DOCX, PDF ou TXT). Certifique-se de que o ficheiro não está corrompido e tente carregá-lo novamente. Se o problema persistir, copie o texto manualmente e cole-o diretamente na caixa de texto. Verifique também se o tamanho do seu ficheiro não excede os limites da plataforma.
O seu histórico de projetos é guardado automaticamente por 30 dias. A cache inteligente (para poupanças a nível de frase) dura 7 dias. Para manter os ficheiros permanentemente, adicione-os aos seus favoritos. Isto garante que os seus projetos de áudio importantes nunca se perdem e permanecem acessíveis no seu perfil.
Sim! O SpeechGen oferece geração de áudio com várias vozes (modo de diálogo). Pode atribuir vozes diferentes a secções de texto diferentes, tornando-o perfeito para audiolivros com várias personagens, diálogos educativos ou podcasts com vários oradores. Pode até usar vozes multilíngues para alternar entre idiomas, mantendo a consistência da personagem.
As vozes PRO oferecem qualidade e naturalidade superiores em comparação com as vozes regulares. Geralmente têm melhor expressão emocional, pronúncia mais precisa e algumas suportam funcionalidades avançadas como gráficos de entonação. Para projetos profissionais como audiolivros, cursos ou apresentações empresariais, as vozes PRO são recomendadas.
Depende de quais definições altera. Ajustar a velocidade da voz ou o tom requer regeneração completa e consumirá os seus limites de caracteres, pois estas alterações afetam toda a síntese de voz. No entanto, pode modificar livremente as pausas entre frases e parágrafos sem qualquer consumo de limite. Além disso, o SpeechGen utiliza cache inteligente: se gerar um texto longo, depois editar apenas uma frase e regenerar, o sistema irá apenas cobrar-lhe por essa única frase alterada, não pelo texto inteiro. Este sistema de cache guarda as suas frases inalteradas por 7 dias, tornando a edição iterativa muito económica.
Obtenha ajuda da nossa comunidade! Faça as suas perguntas no nosso chat do Telegram: https://t.me/speechgen