Hur du använder Text till Tal på SpeechGen.io: Komplett guide

08-09-2025 , 16-09-2025

🚀 Snabbstart — Skapa ljud på 4 steg

Steg 1: Välj språk

Öppna språkmenyn och välj språket för din text. Stödda språk: Över 150 språk (bibliotek med AI-röster).

Steg 2: Välj röst

Efter att du valt språk visas en lista med röster. Lyssna på prover och välj din favorit

Steg 3: Klistra in text

Kopiera din text till textrutan eller ladda upp en fil (DOCX, PDF). För att konvertera undertexter till tal, använd den dedikerade sidan SRT till röst.

Steg 4: Klicka på "Generera tal" (blå knapp)

Steg 4: Klicka Generera tal

Vänta på bearbetning och ladda ner din färdiga ljudfil

Klart! Din första voiceover är klar på bara ett par minuter.

Textförberedelse

Rekommenderas:

Använd vanlig text utan onödiga symboler
Placera skiljetecken korrekt (punkt, komma, utropstecken)
Dela upp lång text i stycken

Undvik:

Emojis och smileys (kan störa ljudgenereringen)
Exotiska symboler: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Speciella Unicode-symboler:

💡 Tips: När du kopierar från PDF-filer, var extra noga med texten — osynliga tecken kan dyka upp och förstöra ljudet!

Gränser och begränsningar

Stödda språk: 150+ språk (fullständig lista).
Uppladdningsformat: vanlig text, DOCX, PDF, SRT.

Maximalt per generering: 2 000 000 tecken (≈ 285 000-330 000 ord) - detta är en imponerande mängd text som du kan konvertera till tal i en enda generering, vilket gör den idealisk för långt innehåll som hela böcker eller omfattande dokumentation.

Detaljerade steg-för-steg-instruktioner

Steg 1: Ladda upp text

Klistra in text: Kopiera din text till textrutan
Ladda upp fil: Eller klicka på uppladdningsknappen och välj en fil (DOCX, PDF)
Kontrollera text: Se till att texten visas korrekt

Steg 2: Välj språk

⚠️ Viktigt: Välj först rätt språk för din text

Öppna språklistan
Hitta önskat språk (150+ språk tillgängliga)
För texter på flera språk, använd generering av ljud med flera röster

Steg 3: Välj röst

Efter att du valt språk öppnas en lista med tillgängliga röster. Lyssna på prover genom att klicka på play-knappen för varje röst för att hitta den som passar dina behov bäst. Du kommer att se olika rösttyper: Vanliga röster erbjuder standardkvalitet, PRO-röster ger förbättrad kvalitet och naturlighet, och flerspråkiga röster (märkta med språkkoder som Ava_US, Ava_ES) låter dig behålla röstens enhetlighet över olika språk. Ta dig tid att förhandsgranska varje röst eftersom de varierar avsevärt i ton, känsla och karaktär.

Steg 4: Konfigurera parametrar

Talhastighet: från x0.1 (mycket långsam) till x2.2 (mycket snabb)
Röstläge: från -20 till +20 (steg om 2)

Nedanför textrutan, ovanför genereringsknappen, kan du justera pausinställningarna:

pausinställningar

Pauser mellan meningar: 150ms - 30 sekunder
Pauser mellan stycken: 150ms - 30 sekunder

Steg 5: Generera tal

Klicka på knappen "Generera tal" under textrutan för att starta konverteringsprocessen. Bearbetningstiden beror på din textlängd - kortare texter slutförs på sekunder medan längre dokument kan ta några minuter. När genereringen är klar kan du lyssna på resultatet direkt i webbläsaren för att säkerställa att det uppfyller dina förväntningar.

Steg 6: Ladda ner

Efter att genereringen är klar visas en "Ladda ner"-knapp. Som standard kan du helt enkelt ladda ner filen som MP3. Men om du behöver ett annat format (WAV eller OPUS) eller vill ändra ljudkvaliteten (samplingsfrekvens från 8000 till 44000 Hz), måste du först välja dessa alternativ från rullgardinsmenyerna, generera talet igen med dina valda inställningar och sedan ladda ner filen med dina föredragna specifikationer.

Inställningar för ljudparametrar

Talhastighet

Hastighetsskala:

x0.1 - x0.9: Långsammare (för komplext material, språkinlärning)
x1.0: Normal hastighet (standard)
x1.1 - x2.2: Snabbare (för dynamiskt innehåll)

Varför denna skala: Bråktal mindre än 1 saktar ner talet, större än 1 snabbar upp det. Detta möjliggör exakt tempo för din publik.

Rekommendationer för hastighet:

Utbildning: x0.8-x1.0 (för bättre förståelse)
Presentationer: x0.9-x1.1 (officiellt tempo)
Podcasts: x1.0-x1.2 (livligt tempo)
YouTube: x1.1-x1.4 (bibehålla uppmärksamhet)

Röstläge

Tonhöjdsintervall: från -20 till +20 med steg om 2

Varför steg om 2: Ett steg om 2 enheter ger en märkbar men inte skarp tonhöjdsförändring. Mindre steg skulle vara omärkliga, större steg för dramatiska.

Tonhöjdspåverkan:

Negativa värden (-2 till -20): Gör rösten lägre, mer seriös, auktoritativ
Positiva värden (+2 till +20): Gör rösten högre, vänligare, mer energisk
0: Neutral tonhöjd (standard)

Användningsområden:

Affärsinnehåll: -4 till +2
Barninnehåll: +4 till +12
Dramatiskt innehåll: -8 till -16
Vänligt innehåll: +2 till +8

Arbeta med pauser

Automatiska pauser

Pauser mellan meningar: 300ms (standard)

Pauser mellan stycken: 400ms (standard)

Dessa inställningar kan ändras i rullgardinsmenyer från 150ms till 30 sekunder.

Manuell insättning av pauser

Via gränssnittet:

Placera markören på önskad plats i texten
Klicka på knappen "Paus" i menyn
Symbolen .- kommer att visas i texten

Via taggar:

Infoga taggen <break time="200ms"/> eller <break time="2s"/> på önskad plats

Regler för pauser:

Maximal paus: 30 sekunder
Flera pauser kan placeras i rad för längre fördröjning
Pauser förbrukar inte ytterligare gränser

När ska pauser användas:

Före viktiga uttalanden
Efter retoriska frågor
Mellan olika ämnen
För att skapa dramatisk effekt

Ljud med flera röster

Funktionen för dialoger tillåter användning av olika röster i en text.

Användningsområden:

Ljudböcker: Olika röster för karaktärer
Utbildningsdialoger: Lärare och elev
Presentationer: Huvudtalare och kommentator
Podcasts: Flera värdar

Funktionen för dialoger med flera röster öppnar upp kreativa möjligheter utöver bara karaktärsröster. Språklärare kan till exempel använda denna funktion för att demonstrera samma fras i olika hastigheter för språkinlärning, vilket hjälper eleverna att förstå uttal vid olika förståelsenivåer. För detaljerade tekniker och klassrumstillämpningar, se vår guide om att använda text-till-tal för undervisning i främmande språk.

Val av röst

Flerspråkiga röster

Röster med språkkoder (t.ex. Ava_US, Ava_ES, Ava_DE) är utformade för att bibehålla konsekvent röstigenkänning över olika språk. Dessa flerspråkiga röster gör det möjligt för dig att skapa en enhetlig stil för flerspråkigt innehåll, vilket säkerställer att samma röstkaraktär kan tala flera språk sömlöst. Denna funktion är särskilt användbar i dialogläge, där du kan växla mellan språk samtidigt som du behåller samma igenkännbara röstpersonlighet genom hela ditt ljudprojekt.

Ljudsegmentering

SpeechGen låter dig dela upp ditt genererade ljud i flera segment inom ett enda syntesprojekt, vilket gör det perfekt för videoredigerare som behöver separata ljudfiler för olika scener eller kapitel. Denna funktion är särskilt användbar för att skapa voiceovers för YouTube-videor, onlinekurser eller vilket projekt som helst som kräver exakt ljudsynkronisering.

Hur man skapar segment

För att dela upp ditt ljud, placera helt enkelt markören där du vill dela texten och klicka på klippknappen i menyfältet. Detta infogar en <cut/> tagg på den positionen. Du kan också manuellt skriva eller kopiera/klistra in denna tagg i din text. För anpassade filnamn, använd detta format:

<cut name="ditt-filnamn"/>

Denna funktion hjälper dig att organisera segment med meningsfulla namn som:

<cut name="intro"/>

<cut name="kapitel-1"/>

Ladda ner och hantera segment

När du har lagt till minst en segmenttagg visas en knapp "ladda ner segment" efter generering. Klicka på den för att ladda ner alla segment samtidigt, eller använd "mer"-knappen på ljudspelaren för att komma åt enskilda segment. Varje fil namnges automatiskt med ett unikt ID, sekvensnummer och beskrivande titel (t.ex. "7054789_1_första-meningen"), vilket gör det enkelt att identifiera och organisera dina ljudfiler i din redigeringsprogramvara.

Segmentbegränsningar

Korta segment: Upp till 1000 segment per generering
Långa segment: Upp till 500 segment per generering

För större projekt, dela upp i flera genereringar. För omfattande instruktioner, avancerade tekniker och videotutorials, besök vår fullständiga dokumentation om ljudsegmentering.

Intonationsinställning

Vissa röster har intonationsgrafer:

Intonationsgrafer finns tillgängliga för röster som visar en inställningsikon bredvid röstnamnet - denna funktion finns på mer än hälften av rösterna i biblioteket, inklusive både vanliga och PRO-alternativ

Dra punkter på grafen för att ändra intonationen
Höj punkter för att öka tonhöjden på vissa ord
Sänk punkter för att skapa en mer seriös ton
Experimentera med olika kurvor för naturlighet

Dra punkter på grafen för att ändra intonationen

Välj meningen där du vill justera intonationen och tryck på knappen intonation. Detta gränssnitt kommer att visas.

Cachningssystem och sparande av gränser

Smart Cache

SpeechGen. använder ett intelligent cachningssystem som avsevärt sparar dina gränser. Systemet fungerar genom att spara varje mening (upp till 100 000 tecken) i cachen i 7 dagar. När du genererar ditt ljud igen, hämtas alla oförändrade meningar automatiskt från cachen gratis - du betalar bara för nya eller redigerade meningar. Detta innebär att du kan göra stegvisa redigeringar i din text utan att förbruka hela ditt teckenutrymme varje gång. Projektens historik lagras i 30 dagar, och filer du lägger till i favoriter sparas permanent.

Lagringsperioder:

Meningscache: 7 dagar
Projekthistorik: 30 dagar
Favoritfiler: Lagras permanent

Felsökning av vanliga problem

Problem med ljudkvalitet

Rösten låter onaturlig:

Prova PRO-röster
Minska hastigheten till x0.9-x1.1
Kontrollera korrekturläsning av skiljetecken
Använd neutral tonhöjd (0)

Felaktigt uttal:

Se till att rätt språk är valt
Skriv komplexa ord fonetiskt
Använd SSML-taggar för exakt kontroll

Onaturliga pauser:

Kontrollera skiljetecken
Konfigurera pauser mellan meningar
Använd manuella pauser .- eller <break time=""/>
Ta bort extra mellanslag och radbrytningar

SSML-fel:

Kontrollera taggarnas korrekthet
Alla röster stöder inte alla SSML-taggar

Ytterligare funktioner

SSML (Speech Synthesis Markup Language)

För expertkontroll av rösten, använd SSML-taggar:

<break time="2s"/> — pauser
<emphasis level="strong"> — röstbetoning
<prosody rate="slow" pitch="low"> — ändring av talegenskaper

⚠️ Uppmärksamhet: Olika röster stöder olika uppsättningar av SSML-taggar. Testa funktionaliteten för varje specifik röst.

Historik och favoriter

Projekthistorik: Sparas automatiskt i 30 dagar
Favoriter: Lägg till viktiga projekt för permanent lagring

Integration och API

API är tillgängligt för utvecklare för att integrera SpeechGen.io i sina egna applikationer och tjänster.

Min fil laddas inte upp till SpeechGen. Vad ska jag göra?

Kontrollera först att din fil är i ett stödd format (DOCX, PDF eller TXT). Se till att filen inte är skadad och försök ladda upp igen. Om problemet kvarstår, kopiera texten manuellt och klistra in den direkt i textrutan. Kontrollera också att din filstorlek inte överskrider plattformsgränserna.

Hur länge behåller SpeechGen mina genererade ljudfiler?

Din projekthistorik sparas automatiskt i 30 dagar. Smart-cachen (för sparande på meningsnivå) varar i 7 dagar. För att behålla filer permanent, lägg till dem i dina favoriter. Detta säkerställer att dina viktiga ljudprojekt aldrig går förlorade och förblir tillgängliga i din profil.

Kan jag använda olika röster för olika karaktärer i en ljudfil?

Ja! SpeechGen erbjuder ljudgenerering med flera röster (dialogläge). Du kan tilldela olika röster till olika textavsnitt, vilket gör det perfekt för ljudböcker med flera karaktärer, utbildningsdialoger eller podcasts med flera talare. Du kan till och med använda flerspråkiga röster för att växla mellan språk samtidigt som du behåller karaktärernas enhetlighet.

Vad är skillnaden mellan vanliga och PRO-röster i SpeechGen?

PRO-röster erbjuder överlägsen kvalitet och naturlighet jämfört med vanliga röster. De har vanligtvis bättre känslomässigt uttryck, mer exakt uttal och vissa stöder avancerade funktioner som intonationsgrafer. För professionella projekt som ljudböcker, kurser eller affärspresentationer rekommenderas PRO-röster.

Förbrukar ändring av ljudinställningar mina teckenbegränsningar?

Det beror på vilka inställningar du ändrar. Att justera talhastighet eller tonhöjd kräver fullständig omgenerering och förbrukar dina teckenbegränsningar, eftersom dessa ändringar påverkar hela talsyntesen. Du kan dock fritt ändra pauser mellan meningar och stycken utan någon förbrukning av gränser. Dessutom använder SpeechGen smart cachning: om du genererar en stor text, sedan redigerar bara en mening och genererar igen, debiterar systemet dig bara för den enskilda ändrade meningen, inte hela texten. Detta cachningssystem sparar dina oförändrade meningar i 7 dagar, vilket gör iterativ redigering mycket ekonomisk.

Video

Fortfarande frågor?

Få hjälp från vårt community! Ställ dina frågor i vår Telegram-chatt: https://t.me/speechgen