08-09-2025 , 16-09-2025
Öppna språkmenyn och välj språket för din text. Stödda språk: Över 150 språk (bibliotek med AI-röster).
Efter att du valt språk visas en lista med röster. Lyssna på prover och välj din favorit
Kopiera din text till textrutan eller ladda upp en fil (DOCX, PDF). För att konvertera undertexter till tal, använd den dedikerade sidan SRT till röst.
Vänta på bearbetning och ladda ner din färdiga ljudfil
Klart! Din första voiceover är klar på bara ett par minuter.
💡 Tips: När du kopierar från PDF-filer, var extra noga med texten — osynliga tecken kan dyka upp och förstöra ljudet!
Maximalt per generering: 2 000 000 tecken (≈ 285 000-330 000 ord) - detta är en imponerande mängd text som du kan konvertera till tal i en enda generering, vilket gör den idealisk för långt innehåll som hela böcker eller omfattande dokumentation.
⚠️ Viktigt: Välj först rätt språk för din text
Efter att du valt språk öppnas en lista med tillgängliga röster. Lyssna på prover genom att klicka på play-knappen för varje röst för att hitta den som passar dina behov bäst. Du kommer att se olika rösttyper: Vanliga röster erbjuder standardkvalitet, PRO-röster ger förbättrad kvalitet och naturlighet, och flerspråkiga röster (märkta med språkkoder som Ava_US, Ava_ES) låter dig behålla röstens enhetlighet över olika språk. Ta dig tid att förhandsgranska varje röst eftersom de varierar avsevärt i ton, känsla och karaktär.
Nedanför textrutan, ovanför genereringsknappen, kan du justera pausinställningarna:
Klicka på knappen "Generera tal" under textrutan för att starta konverteringsprocessen. Bearbetningstiden beror på din textlängd - kortare texter slutförs på sekunder medan längre dokument kan ta några minuter. När genereringen är klar kan du lyssna på resultatet direkt i webbläsaren för att säkerställa att det uppfyller dina förväntningar.
Efter att genereringen är klar visas en "Ladda ner"-knapp. Som standard kan du helt enkelt ladda ner filen som MP3. Men om du behöver ett annat format (WAV eller OPUS) eller vill ändra ljudkvaliteten (samplingsfrekvens från 8000 till 44000 Hz), måste du först välja dessa alternativ från rullgardinsmenyerna, generera talet igen med dina valda inställningar och sedan ladda ner filen med dina föredragna specifikationer.
Hastighetsskala:
Varför denna skala: Bråktal mindre än 1 saktar ner talet, större än 1 snabbar upp det. Detta möjliggör exakt tempo för din publik.
Rekommendationer för hastighet:
Tonhöjdsintervall: från -20 till +20 med steg om 2
Varför steg om 2: Ett steg om 2 enheter ger en märkbar men inte skarp tonhöjdsförändring. Mindre steg skulle vara omärkliga, större steg för dramatiska.
Tonhöjdspåverkan:
Användningsområden:
Pauser mellan meningar: 300ms (standard)
Pauser mellan stycken: 400ms (standard)
Dessa inställningar kan ändras i rullgardinsmenyer från 150ms till 30 sekunder.
Via gränssnittet:
Via taggar:
Infoga taggen <break time="200ms"/> eller <break time="2s"/> på önskad plats
Regler för pauser:
När ska pauser användas:
Funktionen för dialoger tillåter användning av olika röster i en text.
Funktionen för dialoger med flera röster öppnar upp kreativa möjligheter utöver bara karaktärsröster. Språklärare kan till exempel använda denna funktion för att demonstrera samma fras i olika hastigheter för språkinlärning, vilket hjälper eleverna att förstå uttal vid olika förståelsenivåer. För detaljerade tekniker och klassrumstillämpningar, se vår guide om att använda text-till-tal för undervisning i främmande språk.
Röster med språkkoder (t.ex. Ava_US, Ava_ES, Ava_DE) är utformade för att bibehålla konsekvent röstigenkänning över olika språk. Dessa flerspråkiga röster gör det möjligt för dig att skapa en enhetlig stil för flerspråkigt innehåll, vilket säkerställer att samma röstkaraktär kan tala flera språk sömlöst. Denna funktion är särskilt användbar i dialogläge, där du kan växla mellan språk samtidigt som du behåller samma igenkännbara röstpersonlighet genom hela ditt ljudprojekt.
SpeechGen låter dig dela upp ditt genererade ljud i flera segment inom ett enda syntesprojekt, vilket gör det perfekt för videoredigerare som behöver separata ljudfiler för olika scener eller kapitel. Denna funktion är särskilt användbar för att skapa voiceovers för YouTube-videor, onlinekurser eller vilket projekt som helst som kräver exakt ljudsynkronisering.
För att dela upp ditt ljud, placera helt enkelt markören där du vill dela texten och klicka på klippknappen i menyfältet. Detta infogar en <cut/> tagg på den positionen. Du kan också manuellt skriva eller kopiera/klistra in denna tagg i din text. För anpassade filnamn, använd detta format:
<cut name="ditt-filnamn"/>
Denna funktion hjälper dig att organisera segment med meningsfulla namn som:
<cut name="intro"/>
<cut name="kapitel-1"/>
När du har lagt till minst en segmenttagg visas en knapp "ladda ner segment" efter generering. Klicka på den för att ladda ner alla segment samtidigt, eller använd "mer"-knappen på ljudspelaren för att komma åt enskilda segment. Varje fil namnges automatiskt med ett unikt ID, sekvensnummer och beskrivande titel (t.ex. "7054789_1_första-meningen"), vilket gör det enkelt att identifiera och organisera dina ljudfiler i din redigeringsprogramvara.
För större projekt, dela upp i flera genereringar. För omfattande instruktioner, avancerade tekniker och videotutorials, besök vår fullständiga dokumentation om ljudsegmentering.
Vissa röster har intonationsgrafer:
Intonationsgrafer finns tillgängliga för röster som visar en inställningsikon bredvid röstnamnet - denna funktion finns på mer än hälften av rösterna i biblioteket, inklusive både vanliga och PRO-alternativ
Välj meningen där du vill justera intonationen och tryck på knappen intonation. Detta gränssnitt kommer att visas.
SpeechGen. använder ett intelligent cachningssystem som avsevärt sparar dina gränser. Systemet fungerar genom att spara varje mening (upp till 100 000 tecken) i cachen i 7 dagar. När du genererar ditt ljud igen, hämtas alla oförändrade meningar automatiskt från cachen gratis - du betalar bara för nya eller redigerade meningar. Detta innebär att du kan göra stegvisa redigeringar i din text utan att förbruka hela ditt teckenutrymme varje gång. Projektens historik lagras i 30 dagar, och filer du lägger till i favoriter sparas permanent.
Lagringsperioder:
Rösten låter onaturlig:
Felaktigt uttal:
Onaturliga pauser:
SSML-fel:
För expertkontroll av rösten, använd SSML-taggar:
⚠️ Uppmärksamhet: Olika röster stöder olika uppsättningar av SSML-taggar. Testa funktionaliteten för varje specifik röst.
API är tillgängligt för utvecklare för att integrera SpeechGen.io i sina egna applikationer och tjänster.
Kontrollera först att din fil är i ett stödd format (DOCX, PDF eller TXT). Se till att filen inte är skadad och försök ladda upp igen. Om problemet kvarstår, kopiera texten manuellt och klistra in den direkt i textrutan. Kontrollera också att din filstorlek inte överskrider plattformsgränserna.
Din projekthistorik sparas automatiskt i 30 dagar. Smart-cachen (för sparande på meningsnivå) varar i 7 dagar. För att behålla filer permanent, lägg till dem i dina favoriter. Detta säkerställer att dina viktiga ljudprojekt aldrig går förlorade och förblir tillgängliga i din profil.
Ja! SpeechGen erbjuder ljudgenerering med flera röster (dialogläge). Du kan tilldela olika röster till olika textavsnitt, vilket gör det perfekt för ljudböcker med flera karaktärer, utbildningsdialoger eller podcasts med flera talare. Du kan till och med använda flerspråkiga röster för att växla mellan språk samtidigt som du behåller karaktärernas enhetlighet.
PRO-röster erbjuder överlägsen kvalitet och naturlighet jämfört med vanliga röster. De har vanligtvis bättre känslomässigt uttryck, mer exakt uttal och vissa stöder avancerade funktioner som intonationsgrafer. För professionella projekt som ljudböcker, kurser eller affärspresentationer rekommenderas PRO-röster.
Det beror på vilka inställningar du ändrar. Att justera talhastighet eller tonhöjd kräver fullständig omgenerering och förbrukar dina teckenbegränsningar, eftersom dessa ändringar påverkar hela talsyntesen. Du kan dock fritt ändra pauser mellan meningar och stycken utan någon förbrukning av gränser. Dessutom använder SpeechGen smart cachning: om du genererar en stor text, sedan redigerar bara en mening och genererar igen, debiterar systemet dig bara för den enskilda ändrade meningen, inte hela texten. Detta cachningssystem sparar dina oförändrade meningar i 7 dagar, vilket gör iterativ redigering mycket ekonomisk.
Få hjälp från vårt community! Ställ dina frågor i vår Telegram-chatt: https://t.me/speechgen