Hvordan bruke tekst til tale på SpeechGen.io: Fullstendig guide

, 16-09-2025

🚀 Rask start — Lag lyd på 4 trinn

Trinn 1: Velg språk

Trinn 1: Velg språk

Åpne språkmenyen og velg språket for teksten din. Støttede språk: Over 150 språk (bibliotek med AI-stemmer).

Trinn 2: Velg stemme

Trinn 2: Velg stemme

Etter at du har valgt språk, vises en liste over stemmer. Lytt til eksempler og velg din favoritt

Trinn 3: Lim inn tekst

Trinn 3: Lim inn tekst

Kopier teksten din inn i tekstfeltet eller last opp en fil (DOCX, PDF). For å konvertere undertekster til tale, bruk den dedikerte SRT til tale-siden.

Trinn 4: Klikk "Generer tale" (blå knapp)

Trinn 4: Klikk Generer tale

Vent på prosessering og last ned din ferdige lydfil

Det var alt! Din første voiceover er klar på bare et par minutter.

Tekstforberedelse

Anbefalt:

Unngå:

  • Emosjonsikoner og smilefjes (kan forstyrre lydgenerering)
  • Eksotiske symboler: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
  • Spesielle Unicode-symboler:  

💡 Tips: Når du kopierer fra PDF-filer, vær spesielt oppmerksom på teksten — usynlige tegn kan dukke opp som kan ødelegge lyden!

Grenser og restriksjoner

Maksimalt per generasjon: 2 000 000 tegn (≈ 285 000-330 000 ord) - dette er en imponerende mengde tekst du kan konvertere til tale i én generasjon, noe som gjør den ideell for langt innhold som hele bøker eller omfattende dokumentasjon.

Detaljerte trinnvise instruksjoner

Trinn 1: Last opp tekst

  1. Lim inn tekst: Kopier teksten din inn i tekstfeltet
  2. Last opp fil: Eller klikk på opplastingsknappen og velg en fil (DOCX, PDF)
  3. Sjekk tekst: Forsikre deg om at teksten vises korrekt

Trinn 2: Velg språk

⚠️ Viktig: Velg først riktig språk for teksten din

Trinn 3: Velg stemme

Etter at du har valgt språk, åpnes en liste over tilgjengelige stemmer. Lytt til eksempler ved å klikke på avspillingsknappen for hver stemme for å finne den som passer best for dine behov. Du vil se forskjellige stemmetyper tilgjengelig: Vanlige stemmer tilbyr standard kvalitet, PRO-stemmer gir forbedret kvalitet og naturlighet, og flerspråklige stemmer (merket med språkkoder som Ava_US, Ava_ES) lar deg opprettholde stemmekonsistens på tvers av forskjellige språk. Ta deg tid til å forhåndsvise hver stemme, da de varierer betydelig i tone, følelse og karakter.

Trinn 4: Konfigurer parametere

  • Talefart: fra x0.1 (veldig sakte) til x2.2 (veldig raskt)
  • Stemmeleie: fra -20 til +20 (steg 2)

Under tekstfeltet, over genereringsknappen, kan du justere pauseinnstillingene:

pauseinnstillinger

  • Pauser mellom setninger: 150ms - 30 sekunder
  • Pauser mellom avsnitt: 150ms - 30 sekunder

Trinn 5: Generer tale

Klikk på "Generer tale"-knappen under tekstfeltet for å starte konverteringsprosessen. Behandlingstiden avhenger av tekstlengden din - kortere tekster fullføres på sekunder, mens lengre dokumenter kan ta noen minutter. Når genereringen er fullført, vil du kunne lytte til resultatet direkte i nettleseren for å sikre at det oppfyller dine forventninger.

Trinn 6: Last ned

Etter at genereringen er fullført, vises en "Last ned"-knapp. Som standard kan du bare laste ned filen som MP3. Men hvis du trenger et annet format (WAV eller OPUS) eller ønsker å endre lydkvaliteten (samplingsfrekvens fra 8000 til 44000 Hz), må du først velge disse alternativene fra rullegardinmenyene, generere talen på nytt med dine valgte innstillinger, og deretter laste ned filen med dine foretrukne spesifikasjoner.

Lydparameterinnstillinger

Talefart

Fartsskala:

  • x0.1 - x0.9: Saktere (for komplekst materiale, språklæring)
  • x1.0: Normal hastighet (standard)
  • x1.1 - x2.2: Raskere (for dynamisk innhold)

Hvorfor denne skalaen: Brøkdeler mindre enn 1 senker talefarten, større enn 1 øker den. Dette gir presis tempo-valg for ditt publikum.

Anbefalinger for fart:

  • Utdanning: x0.8-x1.0 (for bedre forståelse)
  • Presentasjoner: x0.9-x1.1 (offisiell takt)
  • Podkaster: x1.0-x1.2 (livlig takt)
  • YouTube: x1.1-x1.4 (oppmerksomhetsbevaring)

Stemmeleie

Leieområde: fra -20 til +20 med steg 2

Hvorfor steg 2: Et steg på 2 enheter gir merkbar, men ikke skarp endring i tonehøyde. Mindre steg ville vært umerkelige, større steg for dramatiske.

Påvirkning av tonehøyde:

  • Negative verdier (-2 til -20): Gjør stemmen lavere, mer seriøs, autoritativ
  • Positive verdier (+2 til +20): Gjør stemmen høyere, vennligere, mer energisk
  • 0: Nøytral tonehøyde (standard)

Bruksområder:

  • Forretningsinnhold: -4 til +2
  • Barneinnhold: +4 til +12
  • Dramatisk innhold: -8 til -16
  • Vennlig innhold: +2 til +8

Arbeid med pauser

Automatiske pauser

Pauser mellom setninger: 300ms (standard)

Pauser mellom avsnitt: 400ms (standard)

Disse innstillingene kan endres i rullegardinmenyer fra 150ms til 30 sekunder.

Manuell innsetting av pause

Via grensesnitt:

  1. Plasser markøren på ønsket sted i teksten
  2. Klikk på "Pause"-knappen i menyen
  3. Symbolet .- vil vises i teksten

Via koder:

Sett inn koden <break time="200ms"/> eller <break time="2s"/> på ønsket sted

Regler for pauser:

  • Maksimal pause: 30 sekunder
  • Kan plassere flere pauser etter hverandre for lengre forsinkelse
  • Pauser bruker ikke ekstra grenser

Når du skal bruke pauser:

  • Før viktige utsagn
  • Etter retoriske spørsmål
  • Mellom forskjellige temaer
  • For å skape dramatisk effekt

Lyd med flere stemmer

Funksjonen for dialoger lar deg bruke forskjellige stemmer i én tekst.

Bruksområder:

  • Lydbøker: Ulike stemmer for karakterer
  • Utdanningsdialoger: Lærer og elev
  • Presentasjoner: Hovedtaler og kommentator
  • Podkaster: Flere verter

Funksjonen for dialoger med flere stemmer åpner for kreative muligheter utover bare karakterstemmer. Fremmedspråklærere kan for eksempel bruke denne funksjonen til å demonstrere samme frase med forskjellige hastigheter for språklæring, noe som hjelper studenter med å forstå uttale på ulike nivåer. For detaljerte teknikker og klasseromsapplikasjoner, se vår guide om bruk av tekst-til-tale for fremmedspråklærere.

Valg av stemme

Flerspråklige stemmer

Stemmer med språkkoder (f.eks. Ava_US, Ava_ES, Ava_DE) er designet for å opprettholde konsistent stemmegjenkjenning på tvers av forskjellige språk. Disse flerspråklige stemmene lar deg skape en enhetlig stil for flerspråklig innhold, og sikrer at den samme stemmekarakteren kan snakke flere språk sømløst. Denne funksjonen er spesielt nyttig i dialogmodus, der du kan bytte mellom språk samtidig som du beholder den samme gjenkjennelige stemmepersonligheten gjennom hele lydprosjektet ditt.

Lydsegmentering

SpeechGen lar deg dele opp lyden din i flere segmenter innenfor ett enkelt synteseprosjekt, noe som gjør det perfekt for videoeditorer som trenger separate lydfiler for forskjellige scener eller kapitler. Denne funksjonen er spesielt nyttig for å lage voiceovers for YouTube-videoer, nettkurs eller ethvert prosjekt som krever presis lydsynkronisering.

Slik lager du segmenter

For å dele opp lyden din, plasser markøren der du vil dele teksten og klikk på klipp-knappen i menyen. Dette setter inn en <cut/> kode på den posisjonen. Du kan også manuelt skrive eller kopiere/lime inn denne koden i teksten din. For egendefinerte filnavn, bruk dette formatet:

<cut name="ditt-filnavn"/>

Denne funksjonen hjelper deg med å organisere segmenter med meningsfulle navn som:

<cut name="intro"/>

<cut name="kapittel-1"/>

Nedlasting og administrasjon av segmenter

Når du har lagt til minst én segmentkode, vises en "last ned segmenter"-knapp etter generering. Klikk på den for å laste ned alle segmentene samtidig, eller bruk "mer"-knappen på lydspilleren for å få tilgang til individuelle segmenter. Hver fil navngis automatisk med en unik ID, sekvensnummer og beskrivende tittel (f.eks. "7054789_1_første-setning"), noe som gjør det enkelt å identifisere og organisere lydfilene dine i redigeringsprogramvaren din.

Segmentbegrensninger

  • Korte segmenter: Opptil 1000 segmenter per generasjon
  • Lange segmenter: Opptil 500 segmenter per generasjon

For større prosjekter, del opp i flere generasjoner. For omfattende instruksjoner, avanserte teknikker og videotutorials, besøk vår komplette dokumentasjon for lydsegmentering.

Intonasjonsinnstilling

Noen stemmer har intonasjonsgrafer:

Intonasjonsgrafer er tilgjengelige for stemmer som viser et innstillings ikon ved siden av stemmenavnet - denne funksjonen finnes på mer enn halvparten av stemmene i biblioteket, inkludert både vanlige og PRO-alternativer

  • Dra punkter på grafen for å endre intonasjon
  • Høyere punkter for å øke tonehøyden på visse ord
  • Lavere punkter for å skape en mer seriøs tone
  • Eksperimenter med forskjellige kurver for naturlighet

Dra punkter på grafen for å endre intonasjon

Velg setningen du vil justere intonasjonen for, og trykk på intonasjon-knappen. Dette grensesnittet vil vises.

Cachesystem og grensebesparelser

Smart Cache

SpeechGen bruker et intelligent cachesystem som sparer grensene dine betydelig. Systemet fungerer ved å lagre hver setning (opptil 100 000 tegn) i cache i 7 dager. Når du genererer lyden din på nytt, hentes alle uendrede setninger automatisk fra cachen gratis - du betaler bare for nye eller redigerte setninger. Dette betyr at du kan gjøre inkrementelle endringer i teksten din uten å bruke hele tegnkvoten hver gang. Prosjekthistorikk lagres i 30 dager, og filer du legger til i favoritter lagres permanent.

Lagringsperioder:

  • Setningscache: 7 dager
  • Prosjekthistorikk: 30 dager
  • Favorittfiler: Lagres permanent

Feilsøking av vanlige problemer

Problemer med lydkvalitet

Stemmen høres unaturlig ut:

  • Prøv PRO-stemmer
  • Reduser hastigheten til x0.9-x1.1
  • Sjekk riktigheten av tegnsetting
  • Bruk nøytral tonehøyde (0)

Feil uttale:

  • Forsikre deg om at riktig språk er valgt
  • Skriv komplekse ord fonetisk
  • Bruk SSML-koder for presis kontroll

Unaturlige pauser:

  • Sjekk tegnsetting
  • Konfigurer pauser mellom setninger
  • Bruk manuelle pauser .- eller <break time=""/>
  • Fjern ekstra mellomrom og linjeskift

SSML-feil:

  • Sjekk riktigheten av kodene
  • Ikke alle stemmer støtter alle SSML-koder

Tilleggsfunksjoner

SSML (Speech Synthesis Markup Language)

For ekspert stemmekontroll, bruk SSML-koder:

  • <break time="2s"/> — pauser
  • <emphasis level="strong"> — stemmebetoning
  • <prosody rate="slow" pitch="low"> — endring av talekarakteristikker

⚠️ Oppmerksomhet: Ulike stemmer støtter forskjellige sett med SSML-koder. Test funksjonaliteten for hver spesifikke stemme.

Historikk og favoritter

  • Prosjekthistorikk: Lagres automatisk i 30 dager
  • Favoritter: Legg til viktige prosjekter for permanent lagring

Integrasjon og API

API er tilgjengelig for utviklere for å integrere SpeechGen.io i sine egne applikasjoner og tjenester.

Filen min lastes ikke opp til SpeechGen. Hva bør jeg gjøre?

Sjekk først at filen din er i et støttet format (DOCX, PDF eller TXT). Forsikre deg om at filen ikke er skadet og prøv å laste opp igjen. Hvis problemet vedvarer, kopier teksten manuelt og lim den direkte inn i tekstfeltet. Verifiser også at filstørrelsen din ikke overskrider plattformens grenser.

Hvor lenge beholder SpeechGen mine genererte lydfiler?

Prosjekthistorikken din lagres automatisk i 30 dager. Smart-cachen (for lagring på setningsnivå) varer i 7 dager. For å beholde filer permanent, legg dem til i favorittene dine. Dette sikrer at dine viktige lydprosjekter aldri går tapt og forblir tilgjengelige i profilen din.

Kan jeg bruke forskjellige stemmer for forskjellige karakterer i én lydfil?

Ja! SpeechGen tilbyr generering av lyd med flere stemmer (dialogmodus). Du kan tildele forskjellige stemmer til forskjellige tekstseksjoner, noe som gjør det perfekt for lydbøker med flere karakterer, utdanningsdialoger eller podkaster med flere talere. Du kan til og med bruke flerspråklige stemmer for å bytte mellom språk samtidig som du opprettholder karakterkonsistens.

Hva er forskjellen mellom vanlige og PRO-stemmer i SpeechGen?

PRO-stemmer tilbyr overlegen kvalitet og naturlighet sammenlignet med vanlige stemmer. De har vanligvis bedre emosjonell uttrykksevne, mer nøyaktig uttale, og noen støtter avanserte funksjoner som intonasjonsgrafer. For profesjonelle prosjekter som lydbøker, kurs eller forretningspresentasjoner, anbefales PRO-stemmer.

Forbruker endring av lydinnstillinger mine tegnbegrensninger?

Det avhenger av hvilke innstillinger du endrer. Justering av talefart eller tonehøyde krever full regenerering og vil forbruke tegnbegrensningene dine, da disse endringene påvirker hele stemmesyntesen. Du kan imidlertid fritt endre pauser mellom setninger og avsnitt uten forbruk av grenser. I tillegg bruker SpeechGen smart caching: hvis du genererer en stor tekst, deretter redigerer bare én setning og regenererer, vil systemet bare belaste deg for den ene endrede setningen, ikke hele teksten. Dette cachesystemet lagrer dine uendrede setninger i 7 dager, noe som gjør iterativ redigering svært økonomisk.

Video

Har du fortsatt spørsmål?

Få hjelp fra fellesskapet vårt! Still spørsmålene dine i vår Telegram-chat: https://t.me/speechgen

Vi bruker informasjonskapsler for å sikre at du får den beste opplevelsen på nettstedet vårt. Finn ut mer: Personvernregler

Godta cookies