Jak używać funkcji zamiany tekstu na mowę w SpeechGen.io: Kompletny przewodnik

08-09-2025 , 16-09-2025

🚀 Szybki start — Utwórz audio w 4 krokach

Krok 1: Wybierz język

Otwórz listę rozwijaną języków i wybierz język swojego tekstu. Obsługiwane języki: Ponad 150 języków (biblioteka głosów AI).

Krok 2: Wybierz głos

Po wybraniu języka pojawi się lista głosów. Posłuchaj próbek i wybierz swój ulubiony.

Krok 3: Wklej tekst

Skopiuj swój tekst do pola tekstowego lub prześlij plik (DOCX, PDF). Do konwersji napisów na mowę użyj dedykowanej strony SRT na głos.

Krok 4: Kliknij „Wygeneruj mowę” (niebieski przycisk)

Krok 4: Kliknij Wygeneruj mowę

Poczekaj na przetworzenie i pobierz gotowy plik audio.

Gotowe! Twoja pierwsza narracja jest gotowa w zaledwie kilka minut.

Przygotowanie tekstu

Zalecane:

Używaj zwykłego tekstu bez zbędnych symboli.
Poprawnie umieszczaj znaki interpunkcyjne (kropki, przecinki, wykrzykniki).
Dziel długi tekst na akapity.

Unikaj:

Emoji i emotikonów (mogą zakłócić generowanie mowy).
Egzotycznych symboli: ✓, ★, ♦, ►, ♪, ©, ™, ®, ∞, •, ◦, ▪, ▫
Specjalnych symboli Unicode:

💡 Wskazówka: Kopiując tekst z plików PDF, zwracaj szczególną uwagę na tekst — mogą pojawić się niewidoczne znaki, które zepsują dźwięk!

Limity i ograniczenia

Obsługiwane języki: 150+ języków (pełna lista).
Formaty przesyłania: zwykły tekst, DOCX, PDF, SRT.

Maksymalnie na generację: 2 000 000 znaków (około 285 000–330 000 słów) — to imponująca ilość tekstu, którą można przekonwertować na mowę w jednej generacji, co czyni ją idealną do długich treści, takich jak całe książki lub obszerne dokumentacje.

Szczegółowe instrukcje krok po kroku

Krok 1: Prześlij tekst

Wklej tekst: Skopiuj tekst do pola tekstowego.
Prześlij plik: Lub kliknij przycisk przesyłania i wybierz plik (DOCX, PDF).
Sprawdź tekst: Upewnij się, że tekst wyświetla się poprawnie.

Krok 2: Wybierz język

⚠️ Ważne: Najpierw wybierz poprawny język dla swojego tekstu.

Otwórz listę rozwijaną języków.
Znajdź potrzebny język (dostępnych ponad 150 języków).
Dla tekstów wielojęzycznych użyj generowania mowy z wieloma głosami.

Krok 3: Wybierz głos

Po wybraniu języka otworzy się lista dostępnych głosów. Posłuchaj próbek, klikając przycisk odtwarzania dla każdego głosu, aby znaleźć ten, który najlepiej odpowiada Twoim potrzebom. Zobaczysz różne dostępne typy głosów: Głosy zwykłe oferują standardową jakość, głosy PRO zapewniają lepszą jakość i naturalność, a głosy wielojęzyczne (oznaczone kodami języków, np. Ava_US, Ava_ES) pozwalają utrzymać spójność głosu w różnych językach. Poświęć czas na przesłuchanie każdego głosu, ponieważ znacznie różnią się one tonem, emocjami i charakterem.

Krok 4: Skonfiguruj parametry

Prędkość mowy: od x0.1 (bardzo wolno) do x2.2 (bardzo szybko).
Wysokość głosu: od -20 do +20 (krok co 2).

Poniżej pola tekstowego, nad przyciskiem generowania, możesz dostosować ustawienia pauz:

Ustawienia pauz

Pauzy między zdaniami: 150 ms - 30 sekund.
Pauzy między akapitami: 150 ms - 30 sekund.

Krok 5: Wygeneruj mowę

Kliknij przycisk „Wygeneruj mowę” pod polem tekstowym, aby rozpocząć proces konwersji. Czas przetwarzania zależy od długości tekstu — krótsze teksty są przetwarzane w kilka sekund, podczas gdy dłuższe dokumenty mogą zająć kilka minut. Po zakończeniu generowania będziesz mógł odsłuchać wynik bezpośrednio w przeglądarce, aby upewnić się, że spełnia Twoje oczekiwania.

Krok 6: Pobierz

Po zakończeniu generowania pojawi się przycisk „Pobierz”. Domyślnie możesz po prostu pobrać plik w formacie MP3. Jeśli jednak potrzebujesz innego formatu (WAV lub OPUS) lub chcesz zmienić jakość dźwięku (częstotliwość próbkowania od 8000 do 44000 Hz), musisz najpierw wybrać te opcje z menu rozwijanych, ponownie wygenerować mowę z wybranymi ustawieniami, a następnie pobrać plik z preferowanymi specyfikacjami.

Ustawienia parametrów audio

Prędkość mowy

Skala prędkości:

x0.1 - x0.9: Spowolnienie (dla złożonych materiałów, nauki języków).
x1.0: Normalna prędkość (domyślnie).
x1.1 - x2.2: Przyspieszenie (dla dynamicznych treści).

Dlaczego taka skala: Wartości ułamkowe mniejsze od 1 spowalniają mowę, większe od 1 przyspieszają. Pozwala to na precyzyjny wybór tempa dla odbiorców.

Rekomendacje dotyczące prędkości:

Edukacja: x0.8-x1.0 (dla lepszego zrozumienia).
Prezentacje: x0.9-x1.1 (oficjalne tempo).
Podcasty: x1.0-x1.2 (żywe tempo).
YouTube: x1.1-x1.4 (utrzymanie uwagi).

Wysokość głosu

Zakres wysokości: od -20 do +20 ze skokiem co 2.

Dlaczego krok 2: Krok 2 jednostek zapewnia zauważalną, ale nie ostrą zmianę wysokości. Mniejsze kroki byłyby niezauważalne, większe — zbyt drastyczne.

Wpływ wysokości:

Wartości ujemne (-2 do -20): Obniżają głos, czyniąc go bardziej poważnym, autorytatywnym.
Wartości dodatnie (+2 do +20): Podwyższają głos, czyniąc go bardziej przyjaznym, energicznym.
0: Neutralna wysokość (domyślnie).

Zastosowania:

Treści biznesowe: -4 do +2.
Treści dla dzieci: +4 do +12.
Treści dramatyczne: -8 do -16.
Treści przyjazne: +2 do +8.

Praca z pauzami

Automatyczne pauzy

Pauzy między zdaniami: 300 ms (domyślnie).

Pauzy między akapitami: 400 ms (domyślnie).

Te ustawienia można zmienić w menu rozwijanych od 150 ms do 30 sekund.

Ręczne wstawianie pauz

Przez interfejs:

Umieść kursor w żądanym miejscu tekstu.
Kliknij przycisk „Pauza” w menu.
W tekście pojawi się symbol .-.

Przez tagi:

Wstaw tag <break time="200ms"/> lub <break time="2s"/> w żądanym miejscu.

Zasady dotyczące pauz:

Maksymalna pauza: 30 sekund.
Można umieścić wiele pauz z rzędu dla dłuższego opóźnienia.
Pauzy nie zużywają dodatkowych limitów.

Kiedy używać pauz:

Przed ważnymi stwierdzeniami.
Po pytaniach retorycznych.
Między różnymi tematami.
Aby stworzyć efekt dramatyczny.

Mowa z wieloma głosami

Funkcja dialogu pozwala na używanie różnych głosów w jednym tekście.

Zastosowania:

Audiobooki: Różne głosy dla postaci.
Dialogi edukacyjne: Nauczyciel i uczeń.
Prezentacje: Główny mówca i komentator.
Podcasty: Wielu prowadzących.

Funkcja dialogów z wieloma głosami otwiera możliwości twórcze wykraczające poza same głosy postaci. Na przykład nauczyciele języków obcych mogą wykorzystać tę funkcję do demonstrowania tej samej frazy z różnymi prędkościami w celu nauki języka, pomagając uczniom zrozumieć wymowę na różnych poziomach. Szczegółowe techniki i zastosowania w klasie znajdziesz w naszym przewodniku po wykorzystaniu zamiany tekstu na mowę w nauczaniu języków obcych.

Wybór głosu

Głosy wielojęzyczne

Głosy z kodami języków (np. Ava_US, Ava_ES, Ava_DE) są zaprojektowane tak, aby zapewnić spójne rozpoznawanie głosu w różnych językach. Te wielojęzyczne głosy pozwalają na stworzenie jednolitego stylu dla treści wielojęzycznych, zapewniając, że ta sama postać głosowa może płynnie mówić w wielu językach. Ta funkcja jest szczególnie przydatna w trybie dialogu, gdzie można przełączać się między językami, zachowując tę samą rozpoznawalną osobowość głosu w całym projekcie audio.

Segmentacja audio

SpeechGen pozwala na podział wygenerowanego audio na wiele segmentów w ramach jednego projektu syntezy, co jest idealne dla edytorów wideo potrzebujących oddzielnych plików audio dla różnych scen lub rozdziałów. Ta funkcja jest szczególnie przydatna do tworzenia narracji do filmów na YouTube, kursów online lub dowolnego projektu wymagającego precyzyjnej synchronizacji audio.

Jak tworzyć segmenty

Aby podzielić audio, po prostu umieść kursor w miejscu, w którym chcesz podzielić tekst, i kliknij przycisk cięcia na panelu menu. Wstawia to tag <cut/> w tym miejscu. Możesz również ręcznie wpisać lub skopiować i wkleić ten tag w całym tekście. Aby uzyskać niestandardowe nazwy plików, użyj tego formatu:

<cut name="twoja-nazwa-pliku"/>

Ta funkcja pomaga organizować segmenty za pomocą znaczących nazw, takich jak:

<cut name="intro"/>

<cut name="chapter-1"/>

Pobieranie i zarządzanie segmentami

Po dodaniu co najmniej jednego tagu segmentu, po wygenerowaniu pojawi się przycisk „Pobierz segmenty”. Kliknij go, aby pobrać wszystkie segmenty naraz, lub użyj przycisku „więcej” na odtwarzaczu audio, aby uzyskać dostęp do poszczególnych segmentów. Każdy plik jest automatycznie nazywany unikalnym identyfikatorem, numerem sekwencji i opisowym tytułem (np. „7054789_1_first-sentence”), co ułatwia identyfikację i organizację plików audio w oprogramowaniu do edycji.

Ograniczenia segmentów

Krótkie segmenty: Do 1000 segmentów na generację.
Długie segmenty: Do 500 segmentów na generację.

W przypadku większych projektów podziel je na wiele generacji. Kompleksowe instrukcje, zaawansowane techniki i samouczki wideo znajdziesz w naszej pełnej dokumentacji dotyczącej segmentacji audio.

Ustawienia intonacji

Niektóre głosy mają wykresy intonacji:

Wykresy intonacji są dostępne dla głosów, które wyświetlają ikonę ustawienia obok nazwy głosu — ta funkcja jest dostępna w ponad połowie głosów w bibliotece, w tym zarówno w opcjach zwykłych, jak i PRO.

Przeciągnij punkty na wykresie, aby zmienić intonację.
Podnieś punkty, aby zwiększyć wysokość głosu dla określonych słów.
Obniż punkty, aby stworzyć bardziej poważny ton.
Eksperymentuj z różnymi krzywymi dla naturalności.

Przeciągnij punkty na wykresie, aby zmienić intonację

Zaznacz zdanie, w którym chcesz dostosować intonację, i naciśnij przycisk intonacja. Pojawi się ten interfejs.

System buforowania i oszczędzanie limitów

Inteligentny bufor

SpeechGen. wykorzystuje inteligentny system buforowania, który znacząco oszczędza Twoje limity. System działa poprzez zapisywanie każdego zdania (do 100 000 znaków) w buforze przez 7 dni. Po ponownym wygenerowaniu audio, niezmienione zdania są automatycznie pobierane z bufora za darmo — płacisz tylko za nowe lub edytowane zdania. Oznacza to, że możesz wprowadzać stopniowe zmiany w tekście bez zużywania całego limitu znaków za każdym razem. Historia projektów jest przechowywana przez 30 dni, a pliki dodane do ulubionych są przechowywane na stałe.

Okresy przechowywania:

Bufor zdań: 7 dni.
Historia projektów: 30 dni.
Ulubione pliki: Przechowywane na stałe.

Rozwiązywanie typowych problemów

Problemy z jakością dźwięku

Głos brzmi nienaturalnie:

Wypróbuj głosy PRO.
Zmniejsz prędkość do x0.9-x1.1.
Sprawdź poprawność interpunkcji.
Użyj neutralnej wysokości głosu (0).

Nieprawidłowa wymowa:

Upewnij się, że wybrany jest poprawny język.
Zapisz skomplikowane słowa fonetycznie.
Użyj tagów SSML dla precyzyjnej kontroli.

Nienaturalne pauzy:

Sprawdź interpunkcję.
Skonfiguruj pauzy między zdaniami.
Użyj ręcznych pauz .- lub <break time=""/>.
Usuń dodatkowe spacje i podziały wierszy.

Błędy SSML:

Sprawdź poprawność tagów.
Nie wszystkie głosy obsługują wszystkie tagi SSML.

Dodatkowe funkcje

SSML (Speech Synthesis Markup Language)

Aby uzyskać ekspercką kontrolę nad głosem, użyj tagów SSML:

<break time="2s"/> — pauzy.
<emphasis level="strong"> — nacisk na głos.
<prosody rate="slow" pitch="low"> — zmiana charakterystyki mowy.

⚠️ Uwaga: Różne głosy obsługują różne zestawy tagów SSML. Przetestuj funkcjonalność dla każdego konkretnego głosu.

Historia i ulubione

Historia projektów: Automatycznie zapisywana przez 30 dni.
Ulubione: Dodaj ważne projekty do trwałego przechowywania.

Integracja i API

API jest dostępne dla programistów do integracji SpeechGen.io z ich własnymi aplikacjami i usługami.

Mój plik nie chce się przesłać do SpeechGen. Co powinienem zrobić?

Najpierw sprawdź, czy Twój plik jest w obsługiwanym formacie (DOCX, PDF lub TXT). Upewnij się, że plik nie jest uszkodzony i spróbuj przesłać go ponownie. Jeśli problem nadal występuje, skopiuj tekst ręcznie i wklej go bezpośrednio do pola tekstowego. Sprawdź również, czy rozmiar pliku nie przekracza limitów platformy.

Jak długo SpeechGen przechowuje moje wygenerowane pliki audio?

Historia Twoich projektów jest automatycznie zapisywana przez 30 dni. Inteligentny bufor (do zapisywania na poziomie zdań) działa przez 7 dni. Aby zachować pliki na stałe, dodaj je do ulubionych. Dzięki temu Twoje ważne projekty audio nigdy nie zostaną utracone i pozostaną dostępne w Twoim profilu.

Czy mogę używać różnych głosów dla różnych postaci w jednym pliku audio?

Tak! SpeechGen oferuje generowanie mowy z wieloma głosami (tryb dialogu). Możesz przypisać różne głosy do różnych sekcji tekstu, co jest idealne do audiobooków z wieloma postaciami, dialogów edukacyjnych lub podcastów z wieloma mówcami. Możesz nawet używać głosów wielojęzycznych, aby przełączać się między językami, zachowując spójność postaci.

Jaka jest różnica między głosami zwykłymi a PRO w SpeechGen?

Głosy PRO oferują wyższą jakość i naturalność w porównaniu do głosów zwykłych. Zazwyczaj mają lepsze wyrażanie emocji, dokładniejszą wymowę, a niektóre obsługują zaawansowane funkcje, takie jak wykresy intonacji. W przypadku projektów profesjonalnych, takich jak audiobooki, kursy lub prezentacje biznesowe, zaleca się stosowanie głosów PRO.

Czy zmiana ustawień audio zużywa moje limity znaków?

To zależy od tego, które ustawienia zmienisz. Dostosowanie prędkości mowy lub wysokości głosu wymaga pełnej regeneracji i zużyje Twoje limity znaków, ponieważ te zmiany wpływają na całą syntezę mowy. Możesz jednak swobodnie modyfikować pauzy między zdaniami i akapitami bez zużywania limitów. Ponadto SpeechGen wykorzystuje inteligentne buforowanie: jeśli wygenerujesz duży tekst, a następnie edytujesz tylko jedno zdanie i ponownie wygenerujesz, system obciąży Cię tylko za to jedno zmienione zdanie, a nie za cały tekst. Ten system buforowania przechowuje niezmienione zdania przez 7 dni, co sprawia, że edycja iteracyjna jest bardzo ekonomiczna.

Wideo

Nadal masz pytania?

Uzyskaj pomoc od naszej społeczności! Zadawaj pytania na naszym czacie Telegram: https://t.me/speechgen