08-09-2025 , 16-09-2025
Otwórz listę rozwijaną języków i wybierz język swojego tekstu. Obsługiwane języki: Ponad 150 języków (biblioteka głosów AI).
Po wybraniu języka pojawi się lista głosów. Posłuchaj próbek i wybierz swój ulubiony.
Skopiuj swój tekst do pola tekstowego lub prześlij plik (DOCX, PDF). Do konwersji napisów na mowę użyj dedykowanej strony SRT na głos.
Poczekaj na przetworzenie i pobierz gotowy plik audio.
Gotowe! Twoja pierwsza narracja jest gotowa w zaledwie kilka minut.
💡 Wskazówka: Kopiując tekst z plików PDF, zwracaj szczególną uwagę na tekst — mogą pojawić się niewidoczne znaki, które zepsują dźwięk!
Maksymalnie na generację: 2 000 000 znaków (około 285 000–330 000 słów) — to imponująca ilość tekstu, którą można przekonwertować na mowę w jednej generacji, co czyni ją idealną do długich treści, takich jak całe książki lub obszerne dokumentacje.
⚠️ Ważne: Najpierw wybierz poprawny język dla swojego tekstu.
Po wybraniu języka otworzy się lista dostępnych głosów. Posłuchaj próbek, klikając przycisk odtwarzania dla każdego głosu, aby znaleźć ten, który najlepiej odpowiada Twoim potrzebom. Zobaczysz różne dostępne typy głosów: Głosy zwykłe oferują standardową jakość, głosy PRO zapewniają lepszą jakość i naturalność, a głosy wielojęzyczne (oznaczone kodami języków, np. Ava_US, Ava_ES) pozwalają utrzymać spójność głosu w różnych językach. Poświęć czas na przesłuchanie każdego głosu, ponieważ znacznie różnią się one tonem, emocjami i charakterem.
Poniżej pola tekstowego, nad przyciskiem generowania, możesz dostosować ustawienia pauz:
Kliknij przycisk „Wygeneruj mowę” pod polem tekstowym, aby rozpocząć proces konwersji. Czas przetwarzania zależy od długości tekstu — krótsze teksty są przetwarzane w kilka sekund, podczas gdy dłuższe dokumenty mogą zająć kilka minut. Po zakończeniu generowania będziesz mógł odsłuchać wynik bezpośrednio w przeglądarce, aby upewnić się, że spełnia Twoje oczekiwania.
Po zakończeniu generowania pojawi się przycisk „Pobierz”. Domyślnie możesz po prostu pobrać plik w formacie MP3. Jeśli jednak potrzebujesz innego formatu (WAV lub OPUS) lub chcesz zmienić jakość dźwięku (częstotliwość próbkowania od 8000 do 44000 Hz), musisz najpierw wybrać te opcje z menu rozwijanych, ponownie wygenerować mowę z wybranymi ustawieniami, a następnie pobrać plik z preferowanymi specyfikacjami.
Skala prędkości:
Dlaczego taka skala: Wartości ułamkowe mniejsze od 1 spowalniają mowę, większe od 1 przyspieszają. Pozwala to na precyzyjny wybór tempa dla odbiorców.
Rekomendacje dotyczące prędkości:
Zakres wysokości: od -20 do +20 ze skokiem co 2.
Dlaczego krok 2: Krok 2 jednostek zapewnia zauważalną, ale nie ostrą zmianę wysokości. Mniejsze kroki byłyby niezauważalne, większe — zbyt drastyczne.
Wpływ wysokości:
Zastosowania:
Pauzy między zdaniami: 300 ms (domyślnie).
Pauzy między akapitami: 400 ms (domyślnie).
Te ustawienia można zmienić w menu rozwijanych od 150 ms do 30 sekund.
Przez interfejs:
Przez tagi:
Wstaw tag <break time="200ms"/> lub <break time="2s"/> w żądanym miejscu.
Zasady dotyczące pauz:
Kiedy używać pauz:
Funkcja dialogu pozwala na używanie różnych głosów w jednym tekście.
Funkcja dialogów z wieloma głosami otwiera możliwości twórcze wykraczające poza same głosy postaci. Na przykład nauczyciele języków obcych mogą wykorzystać tę funkcję do demonstrowania tej samej frazy z różnymi prędkościami w celu nauki języka, pomagając uczniom zrozumieć wymowę na różnych poziomach. Szczegółowe techniki i zastosowania w klasie znajdziesz w naszym przewodniku po wykorzystaniu zamiany tekstu na mowę w nauczaniu języków obcych.
Głosy z kodami języków (np. Ava_US, Ava_ES, Ava_DE) są zaprojektowane tak, aby zapewnić spójne rozpoznawanie głosu w różnych językach. Te wielojęzyczne głosy pozwalają na stworzenie jednolitego stylu dla treści wielojęzycznych, zapewniając, że ta sama postać głosowa może płynnie mówić w wielu językach. Ta funkcja jest szczególnie przydatna w trybie dialogu, gdzie można przełączać się między językami, zachowując tę samą rozpoznawalną osobowość głosu w całym projekcie audio.
SpeechGen pozwala na podział wygenerowanego audio na wiele segmentów w ramach jednego projektu syntezy, co jest idealne dla edytorów wideo potrzebujących oddzielnych plików audio dla różnych scen lub rozdziałów. Ta funkcja jest szczególnie przydatna do tworzenia narracji do filmów na YouTube, kursów online lub dowolnego projektu wymagającego precyzyjnej synchronizacji audio.
Aby podzielić audio, po prostu umieść kursor w miejscu, w którym chcesz podzielić tekst, i kliknij przycisk cięcia na panelu menu. Wstawia to tag <cut/> w tym miejscu. Możesz również ręcznie wpisać lub skopiować i wkleić ten tag w całym tekście. Aby uzyskać niestandardowe nazwy plików, użyj tego formatu:
<cut name="twoja-nazwa-pliku"/>
Ta funkcja pomaga organizować segmenty za pomocą znaczących nazw, takich jak:
<cut name="intro"/>
<cut name="chapter-1"/>
Po dodaniu co najmniej jednego tagu segmentu, po wygenerowaniu pojawi się przycisk „Pobierz segmenty”. Kliknij go, aby pobrać wszystkie segmenty naraz, lub użyj przycisku „więcej” na odtwarzaczu audio, aby uzyskać dostęp do poszczególnych segmentów. Każdy plik jest automatycznie nazywany unikalnym identyfikatorem, numerem sekwencji i opisowym tytułem (np. „7054789_1_first-sentence”), co ułatwia identyfikację i organizację plików audio w oprogramowaniu do edycji.
W przypadku większych projektów podziel je na wiele generacji. Kompleksowe instrukcje, zaawansowane techniki i samouczki wideo znajdziesz w naszej pełnej dokumentacji dotyczącej segmentacji audio.
Niektóre głosy mają wykresy intonacji:
Wykresy intonacji są dostępne dla głosów, które wyświetlają ikonę ustawienia obok nazwy głosu — ta funkcja jest dostępna w ponad połowie głosów w bibliotece, w tym zarówno w opcjach zwykłych, jak i PRO.
Zaznacz zdanie, w którym chcesz dostosować intonację, i naciśnij przycisk intonacja. Pojawi się ten interfejs.
SpeechGen. wykorzystuje inteligentny system buforowania, który znacząco oszczędza Twoje limity. System działa poprzez zapisywanie każdego zdania (do 100 000 znaków) w buforze przez 7 dni. Po ponownym wygenerowaniu audio, niezmienione zdania są automatycznie pobierane z bufora za darmo — płacisz tylko za nowe lub edytowane zdania. Oznacza to, że możesz wprowadzać stopniowe zmiany w tekście bez zużywania całego limitu znaków za każdym razem. Historia projektów jest przechowywana przez 30 dni, a pliki dodane do ulubionych są przechowywane na stałe.
Okresy przechowywania:
Głos brzmi nienaturalnie:
Nieprawidłowa wymowa:
Nienaturalne pauzy:
Błędy SSML:
Aby uzyskać ekspercką kontrolę nad głosem, użyj tagów SSML:
⚠️ Uwaga: Różne głosy obsługują różne zestawy tagów SSML. Przetestuj funkcjonalność dla każdego konkretnego głosu.
API jest dostępne dla programistów do integracji SpeechGen.io z ich własnymi aplikacjami i usługami.
Najpierw sprawdź, czy Twój plik jest w obsługiwanym formacie (DOCX, PDF lub TXT). Upewnij się, że plik nie jest uszkodzony i spróbuj przesłać go ponownie. Jeśli problem nadal występuje, skopiuj tekst ręcznie i wklej go bezpośrednio do pola tekstowego. Sprawdź również, czy rozmiar pliku nie przekracza limitów platformy.
Historia Twoich projektów jest automatycznie zapisywana przez 30 dni. Inteligentny bufor (do zapisywania na poziomie zdań) działa przez 7 dni. Aby zachować pliki na stałe, dodaj je do ulubionych. Dzięki temu Twoje ważne projekty audio nigdy nie zostaną utracone i pozostaną dostępne w Twoim profilu.
Tak! SpeechGen oferuje generowanie mowy z wieloma głosami (tryb dialogu). Możesz przypisać różne głosy do różnych sekcji tekstu, co jest idealne do audiobooków z wieloma postaciami, dialogów edukacyjnych lub podcastów z wieloma mówcami. Możesz nawet używać głosów wielojęzycznych, aby przełączać się między językami, zachowując spójność postaci.
Głosy PRO oferują wyższą jakość i naturalność w porównaniu do głosów zwykłych. Zazwyczaj mają lepsze wyrażanie emocji, dokładniejszą wymowę, a niektóre obsługują zaawansowane funkcje, takie jak wykresy intonacji. W przypadku projektów profesjonalnych, takich jak audiobooki, kursy lub prezentacje biznesowe, zaleca się stosowanie głosów PRO.
To zależy od tego, które ustawienia zmienisz. Dostosowanie prędkości mowy lub wysokości głosu wymaga pełnej regeneracji i zużyje Twoje limity znaków, ponieważ te zmiany wpływają na całą syntezę mowy. Możesz jednak swobodnie modyfikować pauzy między zdaniami i akapitami bez zużywania limitów. Ponadto SpeechGen wykorzystuje inteligentne buforowanie: jeśli wygenerujesz duży tekst, a następnie edytujesz tylko jedno zdanie i ponownie wygenerujesz, system obciąży Cię tylko za to jedno zmienione zdanie, a nie za cały tekst. Ten system buforowania przechowuje niezmienione zdania przez 7 dni, co sprawia, że edycja iteracyjna jest bardzo ekonomiczna.
Uzyskaj pomoc od naszej społeczności! Zadawaj pytania na naszym czacie Telegram: https://t.me/speechgen