27-10-2025 , 27-10-2025

Đơn giản hóa việc tạo nội dung giọng nói: Tích hợp SpeechGen.io với Make.com. Bài đăng trên blog này hướng dẫn bạn cách tích hợp dịch vụ tự động hóa Make.com (trước đây là Integromat) với dịch vụ tổng hợp giọng nói dựa trên mạng thần kinh của chúng tôi, SpeechGen.io. Việc tích hợp này cho phép tự động hóa các quy trình chuyển văn bản thành giọng nói, giúp việc tạo nội dung dễ dàng và hiệu quả hơn.
Chúng tôi đề cập đến hai phương pháp dựa trên độ dài của văn bản bạn muốn chuyển đổi thành giọng nói:
Đối với văn bản tối đa 2000 ký tự: Phương pháp này bao gồm một yêu cầu nhanh chóng và nhận ngay đầu ra giọng nói. Nó hoàn hảo cho các văn bản ngắn cần được chuyển đổi nhanh chóng.
Đối với văn bản trên 2000 ký tự: Phương pháp này sử dụng hai yêu cầu. Yêu cầu đầu tiên gửi văn bản với các cài đặt giọng nói để chuyển đổi. Yêu cầu thứ hai, nên được thực hiện không sớm hơn một phút sau, sẽ truy xuất tệp âm thanh đã hoàn thành. Cách tiếp cận này đảm bảo rằng các văn bản dài hơn được xử lý hiệu quả mà không làm quá tải hệ thống.
Make.com tạo điều kiện thuận lợi cho việc tự động hóa các quy trình này mà không cần kiến thức kỹ thuật sâu. Bạn có thể thiết lập các trình kích hoạt để tự động bắt đầu quá trình chuyển văn bản thành giọng nói khi đáp ứng các điều kiện nhất định, chẳng hạn như thêm văn bản mới vào CMS hoặc cơ sở dữ liệu của bạn.
Để bắt đầu tích hợp, bạn sẽ cần làm quen với API của chúng tôi. Bạn có thể tìm thấy tất cả thông tin cần thiết, bao gồm tài liệu và Câu hỏi thường gặp, tại Câu hỏi thường gặp về API SpeechGen.io.
Trong bài đăng trên blog này, chúng ta sẽ tìm hiểu cách tạo tệp Mp3 từ văn bản bằng SpeechGen, sau đó tải tệp Mp3 đó lên DropBox.
Bạn có thể tải xuống và nhập tệp json dự án demo được hiển thị trong blog này và sử dụng nó.

Đăng nhập vào Make.com & Nhấp vào "Tạo một kịch bản mới".


Tìm kiếm "HTTP" và chọn "HTTP" từ danh sách các mô-đun có sẵn.


Nhập URL là https://speechgen.io/index.php?r=api/text
Sau đó nhấp vào "Thêm tham số" để thêm các tham số truy vấn vào yêu cầu của chúng ta

Chúng ta cần nhập tổng cộng 4 tham số, vì vậy hãy thêm 3 tham số nữa.



Bây giờ là lúc chạy và kiểm tra kịch bản của bạn.

Nhấp vào bong bóng này để xem kết quả yêu cầu của bạn.

Tập trung vào phần đầu ra, bạn sẽ thấy 'Dữ liệu'.
Bạn có thể thấy 'tệp' là URL của tệp Mp3 đã tạo từ văn bản của chúng ta

Nếu bạn điều hướng đến URL này, bạn có thể phát và tải xuống tệp Mp3.
Để làm cho dữ liệu từ SpeechGen dễ dàng truy cập bởi các mô-đun khác, chúng ta có thể thêm một Mô-đun khác vào Kịch bản của mình.
Di chuột bên cạnh mô-đun đầu tiên chúng ta có, bạn sẽ thấy một nút dấu cộng, nhấp vào nó

Tìm kiếm 'JSON' và chọn tùy chọn này.

Sau đó chọn "Phân tích JSON" để chúng ta có thể xuất dữ liệu từ SpeechGen thành nhiều biến mà chúng ta có thể sử dụng trong kịch bản của mình.

Nhấp vào đây (chuỗi JSON) để nhập 'Dữ liệu' từ mô-đun HTTP trước đó

Nhấp vào 'Dữ liệu' để thêm nó vào trường và nhấp OK để lưu các thay đổi.

Nhấp vào 'Chạy một lần' để thực thi Kịch bản.

Chọn 'Chạy dù sao' để buộc Make chạy Kịch bản.

Điều này là do JSON không nên là mô-đun cuối cùng trong kịch bản, vì nó chuyển đổi dữ liệu từ một mô-đun khác và chúng ta không làm gì với dữ liệu đó, trong trường hợp này chúng ta chỉ muốn xem dữ liệu trước, sau đó quyết định làm gì với nó.
Nhấp vào bong bóng phía trên mô-đun JSON để xem dữ liệu chúng ta nhận được.

Bây giờ dữ liệu đã nằm dưới 'Dữ liệu' hiện nằm trong các biến riêng lẻ mà chúng ta có thể sử dụng trong các mô-đun tiếp theo...
Bạn cũng có thể nhận thấy biến 'tệp' có URL của Tệp Mp3 đã tạo mà chúng ta sẽ sử dụng trong mô-đun tiếp theo.

Bây giờ hãy tải tệp Mp3 đã tạo lên Dropbox, để làm điều đó chúng ta cần tải tệp Mp3 trong kịch bản này trước.

Chọn Lấy tệp để chúng ta có thể tải xuống Tệp Mp3 trong Kịch bản.

Hầu hết các mô-đun chỉ yêu cầu URL, nhưng DropBox yêu cầu nhập trực tiếp dữ liệu tệp thực tế.
Ánh xạ biến 'tệp', là URL chúng ta có thể sử dụng để lấy tệp.

Sau đó chúng ta sẽ thêm mô-đun DropBox.


Chọn thư mục để lưu vào trong Dropbox của bạn, sau đó chọn Ánh xạ để chúng ta có thể thay đổi tên của Tệp Mp3 đã tải lên.

Đảm bảo bạn thêm phần mở rộng tệp '.mp3' vào cuối tên, để Dropbox dễ dàng nhận ra nó là một tệp Mp3 mà bạn có thể phát.

Sau khi chạy Kịch bản, chúng ta có Tệp đã được tải lên DropBox


Bây giờ, chúng ta đang sử dụng API văn bản dài của SpeechGen để tạo TTS dài.
Phương pháp thứ hai được thiết kế cho các văn bản dài hơn 2000 ký tự. Không giống như phương pháp đầu tiên, nhanh chóng chuyển đổi các văn bản ngắn thành giọng nói, cách tiếp cận này bao gồm hai bước do thời gian xử lý cần thiết cho các văn bản dài hơn.
Sự khác biệt chính so với phương pháp đầu tiên là cần có yêu cầu thứ hai do thời gian xử lý lâu hơn. Phương pháp này đảm bảo xử lý hiệu quả các văn bản mở rộng, làm cho nó phù hợp để tạo nội dung âm thanh dài hơn.
Sau đó chúng ta sẽ tải tệp lên Dropbox làm demo, nhưng các tùy chọn là vô tận về cách bạn có thể sử dụng API TTS này.
Bạn có thể tải xuống và nhập bản thiết kế demo cho tệp json văn bản dài được hiển thị trong blog này và sử dụng nó.

Đăng nhập vào Make.com & Nhấp vào "Tạo một kịch bản mới".


Tìm kiếm "HTTP" và chọn "HTTP" từ danh sách các mô-đun có sẵn.


Nhập URL là https://speechgen.io/index.php?r=api/longtext
Sau đó nhấp vào “Add parameter” để thêm các tham số truy vấn vào yêu cầu của chúng ta.

Chúng ta cần nhập tổng cộng 4 tham số, vì vậy hãy thêm 3 tham số nữa.


Bây giờ là lúc để chạy và kiểm tra kịch bản của bạn.

Nhấp vào bong bóng này để xem kết quả yêu cầu của bạn.

Tập trung vào phần đầu ra, bạn sẽ thấy ‘Data’.
Bạn có thể thấy ‘id’ là ID của yêu cầu của chúng ta.

Bây giờ, để làm cho dữ liệu từ SpeechGen dễ dàng truy cập bởi các mô-đun khác, chúng ta có thể thêm một Mô-đun khác vào Kịch bản của mình.
Di chuột đến bên cạnh mô-đun đầu tiên chúng ta có, bạn sẽ thấy một nút dấu cộng, nhấp vào đó.

Tìm kiếm ‘JSON’ và chọn tùy chọn này.

Sau đó chọn Parse JSON để chúng ta có thể xuất dữ liệu từ SpeechGen thành nhiều biến mà chúng ta có thể sử dụng trong kịch bản của mình.

Nhấp vào đây để nhập ‘Data’ từ mô-đun HTTP trước đó.

Nhấp ‘Data’ để thêm nó vào trường và nhấp OK để lưu các thay đổi.

Nhấp Run Once để thực thi Kịch bản.

Chọn ‘Run Anyway’ để buộc Make chạy Kịch bản.

Điều này là do JSON không nên là mô-đun cuối cùng trong kịch bản, vì nó chuyển đổi dữ liệu từ một mô-đun khác và chúng ta không làm gì với dữ liệu đó, trong trường hợp này chúng ta chỉ muốn xem dữ liệu trước, sau đó quyết định làm gì với nó.
Nhấp vào bong bóng phía trên mô-đun JSON để xem dữ liệu chúng ta nhận được.

Bây giờ dữ liệu đã nằm dưới ‘Data’ hiện nằm trong các biến riêng lẻ mà chúng ta có thể sử dụng trong các mô-đun tiếp theo.
Bạn cũng có thể nhận thấy biến ‘ID’ mà chúng ta sẽ sử dụng trong các bước tiếp theo để lấy URL tệp TTS của chúng ta.

Thêm một Mô-đun SLEEP để chờ TTS tạo ra.


Đặt thời gian SLEEP từ 1-5 phút (60-300 giây).
Hãy đặt là 200 giây cho bản demo của chúng ta.

Bây giờ hãy tải tệp Mp3 đã tạo lên Dropbox, để làm điều đó chúng ta cần tải tệp Mp3 trong kịch bản này trước.
Thêm một Mô-đun HTTP khác để lấy TTS đã tạo.

Chèn các tham số cần thiết:

Chạy kịch bản để lấy dữ liệu và thêm một mô-đun Parse JSON khác.

Ánh xạ ‘Data’ từ mô-đun HTTP trước đó.
Chạy lại kịch bản một lần nữa để lấy dữ liệu từ Mô-đun Parse JSON cuối cùng, sau đó thêm một Mô-đun HTTP khác để tải tệp xuống.

Chọn ‘Get File’ để chúng ta có thể tải tệp Mp3 xuống trong Kịch bản.

Hầu hết các mô-đun chỉ yêu cầu URL, nhưng DropBox yêu cầu nhập trực tiếp dữ liệu tệp thực tế.
Ánh xạ biến ‘file’, đó là URL chúng ta có thể sử dụng để lấy tệp.



Chọn thư mục để lưu vào trong Dropbox của bạn, sau đó chọn Map để chúng ta có thể thay đổi tên của tệp Mp3 đã tải lên.

Đảm bảo bạn thêm phần mở rộng tệp ‘.mp3’ vào cuối tên, để Dropbox dễ dàng nhận ra đó là tệp Mp3 mà bạn có thể phát.

Sau khi chạy Kịch bản, chúng ta có Tệp đã được tải lên DropBox.

Tích hợp SpeechGen.io với Make.com mở ra nhiều khả năng rộng lớn để tự động hóa việc tạo nội dung giọng nói. Tự động hóa tổng hợp giọng nói có thể hữu ích cho:
Cho dù bạn đang xử lý các thông báo ngắn hay tài liệu giáo dục dài, hướng dẫn của chúng tôi sẽ giúp bạn thiết lập một quy trình hiệu quả với nỗ lực tối thiểu. Chuyển đổi văn bản của bạn thành giọng nói sống động một cách tự động, làm cho nội dung của bạn dễ tiếp cận và hấp dẫn hơn đối với nhiều đối tượng.