일본어 발음 변환기

일본어 텍스트를 AI 음성으로 변환 — 100개 이상의 남녀 목소리, 피치 악센트 연습, 무료 MP3 다운로드.

ja-JP

Asuka

스타일

속도:1.0

피치:0

볼륨:100%

파일 형식

형식:

비트레이트:

샘플 비율:

채널:

일시 정지 제어

단락을 위한 일시 정지:

문장 일시 정지:

이 설정은 자연스러운 음성을 위해 텍스트 블록 사이의 무음 길이를 조절합니다.

배경 음악

현재 트랙 파일 미선택

볼륨: 100%

반복 재생 배경음 무한 반복

100개 이상의 AI 음성 — 도쿄 음높이 악센트, 모라 타이밍, 혼합 표기

어떤 텍스트든 붙여넣고 정확한 도쿄 음높이 악센트로 읽히는 것을 들어보세요 — 橋(다리)와 箸(젓가락)을 구분하는 L-H-L 패턴, です /des/와 ます /mas/의 무성 모음, 작은 っ(촉음) 모라, 영어 R과 L 사이에 위치하는 치경 탄음 R. 히라가나, 가타카나, 한자가 한 입력 안에서 자유롭게 섞입니다. Daichi(PRO Neural, 남성) 또는 Akemi(PRO Neural, 여성)을 선택하고 MP3를 몇 초 만에 다운로드하세요.

스튜디오 수준의 출력이 필요하다면 Achird JP(HD, 남성)와 Achernar JP(HD, 여성)이 방송 품질을 제공합니다. 카탈로그는 JLPT N5–N1 청해 준비, K-팝의 일본 활동(TWICE, BLACKPINK 일본 발매), 도쿄·오사카·교토 여행 가이드 오디오(#1 해외 여행지), 애니 팬더빙과 비주얼 노벨 캐릭터 작업, 삼성·LG·현대 일본 법인을 위한 기업 교육 콘텐츠, 한일 문화 교류 유튜브 보이스오버를 모두 다룹니다. 첫 1,000자는 무료 — 계정 없이, 워터마크 없이.

도쿄 AI 음성 — 샘플 듣기

클릭하여 미리 듣기 · 총 100개 이상의 목소리

대표 스피커 4명입니다. 음성 페이지에서 100명 이상을 모두 확인하세요 — ja-JP로 필터링하세요.

음성 스타일 — 3가지 표현 레지스터

일부 PRO Neural 음성은 기본 뉴트럴 레지스터 외에 표현 스타일을 지원합니다. 같은 문장, 같은 화자 — Nanami(일본어 여성 PRO Neural 음성)가 아래 한 문장을 세 가지 다른 분위기로 읽어줍니다.

cheerful 어린이 콘텐츠, 밝은 안내, 프로모션 스팟.

chat 브이로그, 캐주얼 해설, 팟캐스트 인트로, 친근한 대화.

customerservice IVR 인사, 고객 지원, 정중한 안내, 포멀 톤.

위 세 개의 샘플은 모두 같은 일본어 문장을 읽습니다. Nanami는 여러 표현 스타일(cheerful, chat, customer-service)을 갖춘 유일한 ja-JP 음성입니다. 나머지 100+ 일본어 음성은 기본 뉴트럴 레지스터로 읽습니다.

일본어 발음 가이드 & 피치 악센트

일본어 발음은 모라 타이밍, 피치 악센트, 세 가지 문자 체계의 조합으로 정의됩니다. 이 여섯 가지 특징은 TTS 품질이 네이티브 수준 오디오와 로봇 같은 출력을 구분하는 기준입니다 — SpeechGen이 각각을 어떻게 처리하는지 들어보세요.

日本語 ni·HO·N·go 도쿄 피치 악센트 도쿄 표준어: 첫 번째 모라는 낮고, 두 번째부터 높다가 다시 내려갑니다. にほんご = L-H-H-L 패턴. 피치 악센트는 강세와 다릅니다 — 볼륨은 일정하게 유지되고 피치만 변합니다.

おかあさん o·ka·A·san 장모음 (長音) おかあさん(어머니)의 이중 あ는 두 모라 동안 유지됩니다. おかさん과 비교하면 의미 없는 축약형이 됩니다. 장모음은 로마자로 ā로 표기됩니다. TTS에서: 올바른 가나를 사용하면 엔진이 길이를 자동으로 처리합니다.

がっこう ga·k·KO·u 모라 타이밍 (促音) 작은 っ(촉음)은 무음 모라 — 다음 자음 앞의 짧은 정지입니다. がっこう(학교)에는 k 앞에 폐쇄가 있습니다. 이를 놓치면 단어가 부자연스럽게 들립니다. 일본어에서는 모든 모라가 동일한 시간을 차지합니다.

です des (not de·su) 무성 모음 (無声化) 표준 도쿄 일본어에서 い와 う 모음은 무성 자음 사이나 단어 끝에서 무성화(속삭이거나 무음)됩니다. です는 "des"처럼 들립니다. 또한: ます → "mas", 많은 단어의 き도 마찬가지입니다. AI 목소리가 이를 올바르게 처리합니다.

らりるれろ ra·ri·ru·re·ro 일본어 R (弾き音) 일본어 R은 치경 탄음 — 혀끝이 입천장을 한 번 가볍게 두드리는 소리입니다. 영어 R도 L도 아닙니다. 미국식 영어 "butter"의 빠른 "d"와 가장 가깝습니다. Daichi와 Akemi는 SSML 조정 없이도 이 소리를 올바르게 발음합니다.

橋 vs 箸 ha·SHI vs HA·shi 피치 최소 대립쌍 橋(다리) = L-H 패턴; 箸(젓가락) = H-L 패턴. 가나는 같은 はし지만 피치가 다르면 의미가 달라집니다. 이것이 일본어 발음에서 피치 악센트가 중요한 이유입니다. AI 목소리는 한자 문맥에서 모호성을 자동으로 해결합니다.

TTS에서 피치 악센트가 중요한 이유

강세가 아닌 피치 — 도쿄 방언은 한국어처럼 강세 언어가 아니라 피치 악센트 언어입니다. 볼륨은 일정하게 유지되고 모라 간의 고저 패턴만 변합니다. 잘못된 피치 패턴은 모든 음소가 완벽해도 외국어처럼 들립니다.
한자가 모호성을 해결 — 많은 동음이의어 쌍이 피치로만 구분됩니다(橋/箸, 雨/飴). 한자를 입력하면 AI 음성이 문맥에서 올바른 L-H-L 패턴을 선택합니다. 가장 자연스러운 오디오 출력을 위해 텍스트에 한자를 사용하세요.
세 가지 문자 체계, 하나의 엔진 — 히라가나, 가타카나, 한자가 같은 입력 안에서 자유롭게 섞입니다. 가타카나의 외래어(コーヒー, テレビ, パソコン)와 로마자 브랜드명도 수동 음소 지정 없이 올바르게 읽힙니다.

TTS를 위한 형식 & 표기 규칙

음성 생성기에 원고를 넘길 때, 아래 형식 규칙이 엔진의 읽기 방식에 영향을 줍니다:

숫자 & 조수사

자연스러운 읽기를 위해 한자로 숫자를 쓰세요: 三つ、五冊、二人. 조수사(助数詞)는 대상에 따라 달라집니다: 一本(긴 물체), 一枚(납작한 물체), 一匹(작은 동물). 엔진은 아라비아 숫자도 읽을 수 있지만(3→さん), 한자 조수사가 더 원어민처럼 들립니다.

통화

¥1,500 → "せんごひゃくえん". 엔 기호는 자동으로 읽힙니다. 큰 금액의 경우: 一万円(10,000엔) → "いちまんえん". 만(10,000)이 기본 단위이며, 엔진이 3万円을 수동 발음 표시 없이 올바르게 처리합니다.

날짜 & 시간

날짜 순서: 연도 → 월 → 일. 2024年3月15日 → "にせんにじゅうよねんさんがつじゅうごにち". 시간: 14時30分 → "じゅうよじさんじゅっぷん". 올바른 읽기를 위해 한자 날짜 표시(年・月・日・時・分)와 함께 쓰세요.

경어 (敬語 Keigo)

세 가지 어체가 있습니다: 반말(だ/である), 정중체(です/ます), 경어(keigo). 삼성·현대 기업 교육 콘텐츠에는 です・ます 어미를, 캐주얼한 유튜브 보이스오버에는 だ・だよ를 사용하세요. 음성 엔진은 두 어체 모두 올바르게 읽습니다.

만들 수 있는 것

Study desk with hiragana charts, JLPT textbook and headphones

JLPT 학습 & 음높이 악센트

어떤 문장이든 붙여넣고 모라 사이 피치 곡선의 오르내림을 정확히 들어보세요. 0.75× 느린 재생으로 무성 모음과 작은 っ(촉음)을 파악하세요. 서울 JLPT N5–N1 준비, Japan Foundation Seoul 강좌, 원어민 모델 쉐도잉, 한자 어휘의 문맥적 읽기 학습에 최적화되어 있습니다.

Dark gaming desk with anime character on screen, RGB keyboard and manga volumes

애니·K-팝 일본 활동 콘텐츠

애니 팬더빙, 비주얼 노벨 캐릭터, 코스플레이 영상, K-Japan 문화 교류 콘텐츠(TWICE·BLACKPINK 일본 활동 영상)를 제작하세요. 피치를 4–6반음 낮추면 악당이나 연장자 캐릭터, 올리면 어리거나 활발한 캐릭터가 됩니다. Dialog Mode로 한 세션에서 여러 캐릭터에 다른 음성을 할당하고 Premiere, DaVinci, Unity, Ren'Py로 내보내세요.

Home studio with video editing timeline and voiceover waveform, teleprompter note

유튜브·팟캐스트 보이스오버

유튜브 영상, 팟캐스트, 인스타그램 릴스에 전문 내레이션을 몇 초 만에 추가하세요. Achernar JP(HD)는 방송 수준의 여성 내레이션을, Daichi(PRO Neural)는 해설 영상에 적합한 명확한 남성 음성을 제공합니다. MP3로 내보내 Premiere, DaVinci, CapCut 등 어떤 편집기에도 동기화하세요.

JRPG dialogue box on dual monitors with game controller and RGB lighting

여행 가이드 & 삼성·현대 기업 교육

한국인이 가장 많이 찾는 #1 해외 여행지인 도쿄·오사카·교토·삿포로의 사원·신사·시내 오디오 가이드를 제작하세요. 료칸 환영 안내, 신칸센·지하철 안내 프롬프트, 박물관 전시 설명을 자동 생성할 수 있습니다. 삼성·LG·현대 자동차 일본 법인을 위한 기업 교육 영상과 한일 비즈니스 프레젠테이션에도 활용하세요.

사용 방법 — 3단계

텍스트에서 오디오까지 몇 초 안에. 소프트웨어 불필요, 가입 불필요.

텍스트 붙여넣기

직접 입력하거나 최대 1,000,000자를 붙여넣으세요. 엔진이 히라가나, 가타카나, 한자, 혼합 문자를 한 번에 처리합니다. 긴 문서는 DOCX 또는 PDF 파일을 업로드하세요.

음성 선택

100개 이상의 원어민 음성 중에서 선택하세요. 성별과 품질 티어(Standard, PRO Neural, HD)로 필터링할 수 있습니다. 음높이 악센트 연습에는 속도를 조절하고, 애니 더빙 캐릭터 스타일에는 피치를 설정하세요.

듣기 & 무료 다운로드

Convert to Speech를 클릭하고 결과를 미리 들은 후 MP3, WAV 또는 FLAC으로 다운로드하세요. 첫 1,000자는 무료 — 계정 불필요. 어떤 플랜에서도 워터마크 없음.

지금 시도 — 위로 스크롤

자주 묻는 질문

가장 자연스러운 TTS 음성은 무엇인가요?

방송과 오디오북 작업에는 Achernar JP(HD, 여성)와 Achird JP(HD, 남성)가 가장 깨끗하고 자연스러운 전달을 제공합니다 — 정확한 도쿄 음높이 곡선을 가진 방송급 선명도. 일상 콘텐츠와 JLPT 학습에는 Daichi(PRO Neural, 남성)와 Akemi(PRO Neural, 여성)가 따뜻하고 대화체의 톤을 제공합니다. 네 가지 모두 히라가나, 가타카나, 한자가 혼합된 한 입력을 음소 마크업 없이 처리합니다.

TTS로 JLPT 음높이 악센트 연습은 어떻게 하나요?

단어나 문장을 붙여넣고 오디오를 생성한 뒤 모라 사이의 고저 곡선을 들으세요. 0.75×로 느리게 재생하면 피치 변화를 포착하기 쉽습니다. 橋(다리, L-H) vs 箸(젓가락, H-L)처럼 같은 はし지만 피치가 다른 최소 대립쌍은 각각 생성하여 비교해 보세요. 가나 대신 한자를 입력하면 엔진이 문맥에서 올바른 피치를 해결합니다.

애니 팬더빙과 K-Japan 콘텐츠에 사용할 수 있나요?

네. 남성 또는 여성 음성을 선택해 대사를 붙여넣고 피치를 4–6반음 조절해 캐릭터를 만드세요 — 악당과 연장자는 낮게, 젊거나 활발한 인물은 높게. MP3로 내보내 Premiere, DaVinci, Unity, Ren'Py에 동기화하세요. Dialog Mode로 여러 캐릭터에 다른 음성을 한 세션 안에서 할당할 수 있어 팬더빙, 비주얼 노벨, 인디 게임 NPC 체인에 유용합니다.

MP3 다운로드가 정말 무료인가요?

네. 첫 1,000자는 계정·카드·워터마크 없이 무료입니다 — 붙여넣고 생성해서 다운로드하면 됩니다. 무료 계정을 등록하면 7일간 매일 3,000자를 추가로 받을 수 있습니다. 모든 플랜에 상업적 라이선스가 포함되어 있어 수익화된 유튜브, 팟캐스트, 인디 게임, 삼성·현대 일본 법인 클라이언트 작업에 추가 비용 없이 사용할 수 있습니다.

엔진이 도쿄 음높이 악센트를 올바르게 처리하나요?

네. PRO Neural과 HD 음성은 표준 도쿄 방언으로 훈련되어 일반 어휘의 피치 패턴을 정확히 재현합니다. 한자 입력은 문맥에서 동음이의어의 모호성을 해결합니다 — 橋와 箸는 둘 다 "hashi"로 로마자화되지만 다르게 읽힙니다. 희귀 단어, 고유명사, 전문 용어에는 SSML <phoneme> 태그로 발음을 명시할 수 있습니다.