Fish Speech

English | 简体中文 | Portuguese | 日本語 | 한국어

Discord

Docker

Huggingface

이 코드베이스와 모든 모델은 CC-BY-NC-SA-4.0 라이선스에 따라 배포됩니다. 자세한 내용은 LICENSE를 참조하시길 바랍니다.

기능

Zero-shot & Few-shot TTS: 10초에서 30초의 음성 샘플을 입력하여 고품질의 TTS 출력을 생성합니다. 자세한 가이드는 모범 사례를 참조하시길 바랍니다.
다국어 및 교차 언어 지원: 다국어 걱정 없이, 텍스트를 입력창에 복사하여 붙여넣기만 하면 됩니다. 현재 영어, 일본어, 한국어, 중국어, 프랑스어, 독일어, 아랍어, 스페인어를 지원합니다.
음소 의존성 제거: 이 모델은 강력한 일반화 능력을 가지고 있으며, TTS가 음소에 의존하지 않습니다. 모든 언어 스크립트 텍스트를 손쉽게 처리할 수 있습니다.
높은 정확도: 영어 텍스트 기준 5분 기준에서 단, 2%의 문자 오류율(CER)과 단어 오류율(WER)을 달성합니다.
빠른 속도: fish-tech 가속을 통해 실시간 인자(RTF)는 Nvidia RTX 4060 노트북에서는 약 1:5, Nvidia RTX 4090에서는 1:15입니다.
웹 UI 추론: Chrome, Firefox, Edge 등 다양한 브라우저에서 호환되는 Gradio 기반의 사용하기 쉬운 웹 UI를 제공합니다.
GUI 추론: PyQt6 그래픽 인터페이스를 제공하여 API 서버와 원활하게 작동합니다. Linux, Windows 및 macOS를 지원합니다. GUI 참조.
배포 친화적: Linux, Windows, macOS에서 네이티브로 지원되는 추론 서버를 쉽게 설정할 수 있어 속도 손실을 최소화합니다.

면책 조항

이 코드베이스의 불법적 사용에 대해 어떠한 책임도 지지 않습니다. DMCA 및 관련 법률에 대한 로컬 법률을 참조하십시오.

온라인 데모

로컬 추론을 위한 빠른 시작

inference.ipynb

영상

V1.4 데모 영상: Youtube

문서

Samples (2024/10/02 V1.4)

Credits

Sponsor

데이터 처리 후원: 6Block

Fish Audio는 Lepton.AI에서 제공됩니다