Fish Speech

English | 简体中文 | Portuguese | 日本語 | 한국어

Discord

Docker

Huggingface

このコードベースとすべてのモデルは、CC-BY-NC-SA-4.0 ライセンスの下でリリースされています。詳細については、LICENSEを参照してください。

機能

ゼロショット & フューショット TTS：10〜30 秒の音声サンプルを入力して、高品質の TTS 出力を生成します。詳細は音声クローンのベストプラクティスを参照してください。
多言語 & クロスリンガル対応：多言語テキストを入力ボックスにコピーペーストするだけで、言語を気にする必要はありません。現在、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語に対応しています。
音素依存なし：このモデルは強力な汎化能力を持ち、TTS に音素を必要としません。あらゆる言語スクリプトに対応可能です。
高精度：5 分間の英語テキストに対し、CER（文字誤り率）と WER（単語誤り率）は約 2%の精度を達成します。
高速：fish-tech アクセラレーションにより、Nvidia RTX 4060 ラップトップではリアルタイムファクターが約 1:5、Nvidia RTX 4090 では約 1:15 です。
WebUI 推論：使いやすい Gradio ベースの Web ユーザーインターフェースを搭載し、Chrome、Firefox、Edge などのブラウザに対応しています。
GUI 推論：PyQt6 のグラフィカルインターフェースを提供し、API サーバーとシームレスに連携します。Linux、Windows、macOS に対応しています。GUI を見る。
デプロイしやすい：Linux、Windows、macOS にネイティブ対応した推論サーバーを簡単にセットアップでき、速度の低下を最小限に抑えます。

免責事項

コードベースの違法な使用については一切責任を負いません。DMCA（デジタルミレニアム著作権法）およびその他の関連法については、地域の法律を参照してください。

オンラインデモ

ローカル推論のクイックスタート

inference.ipynb

ビデオ

V1.4 デモビデオ: https://www.bilibili.com/video/BV1pu46eVEk7

V1.2 デモビデオ: https://www.bilibili.com/video/BV1wz421B71D

V1.1 デモビデオ: https://www.bilibili.com/video/BV1zJ4m1K7cj

ドキュメント

サンプル (2024/10/02 V1.4)

クレジット

スポンサー

データ処理スポンサー：6Block

Fish AudioはLepton.AIで提供されています