日本語Full-duplex音声対話システムの試作

Paper (To appear) | Model | Code

大橋 厚元飯塚 慎也,姜 菁菁,東中 竜一郎

名古屋大学 大学院情報学研究科

概要: 人間同士の対話における発話のオーバーラップや相槌など,同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは,近年注目を集めている.しかし日本語においては,full-duplex音声対話システムはほとんど見られず,full-duplex音声対話システムの開発に関する知見は不足している.本研究では,英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで,日本語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し,公開する.


  • [1] J-Moshi のベースとなった Moshi の詳細については,公式のテクニカルペーパーを参照してください.
  • [2] 本ページにおける音声対話のデモ動画では,わかりやすさのためモデル名を "J-Moshi" と表記していますが,実際は,音声合成による拡張データによって学習された J-Moshi-ext を使用しています.

リアルタイム音声対話

J-Moshiとユーザによる実際の音声対話のサンプル.

対話継続(Prompted Dialogue Continuation)

人間同士の10秒の対話音声(プロンプト)から,以下の各モデルが生成した20秒の対話音声サンプル.

以下の音声サンプルのうち,ベルが鳴るまでの10秒間がプロンプト音声であり,その後の20秒間が各モデルによって生成された音声です.


Multi-stream TTS

Multi-stream TTSによって,対話テキストから合成されたステレオ対話音声サンプル.

Acknowledgments

本研究は,JSTムーンショット型研究開発事業,JPMJMS2011の支援を受けました.雑談対話コーパスおよび相談対話コーパスは,株式会社アイシンとの共同研究において構築しました.また本研究では,名古屋大学のスーパーコンピュータ「不老」を利用しました.最後に,Moshi のテクニカルペーパーおよびモデルを公開していただいた Kyutai Labs に感謝いたします.

Contact

J-Moshiに関するお問い合わせは,東中研究室までお願いいたします.

This page was adapted from the SoundStorm project page.