概要: 人間同士の対話における発話のオーバーラップや相槌など,同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは,近年注目を集めている.しかし日本語においては,full-duplex音声対話システムはほとんど見られず,full-duplex音声対話システムの開発に関する知見は不足している.本研究では,英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで,日本語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し,公開する.
J-Moshiとユーザによる実際の音声対話のサンプル.
人間同士の10秒の対話音声(プロンプト)から,以下の各モデルが生成した20秒の対話音声サンプル.
Multi-stream TTSによって,対話テキストから合成されたステレオ対話音声サンプル.
本研究は,JSTムーンショット型研究開発事業,JPMJMS2011の支援を受けました.雑談対話コーパスおよび相談対話コーパスは,株式会社アイシンとの共同研究において構築しました.また本研究では,名古屋大学のスーパーコンピュータ「不老」を利用しました.最後に,Moshi のテクニカルペーパーおよびモデルを公開していただいた Kyutai Labs に感謝いたします.
J-Moshiに関するお問い合わせは,東中研究室までお願いいたします.
This page was adapted from the SoundStorm project page.