Paper | Model Model | Code Code
大橋 厚元Atsumoto Ohashi, 飯塚 慎也Shinya Iizuka, 姜 菁菁Jingjing Jiang, 東中 竜一郎Ryuichiro Higashinaka
名古屋大学 大学院情報学研究科 Graduate School of Informatics, Nagoya University
概要: Abstract: 人間同士の対話における発話のオーバーラップや相槌など,同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは,近年注目を集めている.しかし日本語においては,full-duplex音声対話システムはほとんど見られず,full-duplex音声対話システムの開発に関する知見は不足している.本研究では,英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで,日本語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し,公開する. Full-duplex spoken dialogue systems, which can model simultaneous bidirectional features of human conversations such as speech overlaps and backchannels, have attracted significant attention recently. However, the study of full-duplex spoken dialogue systems for the Japanese language has been limited, and the research on their development in Japanese remains scarce. In this paper, we present the first full-duplex spoken dialogue model in Japanese, which is built upon Moshi,[1] a major full-duplex dialogue model in English. Our model, J-Moshi,[2] is trained through a two-stage process: pre-training on a large-scale spoken dialogue data in Japanese, followed by fine-tuning on high-quality stereo spoken dialogue data. We further enhance the system's performance by incorporating synthetic dialogue data generated by a multi-stream text-to-speech system.
J-Moshiとユーザによる実際の音声対話のサンプル.
Samples of real-time spoken dialogue between J-Moshi and users.
人間同士の10秒の対話音声(プロンプト)から,以下の各モデルが生成した20秒の対話音声サンプル.
20-second audio samples generated by each model from a 10-second human-to-human dialogue audio prompt.
以下の音声サンプルのうち,ベルが鳴るまでの10秒間がプロンプト音声であり,その後の20秒間が各モデルによって生成された音声です.
In the following audio samples, the first 10 seconds until the bell rings is the prompt audio, and the following 20 seconds is the audio generated by each model.
Multi-stream TTSによって,対話テキストから合成されたステレオ対話音声サンプル.
2-channel dialogue audio samples synthesized from dialogue text using Multi-stream TTS.
本研究は,JSTムーンショット型研究開発事業,JPMJMS2011の支援を受けました.雑談対話コーパスおよび相談対話コーパスは,株式会社アイシンとの共同研究において構築しました.また本研究では,名古屋大学のスーパーコンピュータ「不老」を利用しました.最後に,Moshi のテクニカルペーパーおよびモデルを公開していただいた Kyutai Labs に感謝いたします.
This research was supported by the JST Moonshot R&D Program, JPMJMS2011. Part of dialogue data were constructed in joint research with Aisin Corporation. This research also utilized Nagoya University's supercomputer "Flow". Finally, we would like to thank Kyutai Labs for releasing the Moshi technical report and the models.
J-Moshiに関するお問い合わせは,東中研究室までお願いいたします.
For inquiries regarding J-Moshi, please contact the Dialogue System Research Group at Nagoya University.
This page was adapted from the SoundStorm project page.