CosyVoice是通義實驗室依托大規模預訓練語言模型,深度融合文本理解和語音生成的新一代生成式語音合成大模型,支持文本至語音的實時流式合成。可以應用于:智能設備/機器人播報的語音內容,如智能客服機器人、智能音箱、數字人、語音助手等。
音視頻創作中需要將文字轉為語音播報的場景,如小說閱讀、新聞播報、影視解說、劇本配音等。文章源自四五設計網-http://www.wasochina.com/50461.html
CosyVoice則專注自然語音生成,支持多語言、音色和情感控制,支持中英日粵韓5種語言的生成,效果顯著優于傳統語音生成模型。文章源自四五設計網-http://www.wasochina.com/50461.html
僅需要3~10s的原始音頻,CosyVoice即可生成模擬音色,甚至包括韻律、情感等細節,包括跨語種語音生成。而且CosyVoice支持以富文本或自然語言的形式,對生成語音的情感、韻律進行細粒度的控制,生音頻在情感表現力上得到明顯提升。文章源自四五設計網-http://www.wasochina.com/50461.html
CosyVoice是一款基于語音量化編碼的語音生成大模型。它對語音進行離散化編碼,并依托大模型技術,實現自然流暢的語音生成體驗。與傳統語音生成技術相比,文章源自四五設計網-http://www.wasochina.com/50461.html
CosyVoice具有韻律自然、音色逼真等特點。CosyVoice支持多達5種語言,同時還支持以自然語言或富文本形式對生成語音進行情感等維度的細粒度控制。研究團隊提供了基模型CosyVoice-300M、經過SFT微調后的模型CosyVoice-300M-SFT、以及支持細粒度控制的模型CosyVoice-300M-Instruct,可滿足不同場景下的使用需求。文章源自四五設計網-http://www.wasochina.com/50461.html
通過與原始音頻以及最近大火的ChatTTS對比,可以發現CosyVoice的合成音頻在內容一致性上更高,并且沒有很少存在幻覺額外多字的現象。CosyVoice很好地建模了合成文本中的語義信息,達到了與人類發音人相當的水平。此外,通過對合成音頻進行重打分,能夠進一步降低識別的錯誤率,甚至在內容一致性和說話人相似度上超越人類。文章源自四五設計網-http://www.wasochina.com/50461.html
(文件包有預合成演示音頻,可自行聽取)文章源自四五設計網-http://www.wasochina.com/50461.html
CosyVoice-300M本身具備一定從文本內容中推斷情感的能力,經過細粒度控制訓練的模型,CosyVoice-300M-Instruct在情感分類中的得分更高,具備更強的情感控制能力。文章源自四五設計網-http://www.wasochina.com/50461.html
文章源自四五設計網-http://www.wasochina.com/50461.html文章源自四五設計網-http://www.wasochina.com/50461.html

評論