[AI音声] 关于小苮儿和骚麦的AI模型的试验AI交流 (beta) 南+ South Plus - powered by Pu!mdHd

Responsive image

茶奶绿 - 2025-01-31 01:04 [GF]

在之前的帖子中大概了解了GPT-So-VITS推理的用法

GPT模型主要控制语言习惯，sovits模型主要控制音色，参考音频同样提供音色、语气的参考，辅助参考音频主要提供音色以固定或融合音色

所以对于ai骚麦来说，我的重点放了在GPT模型和参考音频上，如果能采用质量和数量都比较好的五言和七言的骚麦切片，就能炼出一个语调和断句习惯偏向骚麦的特化版

但是实操的时候发现问题，主要在于目前流出的骚麦，绝大部分都是杏吧骚麦，以苮儿为主，而且bgm聒噪，音频质量欠佳。近期流出的其他骚麦又因为量比较少暂时没有考虑，所以硬着头皮试了试

关于小苮儿和骚麦的AI模型，我大致的思路是先筛选素材，很多比较远古的素材音质太差，去掉bgm和混响之后基本不能用，所以干脆用了最近流出的熟女声线的骚麦，处理完之后勉强能听，但是仍然留有比较明显的dj鼓点和人声的缺失

同时听过的老哥都知道，苮儿基本是一人多役，声线很多很难摘出来

所以除了熟女声线的骚麦外，我还挑了几首夹子音的骚麦和短篇有声，炼了个普通的模型

最后实际效果如下：
念白模型是夹子音，由于素材处理的比较干净，最终效果比较好，很少有电音的情况，偶尔会加一两声带电音的喘息，勉强能用。
骚麦模型是熟女音，由于dj鼓点贴近声线，导致处理不干净并且人声丢失，最终效果很不理想，电音的情况很严重

但是推测的方向是对的，采用骚麦模型和夹子声线，同时挑一些干净的骚麦片段作为参考音频，用夹子声线的片段做辅助参考来固定音色，这样可以最大程度的在使声音“不那么漏电”的情况下，让语调和断句向骚麦的方向靠拢

实际效果是更偏向于在五字或七字断句，同时最后一个字的语调上扬，虽然没有完全成功的变成骚麦的形式，但是听感已经比较有区别了，具体可以见试听音频，我会连同模型一起放到压缩包里

因为我是懒狗，没有认真筛选处理素材，也没校对打标，希望各位大佬有时间的话可以验证一下这个猜想

1.31已补，后缀rar

此帖售价 0 SP币,已有 643 人购买

若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

gto - 2025-01-31 13:24 [B1F]

炸了

代古拉 - 2025-01-31 13:33 [B2F]

不存在了

nmslsxc - 2025-01-31 15:11 [B3F]

直接无了

茶奶绿 - 2025-01-31 16:53 [B4F]

已补，没想到炸的这么快

21db4075 - 2025-01-31 17:30 [B5F]

大佬！

kinray7 - 2025-02-01 17:45 [B6F]

是038吗？我去年初也做过仙儿夹音，不过吐词吞词效果不太好，没怎么用过，最后丹还忘记保存了

晚期拖延症 - 2025-02-04 10:02 [B7F]

大佬辛苦了

ailce - 2025-02-05 03:45 [B8F]

我已经做好熟女音声的模型了，具体成品咋说呢。对我自己来说能用，就是有点麻烦。明天上传给你们听一下

ailce - 2025-02-05 03:46 [B9F]

骚麦还是太难了，毕竟让AI断句还是把握不好节奏

alian900 - 2025-02-05 03:57 [B10F]

是啊确实难啊

小心 - 2025-02-07 00:04 [B11F]

谢谢大佬的分享

僵尸跳跳 - 2025-02-07 22:17 [B12F]

能听您的成品吗

06f8658b - 2025-02-12 13:58 [B13F]

不得了，跟我的思路惊人的一致，我也是找到了小仙儿哈哈。不过我只能用XTTS了。我在用Voxta插件，目前只能支持XTTS也不给API 外挂不了别的服务。

06f8658b - 2025-02-12 13:59 [B14F]

哥能分享点声音素材吗给xtts用

Powered by SP Project v1.0 © 2010-2019
Time 0.002783 second(s),query:3 Gzip enabled

Top