Responsive image

茶奶绿 - 2025-01-31 01:04 [GF]
在之前的帖子中大概了解了GPT-So-VITS推理的用法

GPT模型主要控制语言习惯,sovits模型主要控制音色,参考音频同样提供音色、语气的参考,辅助参考音频主要提供音色以固定或融合音色

所以对于ai骚麦来说,我的重点放了在GPT模型和参考音频上,如果能采用质量和数量都比较好的五言和七言的骚麦切片,就能炼出一个语调和断句习惯偏向骚麦的特化版

但是实操的时候发现问题,主要在于目前流出的骚麦,绝大部分都是杏吧骚麦,以苮儿为主,而且bgm聒噪,音频质量欠佳。近期流出的其他骚麦又因为量比较少暂时没有考虑,所以硬着头皮试了试

关于小苮儿和骚麦的AI模型,我大致的思路是先筛选素材,很多比较远古的素材音质太差,去掉bgm和混响之后基本不能用,所以干脆用了最近流出的熟女声线的骚麦,处理完之后勉强能听,但是仍然留有比较明显的dj鼓点和人声的缺失

同时听过的老哥都知道,苮儿基本是一人多役,声线很多很难摘出来所以除了熟女声线的骚麦外,我还挑了几首夹子音的骚麦和短篇有声,炼了个普通的模型

最后实际效果如下:
念白模型是夹子音,由于素材处理的比较干净,最终效果比较好,很少有电音的情况,偶尔会加一两声带电音的喘息,勉强能用。
骚麦模型是熟女音,由于dj鼓点贴近声线,导致处理不干净并且人声丢失,最终效果很不理想,电音的情况很严重

但是推测的方向是对的,采用骚麦模型和夹子声线,同时挑一些干净的骚麦片段作为参考音频,用夹子声线的片段做辅助参考来固定音色,这样可以最大程度的在使声音“不那么漏电”的情况下,让语调和断句向骚麦的方向靠拢

实际效果是更偏向于在五字或七字断句,同时最后一个字的语调上扬,虽然没有完全成功的变成骚麦的形式,但是听感已经比较有区别了,具体可以见试听音频,我会连同模型一起放到压缩包里

因为我是懒狗,没有认真筛选处理素材,也没校对打标,希望各位大佬有时间的话可以验证一下这个猜想

1.31已补,后缀rar
此帖售价 0 SP币,已有 508 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!


gto - 2025-01-31 13:24 [B1F]
炸了     


代古拉 - 2025-01-31 13:33 [B2F]
不存在了


nmslsxc - 2025-01-31 15:11 [B3F]
直接无了


茶奶绿 - 2025-01-31 16:53 [B4F]
已补,没想到炸的这么快


21db4075 - 2025-01-31 17:30 [B5F]
     大佬!


kinray7 - 2025-02-01 17:45 [B6F]
是038吗?我去年初也做过仙儿夹音,不过吐词吞词效果不太好,没怎么用过,最后丹还忘记保存了


晚期拖延症 - 2025-02-04 10:02 [B7F]
大佬辛苦了


ailce - 2025-02-05 03:45 [B8F]
我已经做好熟女音声的模型了,具体成品咋说呢。对我自己来说能用, 就是有点麻烦。明天上传给你们听一下


ailce - 2025-02-05 03:46 [B9F]
骚麦还是太难了,毕竟让AI断句还是把握不好节奏


alian900 - 2025-02-05 03:57 [B10F]
是啊 确实难啊


小心 - 2025-02-07 00:04 [B11F]
谢谢大佬的分享


僵尸跳跳 - 2025-02-07 22:17 [B12F]
能听您的成品吗


06f8658b - 2025-02-12 13:58 [B13F]
不得了, 跟我的思路惊人的一致, 我也是找到了小仙儿 哈哈。 不过我只能用XTTS了。 我在用Voxta插件, 目前只能支持XTTS也不给API 外挂不了别的服务。


06f8658b - 2025-02-12 13:59 [B14F]
哥能分享点声音素材吗 给xtts用






桌面版


Powered by SP Project v1.0 © 2010-2019
Time 0.001757 second(s),query:3 Gzip enabled


Top