1295839.png

茶奶绿

GF  2025-01-31 01:04
(会有人不喜欢大姐姐?会有人不喜欢大姐姐?会有人不喜欢大姐姐?)

[AI音声] 关于小苮儿和骚麦的AI模型的试验

在之前的帖子中大概了解了GPT-So-VITS推理的用法

GPT模型主要控制语言习惯,sovits模型主要控制音色,参考音频同样提供音色、语气的参考,辅助参考音频主要提供音色以固定或融合音色

所以对于ai骚麦来说,我的重点放了在GPT模型和参考音频上,如果能采用质量和数量都比较好的五言和七言的骚麦切片,就能炼出一个语调和断句习惯偏向骚麦的特化版

但是实操的时候发现问题,主要在于目前流出的骚麦,绝大部分都是杏吧骚麦,以苮儿为主,而且bgm聒噪,音频质量欠佳。近期流出的其他骚麦又因为量比较少暂时没有考虑,所以硬着头皮试了试

关于小苮儿和骚麦的AI模型,我大致的思路是先筛选素材,很多比较远古的素材音质太差,去掉bgm和混响之后基本不能用,所以干脆用了最近流出的熟女声线的骚麦,处理完之后勉强能听,但是仍然留有比较明显的dj鼓点和人声的缺失

同时听过的老哥都知道,苮儿基本是一人多役,声线很多很难摘出来所以除了熟女声线的骚麦外,我还挑了几首夹子音的骚麦和短篇有声,炼了个普通的模型

最后实际效果如下:
念白模型是夹子音,由于素材处理的比较干净,最终效果比较好,很少有电音的情况,偶尔会加一两声带电音的喘息,勉强能用。
骚麦模型是熟女音,由于dj鼓点贴近声线,导致处理不干净并且人声丢失,最终效果很不理想,电音的情况很严重

但是推测的方向是对的,采用骚麦模型和夹子声线,同时挑一些干净的骚麦片段作为参考音频,用夹子声线的片段做辅助参考来固定音色,这样可以最大程度的在使声音“不那么漏电”的情况下,让语调和断句向骚麦的方向靠拢

实际效果是更偏向于在五字或七字断句,同时最后一个字的语调上扬,虽然没有完全成功的变成骚麦的形式,但是听感已经比较有区别了,具体可以见试听音频,我会连同模型一起放到压缩包里

因为我是懒狗,没有认真筛选处理素材,也没校对打标,希望各位大佬有时间的话可以验证一下这个猜想

1.31已补,后缀rar
此帖售价 0 SP币,已有 410 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

none.gif

gto

B1F  2025-01-31 13:24
(MADAO)
炸了     

7.gif

代古拉

不存在了

1236528.jpg

nmslsxc

直接无了

1295839.png

茶奶绿

B4F  2025-01-31 16:53
(会有人不喜欢大姐姐?会有人不喜欢大姐姐?会有人不喜欢大姐姐?)
已补,没想到炸的这么快

none.gif

21db4075

B5F  2025-01-31 17:30
(战帅永远健康)
     大佬!

1393633.png

kinray7

B6F  2025-02-01 17:45
(Ds填词群组:https://discord.gg/XEpVp56D2u)
是038吗?我去年初也做过仙儿夹音,不过吐词吞词效果不太好,没怎么用过,最后丹还忘记保存了

none.gif

晚期拖延症

大佬辛苦了

none.gif

ailce

我已经做好熟女音声的模型了,具体成品咋说呢。对我自己来说能用, 就是有点麻烦。明天上传给你们听一下

none.gif

ailce

骚麦还是太难了,毕竟让AI断句还是把握不好节奏

none.gif

alian900

是啊 确实难啊

none.gif

小心

谢谢大佬的分享

372302.jpg

僵尸跳跳

B12F  2025-02-07 22:17
(以后我就叫yiqingtao8613)
能听您的成品吗

none.gif

06f8658b

不得了, 跟我的思路惊人的一致, 我也是找到了小仙儿 哈哈。 不过我只能用XTTS了。 我在用Voxta插件, 目前只能支持XTTS也不给API 外挂不了别的服务。

none.gif

06f8658b

哥能分享点声音素材吗 给xtts用