在之前的帖子中大概了解了GPT-So-VITS推理的用法
GPT模型主要控制语言习惯,sovits模型主要控制音色,参考音频同样提供音色、语气的参考,辅助参考音频主要提供音色以固定或融合音色
所以对于ai骚麦来说,我的重点放了在GPT模型和参考音频上,如果能采用质量和数量都比较好的五言和七言的骚麦切片,就能炼出一个语调和断句习惯偏向骚麦的特化版

但是实操的时候发现问题,主要在于目前流出的骚麦,绝大部分都是杏吧骚麦,以苮儿为主,而且bgm聒噪,音频质量欠佳。近期流出的其他骚麦又因为量比较少暂时没有考虑,所以硬着头皮试了试
关于小苮儿和骚麦的AI模型,我大致的思路是先筛选素材,很多比较远古的素材音质太差,去掉bgm和混响之后基本不能用,所以干脆用了最近流出的熟女声线的骚麦,处理完之后勉强能听,但是仍然留有比较明显的dj鼓点和人声的缺失

同时听过的老哥都知道,苮儿基本是一人多役,声线很多很难摘出来

所以除了熟女声线的骚麦外,我还挑了几首夹子音的骚麦和短篇有声,炼了个普通的模型
最后实际效果如下:
念白模型是夹子音,由于素材处理的比较干净,最终效果比较好,很少有电音的情况,偶尔会加一两声带电音的喘息,勉强能用。
骚麦模型是熟女音,由于dj鼓点贴近声线,导致处理不干净并且人声丢失,最终效果很不理想,电音的情况很严重

但是推测的方向是对的,采用骚麦模型和夹子声线,同时挑一些干净的骚麦片段作为参考音频,用夹子声线的片段做辅助参考来固定音色,这样可以最大程度的在使声音“不那么漏电”的情况下,让语调和断句向骚麦的方向靠拢

实际效果是更偏向于在五字或七字断句,同时最后一个字的语调上扬,虽然没有完全成功的变成骚麦的形式,但是听感已经比较有区别了,具体可以见试听音频,我会连同模型一起放到压缩包里

因为我是懒狗,没有认真筛选处理素材,也没校对打标,希望各位大佬有时间的话可以验证一下这个猜想
1.31已补,后缀rar此帖售价 0 SP币,已有 410 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!