找回密码
 新注册用户
搜索
查看: 4097|回复: 6

[转帖] 宅男的科研项目~

[复制链接]
发表于 2009-11-16 18:45:15 | 显示全部楼层 |阅读模式
转自“人人网”,据传该项目准备在清华大学的SRT平台上立项


我自己有个打算,发这里跟大家商量下,先不拿出去丢人。
简单说来,就是想做一个中文版的初音miku……这样的人声模拟软件。

人声模拟软件已经有很长的历史了,不过都没有什么进步。因为模拟得太差。人声的模拟是一个涵盖20-20000HZ的混音重编过程。纯粹的电子音复合人声,想要做到完全相似,是非常困难的。也正是因为电子音的模拟非常困难,现在的人声模拟软件基本上没有什么资金支持,只有一些大公司还在做。
银行和公交车中,我们也经常听到模拟模拟人声的报站和叫号。那其实是利用预先录好的声音,按照顺序进行播放,从而达到一些非常简单的功能。录好的人声毕竟是人声,这样可以跳过最困难的模拟,直接利用编程放音就可以了。

而初音,则更进了一步。
初音的原理其实没有那么难,本质上同公交自动报站的原理是一样的,就是利用人声录音,然后按照编程放出从而达到效果。不过,在以下几点有所不同:
1、音素的细分。也就是说,软件将音节分的更加细致。公交报站中,可以明显地分辨出,播音员说话的音节,是按照数字“一”“二”……等进行录音的。这就是说,这种系统中,所采用的音节,是单字。而初音中,音节是按照元音、辅音、拨音、促音等进行分类录音,然后在后期合成中将多个音节进行合并发音的。
这样做的好处,就是大大提高了软件本身的“说话”能力。只要通过合理的编程,软件可以说几乎所有的话。至于缺点嘛,一个是工作量会大大上升;另一个是软件本身对于“拼读”,要有比较好的处理能力——能够判断拼读所需要的时间与节奏,才能不那么生硬。
2、音频调整的任意性。音频决定说话音调的高低。我们听外国人说中文时总会感受到某种违和感,主要原因在于其说话音调同中国人是不一样的。也就是说:在音调方面的调整可以使得语音整体听起来更为舒畅。
3、二次元的包装。这个虽然看起来没有什么技术含量,但是不可否认的是,正是由于这个,初音系列才火了起来。
初音本身的软件构架是雅马哈公司的VOCALOID2。看这个名字就知道,还有VOCALOID1咯。这个软件本身,也正是符合了前面两点的软件,做的很好,但是因为过于专业,所以基本上没有人会用。
后来,做初音的那拨人(CRYPTON)有了点子之后,就找到雅马哈,说要做这个。雅马哈很高兴,因为自己的软件正卖不出去呢。没过多久,初音未来就诞生了。
CRYPTON所做的事情,说到底只有两件:找到藤田咲给初音配了音;为初音设计了一系列的二次元包装,包括初音这个名字,包括初音的人物设定,初音的部分原创歌曲等等。

关于初音软件就说到这里。我的基本想法很明确,就是希望能够做一个中文版的初音。
主要困难有以下几点:
1、中文语音的基本音素分析。
初音之所以出现在日本,而不是中国、美国……我认为最为重要的一个原因就是语音方面的特殊性。说的再直接一些,就是日语本身实在是太特殊了。
日语的拼读是非常规则的:辅音加元音。规则之外的连拼、略拼等特殊发音几乎没有。少见的几条特殊规则都可以用辅音加元音予以实现。
发音方面,最难以实现的恐怕就是拨音“ん”了。因为其跟在不同的元音后面可以有不同的发音。比方说,“ん”在“に”后面念“nin”,发“n”的音。而跟在“の”后面念“nong”,发“ng”的音。
但是……这样的区别即使是在日本也可以认为是忽略不计的。且不说日本各地方言本身就有拨音的不同,作为结果,在初音的软件中,“ん”本身的录音,只是藤田的一个鼻音而已。
回过头来再看中文,真是感觉自己这些年来的不容易:中文的语音系统比日文要复杂的多。现在仅仅是我想到的,就有这么几点:
(1)平舌和翘舌的区别。如果这些音素不区别的话,初音说的是上海话……
(2)鼻音的区别。如果这些音素不区别的话,初音说的是广东话……
(3)“l”和“n”的区别。没人想要一个湖北话版的初音吧……
(4)“r”卷舌音。日本人是不会发这个音的。某些中国人也不会……
(5)五声音调的区别。这个更为复杂……

2、软件编程。
我不懂编程。一点也不。但是我知道这个世界上会编程的牛人很多,所以在这里先征求牛人……
这方面的困难,我想牛人们比我更清楚。当然,这一点并不是不能解决的。如果我们有时间的话,完全可以自己写一套东西出来。如果没有时间,最简单的方法,就是按照CRYPTON的做法,完全照搬VOCALOID2进行人声录音。不过,因为VOCALOID2本身可能就已经有了日语音素的设定,因此以上的问题可能无法解决。

以上,欢迎各位拍砖。求可行性。



GJ
回复

使用道具 举报

发表于 2009-11-16 19:07:14 | 显示全部楼层
求地址,分享去~
回复

使用道具 举报

 楼主| 发表于 2009-11-16 19:12:13 | 显示全部楼层
回复

使用道具 举报

发表于 2009-11-16 19:53:36 | 显示全部楼层
鞠萍姐姐做cv吗.....
回复

使用道具 举报

发表于 2009-11-16 20:13:17 | 显示全部楼层
喵的。。说了一大堆最后【球可行性。】。。

不可行那miku是什么?
回复

使用道具 举报

发表于 2009-11-16 21:01:28 | 显示全部楼层
首先中文发音问题比日文要麻烦得多,虽然唱歌不用考虑这个……
还有要做到初音那个效果,不仅仅是单纯发音就行,还要处理音与音之间得连接性问题……不过可行性嘛,还是有的。= =粗略估计要搞出一个能看能用的版本,几个技术宅(需要会音频方面得相关知识,至少变调啊那些要会,当然还要会编程……)应该就可以了。
回复

使用道具 举报

发表于 2009-11-19 22:13:16 | 显示全部楼层

回复 #6 apple 的帖子

是音樂宅加上動漫宅和技術宅~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-5-7 10:35

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表