宅男的科研项目~

老冬腌菜 · 发表于 2009-11-16 18:45:15

转自“人人网”，据传该项目准备在清华大学的SRT平台上立项

我自己有个打算，发这里跟大家商量下，先不拿出去丢人。
简单说来，就是想做一个中文版的初音miku……这样的人声模拟软件。

人声模拟软件已经有很长的历史了，不过都没有什么进步。因为模拟得太差。人声的模拟是一个涵盖20-20000HZ的混音重编过程。纯粹的电子音复合人声，想要做到完全相似，是非常困难的。也正是因为电子音的模拟非常困难，现在的人声模拟软件基本上没有什么资金支持，只有一些大公司还在做。
银行和公交车中，我们也经常听到模拟模拟人声的报站和叫号。那其实是利用预先录好的声音，按照顺序进行播放，从而达到一些非常简单的功能。录好的人声毕竟是人声，这样可以跳过最困难的模拟，直接利用编程放音就可以了。

而初音，则更进了一步。
初音的原理其实没有那么难，本质上同公交自动报站的原理是一样的，就是利用人声录音，然后按照编程放出从而达到效果。不过，在以下几点有所不同：
1、音素的细分。也就是说，软件将音节分的更加细致。公交报站中，可以明显地分辨出，播音员说话的音节，是按照数字“一”“二”……等进行录音的。这就是说，这种系统中，所采用的音节，是单字。而初音中，音节是按照元音、辅音、拨音、促音等进行分类录音，然后在后期合成中将多个音节进行合并发音的。
这样做的好处，就是大大提高了软件本身的“说话”能力。只要通过合理的编程，软件可以说几乎所有的话。至于缺点嘛，一个是工作量会大大上升；另一个是软件本身对于“拼读”，要有比较好的处理能力——能够判断拼读所需要的时间与节奏，才能不那么生硬。
2、音频调整的任意性。音频决定说话音调的高低。我们听外国人说中文时总会感受到某种违和感，主要原因在于其说话音调同中国人是不一样的。也就是说：在音调方面的调整可以使得语音整体听起来更为舒畅。
3、二次元的包装。这个虽然看起来没有什么技术含量，但是不可否认的是，正是由于这个，初音系列才火了起来。
初音本身的软件构架是雅马哈公司的VOCALOID2。看这个名字就知道，还有VOCALOID1咯。这个软件本身，也正是符合了前面两点的软件，做的很好，但是因为过于专业，所以基本上没有人会用。
后来，做初音的那拨人（CRYPTON）有了点子之后，就找到雅马哈，说要做这个。雅马哈很高兴，因为自己的软件正卖不出去呢。没过多久，初音未来就诞生了。
CRYPTON所做的事情，说到底只有两件：找到藤田咲给初音配了音；为初音设计了一系列的二次元包装，包括初音这个名字，包括初音的人物设定，初音的部分原创歌曲等等。

关于初音软件就说到这里。我的基本想法很明确，就是希望能够做一个中文版的初音。
主要困难有以下几点：
1、中文语音的基本音素分析。
初音之所以出现在日本，而不是中国、美国……我认为最为重要的一个原因就是语音方面的特殊性。说的再直接一些，就是日语本身实在是太特殊了。
日语的拼读是非常规则的：辅音加元音。规则之外的连拼、略拼等特殊发音几乎没有。少见的几条特殊规则都可以用辅音加元音予以实现。
发音方面，最难以实现的恐怕就是拨音“ん”了。因为其跟在不同的元音后面可以有不同的发音。比方说，“ん”在“に”后面念“nin”，发“n”的音。而跟在“の”后面念“nong”，发“ng”的音。
但是……这样的区别即使是在日本也可以认为是忽略不计的。且不说日本各地方言本身就有拨音的不同，作为结果，在初音的软件中，“ん”本身的录音，只是藤田的一个鼻音而已。
回过头来再看中文，真是感觉自己这些年来的不容易：中文的语音系统比日文要复杂的多。现在仅仅是我想到的，就有这么几点：
（1）平舌和翘舌的区别。如果这些音素不区别的话，初音说的是上海话……
（2）鼻音的区别。如果这些音素不区别的话，初音说的是广东话……
（3）“l”和“n”的区别。没人想要一个湖北话版的初音吧……
（4）“r”卷舌音。日本人是不会发这个音的。某些中国人也不会……
（5）五声音调的区别。这个更为复杂……

2、软件编程。
我不懂编程。一点也不。但是我知道这个世界上会编程的牛人很多，所以在这里先征求牛人……
这方面的困难，我想牛人们比我更清楚。当然，这一点并不是不能解决的。如果我们有时间的话，完全可以自己写一套东西出来。如果没有时间，最简单的方法，就是按照CRYPTON的做法，完全照搬VOCALOID2进行人声录音。不过，因为VOCALOID2本身可能就已经有了日语音素的设定，因此以上的问题可能无法解决。

以上，欢迎各位拍砖。求可行性。

GJ

昂宿星团人 · 发表于 2009-11-16 19:07:14

求地址，分享去~

老冬腌菜 · 发表于 2009-11-16 19:12:13

http://blog.renren.com/GetEntry. ... p;ref=shareminifeed

lfk · 发表于 2009-11-16 19:53:36

鞠萍姐姐做cv吗.....

BiscuiT · 发表于 2009-11-16 20:13:17

喵的。。说了一大堆最后【球可行性。】。。

不可行那miku是什么？

apple · 发表于 2009-11-16 21:01:28

首先中文发音问题比日文要麻烦得多，虽然唱歌不用考虑这个……
还有要做到初音那个效果，不仅仅是单纯发音就行，还要处理音与音之间得连接性问题……不过可行性嘛，还是有的。= =粗略估计要搞出一个能看能用的版本，几个技术宅（需要会音频方面得相关知识，至少变调啊那些要会，当然还要会编程……）应该就可以了。

universebreaker · 发表于 2009-11-19 22:13:16

是音樂宅加上動漫宅和技術宅~

		自动登录	找回密码
密码			新注册用户

[转帖] 宅男的科研项目~

回复 #6 apple 的帖子