為應用程序加上語音能力有什麼好處呢?粗略地講
是為了趣味
它適合所有注重趣味的應用
比如游戲
當然
從更嚴肅的角度來講
它還涉及到應用的可用性問題
注意
這裡我考慮的不僅是可視化界面固有的不足
而且還有這樣一些情形
一些時候
讓雙眼離開當前的工作很不方便
甚至是不合法的
比如
假設有一個帶語音功能的浏覽器
你就可以在外出散步或開車上班的同時
用聽的方式浏覽自己喜愛的網站
從目前來看
郵件閱讀器或許是語音技術更實際的應用
在JavaMail API的幫助下
這一切已經可能
郵件閱讀器可以定期地檢查收件箱
然後用語音
You have new mail
would you like me to read it to you?
引起你的注意
按照類似的思路
我們還可以考慮一個帶語音功能的提醒器
把它連接到一個日歷應用
它會及時地提醒你
Don
t forget your meeting with the boss in
minutes!
也許你已經被這些主意吸引
或者有了自己更好的主意
現在讓我們繼續
首先我將介紹如何啟用本文提供的語音引擎
這樣
如果你認為語音引擎的實現細節過於復雜
就可以直接使用它而忽略其實現細節
一
試用語音引擎
要使用這個語音引擎
你必須在CLASSPATH中加入本文提供的javatalk
jar文件
然後從命令行運行(或者從Java程序調用)com
lotontech
speech
Talker類
如果從命令行運行
則命令為
java com
lotontech
speech
Talker
h|e|l|oo
如果從Java程序調用
則代碼為
com
lotontech
speech
Talker talker=new com
lotontech
speech
Talker();
talker
sayPhoneWord(
h|e|l|oo
);
現在
對於在命令行上(或者調用sayPhoneWord()方法時)提供的
h|e|l|oo
字符串
你或許有所不解
下面我就來解釋一下
語音引擎的工作原理是把細小的聲音樣本連接起來
每一個樣本都是人的語言發音(英語)的一個最小單位
這些聲音樣本稱為音素(allophone)
每一個因素對應一個
二個或者三個字母
從前面
hello
的語音表示可以看出
一些字母組合的發音顯而易見
還有一些卻不是很明顯
h
讀音顯而易見
e
讀音顯而易見
l
讀音顯而易見
但注意兩個
l
被簡縮成了一個
l
OO
應該讀作
hello
中的讀音
不應讀作
bot
too
中的讀音
下面是一個有效音素的清單
a
如cat
b
如cab
c
如cat
d
如dot
e
如bet
f
如frog
g
如frog
h
如hog
i
如pig
j
如jig
k
如keg
l
如leg
m
如met
n
如begin
o
如not
p
如pot
r
如rot
s
如sat
t
如sat
u
如put
v
如have
w
如wet
y
如yet
z
如zoo
aa
如fake
ay
如hay
ee
如bee
ii
如high
oo
如go
bb
b的變化形式
重音不同
dd
d的變化形式
重音不同
ggg
g的變化形式
重音不同
hh
h的變化形式
重音不同
ll
l的變化形式
重音不同
nn
n的變化形式
重音不同
rr
r的變化形式
重音不同
tt
t的變化形式
重音不同
yy
y的變化形式
重音不同
ar
如car
aer
如care
ch
如which
ck
如check
ear
如beer
er
如later
err
如later (長音)
ng
如feeding
or
如law
ou
如zoo
ouu
如zoo (長音)
ow
如cow
oy
如boy
sh
如shut
th
如thing
dth
如this
uh
u 的變化形式
wh
如where
zh
如Asian
人說話的時候
語音在整個句子之內起落變化
語調變化使得語音更自然
更富有感染力
使得問句和陳述句能夠相互區別
請考慮下面兩個句子
It is fake
f|aa|k
Is it fake?
f|AA|k
也許你已經猜想到
提高語調的方法是使用大寫字母
以上就是使用該軟件時你需要了解的東西
如果你對其後台實現細節感興趣
請繼續閱讀
二
實現語音引擎
語音引擎的實現只包括一個類
四個方法
它利用了J
SE
包含的Java Sound API
在這裡
我不准備全面地介紹這個API
但你可以通過實例學習它的用法
Java Sound API並不是一個特別復雜的API
代碼中的注釋將告訴你必須了解的知識
下面是Talker類的基本定義
package com
lotontech
speech;
import javax
sound
sampled
*;
import java
io
*;
import java
util
*;
import
*;
public class Talker
{
private SourceDataLine line=null;
}
如果從命令行執行Talker
下面的main()方法將作為入口點運行
main()方法獲取第一個命令行參數
然後把它傳遞給sayPhoneWord()方法
/*
* 讀出在命令行中指定的表示讀音的字符串
*/
public static void main(String args[])
{
Talker player=new Talker();
if (args
length>
) player
sayPhoneWord(args[
]);
System
exit(
);
}
sayPhoneWord()方法既可以通過上面的main()方法調用
也可以在Java程序中直接調用
從表面上看
sayPhoneWord()方法比較復雜
其實並非如此
實際上
它簡單地遍歷所有單詞的語音元素(在輸入字符串中語音元素以
|
分隔)
通過一個聲音輸出通道一個元素一個元素地播放出來
為了讓聲音更自然一些
我把每一個聲音樣本的結尾和下一個聲音樣本的開頭合並了起來
/*
* 讀出指定的語音字符串
*/
public void sayPhoneWord(String word)
{
// 為上一個聲音構造的模擬byte數組
byte[] previousSound=null;
// 把輸入字符串分割成單獨的音素
StringTokenizer st=new StringTokenizer(word
|
false);
while (st
hasMoreTokens())
{
// 為音素構造相應的文件名字
String thisPhoneFile=st
nextToken();
thisPhoneFile=
/allophones/
+thisPhoneFile+
au
;
// 從聲音文件讀取數據
byte[] thisSound=getSound(thisPhoneFile);
if (previousSound!=null)
{
// 如果可能的話
把前一個音素和當前音素合並
int mergeCount=
;
if (previousSound
length>=
&& thisSound
length>=
)
mergeCount=
;
for (int i=
; i
{
previousSound[previousSound
length
mergeCount+i]
=(byte)((previousSound[previousSound
length
mergeCount+i]+thisSound[i])/
);
}
// 播放前一個音素
playSound(previousSound);
// 把經過截短的當前音素作為前一個音素
byte[] newSound=new byte[thisSound
length
mergeCount];
for (int ii=
; ii
newSound[ii]=thisSound[ii+mergeCount];
previousSound=newSound;
}
else
previousSound=thisSound;
}
// 播放最後一個音素
清理聲音通道
playSound(previousSound);
drain();
}
在sayPhoneWord()的後面
你可以看到它調用playSound()輸出單個聲音樣本(即一個音素)
然後調用drain()清理聲音通道
下面是playSound()的代碼
/*
* 該方法播放一個聲音樣本
*/
private void playSound(byte[] data)
{
if (data
length>
) line
write(data
data
length);
}
下面是drain()的代碼
/*
* 該方法清理聲音通道
*/
From:http://tw.wingwit.com/Article/program/Java/JSP/201311/19532.html