
高木 一幸
情報学専攻 | 助教 |
Ⅰ類(情報系) | 助教 |
- プロフィール:
1992--1996 対話音声の話題構造と表層的な韻律特徴についての研究
1997--2000 放送ニュース音声の自動音声認識に関する研究
2000--2004 韻律情報の文構造解析および音声認識での利用に関する研究
2004--2008 雑音環境下における頑健な音声認識に関する研究
2008--2010 音響的分析による多言語音声の分類・類型化に関する研究
2011-- 音声の自動言語識別に関する研究
2017--2019 水中音波解析による漏水音の自動検出
研究者情報
経歴
研究活動情報
論文
- 管水路のカプセル型漏水探査装置の開発
浅野勇; 森充広; 高木一幸; 羽田陽一; 川上昭彦; 川邊翔平
農業農村工学会誌, 公益財団法人農業農村工学会, 86巻, 6号, 掲載ページ 31-36, 出版日 2018年06月, 査読付
研究論文(学術雑誌), 日本語 - 雑音環境下単語認識のための複素周波数領域における参照再構成法
井原健紘; 高木一幸; 尾関和彦
日本音響学会誌, 一般社団法人日本音響学会, 64巻, 9号, 掲載ページ 533-544, 出版日 2008年09月, 査読付, 本論文では音声に雑音が重畳した単一チャネルの信号から原音声を復元し,自動音声認識性能を向上させる手法について述べる。著者らはすでに,小規模の音声データベースを事前に用意し,ある尺度で入力フレームと類似しているフレームをデータベース内から抽出し,その抽出したフレームを参考にして出力を得るという手法を提案しているが,本論文では更にその類似尺度と出力方法の改良法を報告する。改良の要点は,短時間フーリエ変換後の位相情報をそのまま保持しておくことと,そこにバイナリマスクをかけることの2点である。性能評価をするために器楽曲雑音及び環境雑音を用いて単語認識実験を行ったところ,低いSNRにおいて単語正解率の改善が見られた。
研究論文(学術雑誌), 日本語 - The use of overlapped sub-bands in multi-band, Multi-SNR, multi-path recognition of noisy word utterances
Yutaka Tsuboi; Takehiro Ihara; Kazuyuki Takagi; Kazuhiko Ozeki
IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG, E91D巻, 6号, 掲載ページ 1774-1782, 出版日 2008年06月, 査読付, A solution to the problem of improving robustness to noise in automatic speech recognition is presented in the framework of multi-band, multi-SNR, and multi-path approaches. In our word recognizer, the whole frequency band is divided into seven-overlapped subbands, and then sub-band noisy phoneme HMMs are trained on speech data mixed with the filtered white Gaussian noise at multiple SNRs. The acoustic model of a word is built as a set of concatenations of clean and noisy sub-band phoneme HMMs arranged in parallel. A Viterbi decoder allows a search path to transit to another SNR condition at a phoneme boundary. The recognition scores of the sub-bands are then recombined to give the score for a word. Experiments show that the overlapped seven-band system yields the best performance under nonstationary ambient noises. It is also shown that the use of filtered white Gaussian noise is advantageous for training noisy phoneme HMMs.
研究論文(学術雑誌), 英語 - Dependency analysis of spontaneous monologue speech using pause and F0 information: a preliminary study
Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of International Conference of Speech Prosody 2006, 掲載ページ PS5-20, 出版日 2006年05月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Japanese dependency structure analysis using information about multiple pauses and F-0
MR Lu; K Takagi; K Ozeki
IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG, E89D巻, 1号, 掲載ページ 298-304, 出版日 2006年01月, 査読付, Syntax and prosody are closely related to each other. This paper is concerned with the problem of exploiting pause information for recovering dependency structures of read Japanese sentences. Our parser can handle both symbolic information such as dependency rule and numerical information such as the probability of dependency distance of a phrase in a unified way as linguistic information. In our past work, post-phrase pause that immediately succeeds a phrase in question was employed as prosodic information. In this paper, we employed two kinds of pauses in addition to the post-phrase pause: post-post-phrase pause that immediately succeeds the phrase that follows a phrase in question, and pre-phrase pause that immediately precedes a phrase in question. By combining the three kinds of pause information linearly with the optimal combination weights that were determined experimentally, the parsing accuracy was improved compared to the case where only the post-phrase pause was used as in our previous work. Linear combination of pause and fundamental frequency information yielded further improvement of parsing accuracy.
研究論文(学術雑誌), 英語 - Sentence compression using statistical information about dependency path length
Kiwamu Yamagata; Satoshi Fukutomi; Kazuyuki Takagi; Kazuhiko Ozeki
TEXT, SPEECH AND DIALOGUE, PROCEEDINGS, SPRINGER-VERLAG BERLIN, 4188巻, 掲載ページ 127-134, 出版日 2006年, 査読付, This paper is concerned with the use of statistical information about dependency path length for sentence compression. The sentence compression method employed here requires a quantity called inter-phrase dependency strength. In the training process, original sentences are parsed, and the number of tokens is counted for each pair of phrases, connected with each other by a dependency path of certain length, that survive as a modifier-modified phrase pair in the corresponding compressed sentence in the training corpus. The statistics is exploited to estimate the inter-phrase dependency strength required in the sentence compression process. Results of subjective evaluation shows that the present method outperforms the conventional one of the same framework where the distribution of dependency distance is used to estimate the inter-phrase dependency strength.
研究論文(学術雑誌), 英語 - Automatic adjustment of subband likelihood recombination weights for improving noise-robustness of a multi-SNR multi-band speaker identification system
K Yoshida; K Takagi; K Ozeki
IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG, E87D巻, 11号, 掲載ページ 2453-2459, 出版日 2004年11月, 査読付, This paper is concerned with improving noise-robustness of a multi-SNR multi-band speaker identification system by introducing automatic adjustment of subband likelihood recombination weights. The adjustment is per-formed on the basis of subband power calculated from the noise observed just before the speech starts in the input signal. To evaluate the noise-robustness of this system, text-independent speaker identification experiments were conducted on speech data corrupted with noises recorded in five environments: "bus," "car," "office," "lobby," and "restaurant". It was found that the present method reduces the identification error by 15.9% compared with the multi-SNR multi-band method with equal recombination weights at 0 dB SNR. The performance of the present method was compared with a clean fullband method in which a speaker model training is performed on clean speech data, and spectral subtraction is applied to the input signal in the speaker identification stage. When the clean fullband method without spectral subtraction is taken as a baseline, the multi-SNR multi-band method with automatic adjustment of recombination weights attained 56.8% error reduction on average, while the average error reduction rate of the clean fullband method with spectral subtraction was 11.4% at 0 dB SNR.
研究論文(学術雑誌), 英語 - Dependency analysis of read Japanese sentences using pause and F0 information: a speaker independent case
Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of ICSLP2004 (8th International Conference on Spoken Language Processing), 掲載ページ 3021-3024, 出版日 2004年10月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Improved model training and automatic weight adjustment for multi-SNR multi-band speaker identification system
Kenichi Yoshida; Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of ICSLP2004 (8th International Conference on Spoken Language Processing), 3巻, 掲載ページ 1749-1752, 出版日 2004年10月
研究論文(国際会議プロシーディングス), 英語 - Dependency analysis of read Japanese sentences using pause information: a speaker independent case
Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of International Conference of Speech Prosody 2004, 掲載ページ 595-598, 出版日 2004年03月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Recovery of Japanese dependency structure using multiple pause information
Lu Meirong; Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of International Conference of Speech Prosody 2004, 掲載ページ 513-516, 出版日 2004年03月, 査読付
研究論文(国際会議プロシーディングス), 英語 - A neural network approach to dependency analysis of Japanese sentences using prosodic information
Kazuyuki Takagi; Mamiko Okimoto; Yasuo Ogawa; Kazuhiko Ozeki
Proceedings of EUROSPEECH2003, 掲載ページ 3177-3180, 出版日 2003年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - The use of multiple pause information in dependency analysis of spoken Japanese sentences
Lu Meirong; Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of EUROSPEECH2003, 掲載ページ 3173-3176, 出版日 2003年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - マルチSNR部分帯域モデルを用いた雑音環境下での話者識別
吉田健一; 高木一幸; 尾関和彦
日本音響学会誌, 59巻, 1号, 掲載ページ 3-12, 出版日 2003年01月, 査読付
研究論文(学術雑誌), 日本語 - Combination of pause and F0 information in dependency analysis of Japanese sentences
Kazuyuki Takagi; Hajime Kubota; Kazuhiko Ozeki
Proc. of Interspeech 2002, 2巻, 掲載ページ 1173-1176, 出版日 2002年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Evaluation of a Japanese sentence compression method based on phrase significance and inter-phrase dependency
Rei Oguro; Hiromi Sekiya; Yuhei Morooka; Kazuyuki Takagi; Kazuhiko Ozeki
Lecture Notes in Artificial Intelligence, subseries of Lecture Notes in Computer Science, 2448巻, 掲載ページ 27-32, 出版日 2002年09月, 査読付
研究論文(学術雑誌), 英語 - Effectiveness of word string language models on noisy broadcast news speech recognition
K Takagi; R Oguro; K Ozeki
IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG, E85D巻, 7号, 掲載ページ 1130-1137, 出版日 2002年07月, 査読付, Experiments were conducted to examine an approach from language modeling side to improving noisy speech recognition performance. By adopting appropriate word strings as new units of processing, speech recognition performance was improved by acoustic effects as well as by test-set perplexity reduction. Three kinds of word string language models were evaluated, whose additional lexical entries were selected based on combinations of part of speech information, word length, occurrence frequency, and log likelihood ratio of the hypotheses about the bigram frequency. All of the three word string models reduced errors in broadcast news speech recognition, and also lowered test-set perplexity. The word string model based on log likelihood ratio exhibited the best improvement for noisy speech recognition, by which deletion errors were reduced by 26%. substitution errors by 9.3%; and insertion errors by 13%, in the experiments using the speaker-dependent, noise-adapted triphone. Effectiveness of word string models on error reduction was more prominent for noisy speech than for studio-clean speech.
研究論文(学術雑誌), 英語 - Recovery of Japanese dependency structure using prosodic information
Kazuhiko Ozeki; Kazuyuki Takagi; Hajime Kubota
Proceedings for 2001 2nd Plenary Meeting and Symposium on Prosody and Speech Processing, 掲載ページ 169-174, 出版日 2002年01月
研究論文(国際会議プロシーディングス), 英語 - 日本語読み上げ文の係り受け解析における韻律的特徴量の有効性
廣瀬幸由; 尾関和彦; 高木一幸
自然言語処理, 一般社団法人 言語処理学会, 8巻, 4号, 掲載ページ 71-89, 出版日 2001年10月, 査読付, 韻律には発話が文字化されると失われてしまう情報が含まれているが, そのような情報は発話文の構文解析に有効である可能性がある. 我々のグループでは, 以前の研究で12種類の韻律的特徴量を取り上げ, それらと係り受け距離の関係を表現する統計モデルを構成した. そして, そのモデルを組み込んだ係り受け解析器を用い, 韻律情報が実際に読み上げ文の係り受け解析に有効であることを示した. 本研究では新たな特徴量を加えて24種類の韻律的特徴量を取り上げ, 有効な特徴量を広い範囲で探索した. また, 統計モデルを特徴量の現実の分布によりよく当てはまるように修正した. その結果, ATR503文データベースを用いたオープン実験において, 韻律的特徴量を用いることにより, 係り受け解析の文正解率が21.2%向上した. これは, 我々のグループの以前の実験における向上率より4.0ポイント高い. 特徴量の中でポーズ長はクローズド実験においてもオープン実験においても非常に有効であったが, これと併用したときの, ピッチやパワー, 話速等に関連する他の特徴量の有効性はオープン実験においてはあまり明らかでなかった.
研究論文(学術雑誌), 日本語 - The use of prosody in Japanese dependency structure analysis
Kazuhiko Ozeki; Kazuyuki Takagi; Hajime Kubota
Proceedings of ISCA Tutorial and Research Workshop on Speech Recognition and Understanding, Red Bank, 掲載ページ 123-126, 出版日 2001年10月
研究論文(国際会議プロシーディングス), 英語 - Pause information for dependency analysis of read Japanese sentences
Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of EUROSPEECH 2001 (Proceedings of 7th European Conference on Speech Communication and Technology), 2巻, 掲載ページ 1041-1044, 出版日 2001年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - A multi-SNR subband model for speaker identification under noisy environments
Ken'ichi Yoshida; Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of EUROSPEECH 2001 (Proceedings of 7th European Conference on Speech Communication and Technology), 4巻, 掲載ページ 2849-2852, 出版日 2001年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - 文節重要度と係り受け整合度に基づく日本語文簡約アルゴリズム
小黒玲; 尾関和彦; 張玉潔; 高木一幸
自然言語処理, 8巻, 3号, 掲載ページ 3-18, 出版日 2001年07月, 査読付
日本語 - Effects of word string language models on noisy broadcast news speech recognition
Kazuyuki Takagi; Rei Oguro; Kazuhiko Ozeki
Proceedings of ICSLP2000 (International Conference on Spoken Language Processing), 1巻, 掲載ページ 154-157, 出版日 2000年10月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Effectiveness of prosodic features in syntactic analysis of read Japanese sentences
Yukiyoshi Hirose; Kazuhiko Ozeki; Kazuyuki Takagi
Proceedings of ICSLP2000 (International Conference on Spoken Language Processing), 1巻, 掲載ページ 215-218, 出版日 2000年10月, 査読付
研究論文(国際会議プロシーディングス), 英語 - An efficient algorithm for Japanese sentence compaction based on phrase importance and inter-phrase dependency
R Oguro; K Ozeki; YJ Zhang; K Takagi
TEXT, SPEECH AND DIALOGUE, PROCEEDINGS, SPRINGER-VERLAG BERLIN, 1902巻, 掲載ページ 103-108, 出版日 2000年, 査読付, This paper describes an efficient algorithm for Japanese sentence compaction, First, a measure of grammatical goodness of phrase sequences is defined on the basis of a Japanese dependency grammar. Also a measure of topical importance of phrase sequences is given. Then the problem of sentence compaction is formulated as an optimisation problem of selecting a subsequence of phrases from the original sentence that maximises the sum of the grammatical goodness and the topical importance. A recurrence equation is derived by using the principle of dynamic programming, which is then translated into an algorithm to solve the problem. The algorithm is of polynomial-time with respect to the original sentence length. Finally, an example of sentence compaction is presented.
研究論文(学術雑誌), 英語 - Speaker indentification using subband HMMs
Kenichi Yoshida; Kazuyuki Takagi; Kazuhiko Ozeki
Proceedings of EUROSPEECH 99 (Proceedings of 6th European Conference on Speech Communication and Technology), 2巻, 掲載ページ 1019-1022, 出版日 1999年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Performance comparison of recognition systems: a Bayesian approach
Kazuhiko Ozeki; Yoshiyasu Ishigami; Kazuyuki Takagi
The Journal of the Acoustical Society of Japan (E), Acoustical Society of Japan, 20巻, 3号, 掲載ページ 171-179, 出版日 1999年05月, 査読付, This paper describes a Bayesian approach to performance comparison of recognition systems. Unlike a conventional statistical test, this method makes no decision whether there is a significant difference between the true recognition rate of System A and that of System B. Instead, it gives the probability of the event that the true recognition rate of A is higher than that of B given their recognition results. The probability is referred to as the superiority of A to B. This is similar to a numerical weather forecast, in which what is predicted is the probability of having a certain amount of rain, not a prospect of being sunny or rainy. The superiority is exemplified in various cases for the manner of inputting test data and observing the recognition results, and then its sensitivity for the difference between the respective sample recognition rates of A and B is investigated. All the results support that this method has natural properties which conform to our intuition. The relationship between the superiority in this method and the level of significance in statistical tests is also discussed.
研究論文(学術雑誌), 英語 - Performance evaluation of word phrase and noun category language models for broadcast news speech recognition
Kazuyuki Takagi; Rei Oguro; Kenji Hashimoto; Kazuhiko Ozeki
Proceeding of the 5th International Conference on Spoken Language Processing, 6巻, 掲載ページ 2507-2510, 出版日 1998年12月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Segmentation of spoken dialogue by interjections, disfluent utterances and pauses
K Takagi; S Itahashi
ICSLP 96 - FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, PROCEEDINGS, VOLS 1-4, I E E E, 2巻, 掲載ページ 697-700, 出版日 1996年, 査読付, This paper attempts to segment spontaneous speech of human-to-human spoken dialogues into a relatively large unit of speech, that is, a sub-phrasal unit segmented by interjections, disfluent utterances and pauses. A spontaneous speech model incorporating prosody was developed, in which three kinds of speech segment models and the transition probabilities among them were specified. The segmentation experiments showed that 87.6 % of the segment boundaries were located correctly within 50 msec, 81.2 % within 30 msec, which showed 10.1 point increase in performance comparing with the initial model without prosodic information.
研究論文(国際会議プロシーディングス), 英語 - Effectiveness of pause information in the content word detection of spoken dialogues
Kazuyuki Takagi; Shuichi Itahashi
Proceedings of EUROSPEECH '95, 1巻, 掲載ページ 19-22, 出版日 1995年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - TEMPORAL CHARACTERISTICS OF UTTERANCE UNITS AND TOPIC STRUCTURE OF SPOKEN DIALOGS
K TAKAGI; S ITAHASHI
IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, IEICE-INST ELECTRON INFO COMMUN ENG, E78D巻, 3号, 掲載ページ 269-276, 出版日 1995年03月, 査読付, There are various difficulties in processing spoken dialogs because of acoustic, phonetic, and grammatical ill-formedness, and because of interactions among participants. This paper describes temporal characteristics of utterances in human-human task-oriented dialogs and interactions between the participants, analyzed in relation to the topic structure of the dialog. We analyzed 12 task-oriented simulated dialogs of ASJ continuous speech corpus conducted by 13 different participants whose total length being 66 minutes. Speech data was segmented into utterance units each of which is a speech interval segmented by pauses. There were 3876 utterance units, and 38.9% of them were interjections, fillers, false starts and chiming utterances. Each dialog consisted of 6 to 15 topic segments in each of which participants exchange specific information of the task. Eighty-six out of 119 new topic segments started with interjectory utterances and filled pauses. It was found that the durations of turn-taking interjections and fillers including the preceding silent pause were significantly longer in topic boundaries than the other positions. The results indicate that the duration of interjection words and filled pauses is a sign of a topic shift in spoken dialogs. In natural conversations, participants' speaking modes change dynamically as the conversation develops. Response time of both client and agent role speakers became shorter as the dialog proceeded. This indicates that interactions between the participants become active as the dialog proceeds. Speech rate was also affected by the dialog structure. initiating and terminating parts where most utterances are of fixed expressions, and slow in topic segments of the body part of the dialog where both client and agent participants stalled to speak in order to retrieve task knowledge. The results can be utilized in man-machine dialog systems, e.g., in order to detect topic shifts of a dialog, and to make the speech interface of dialog systems more natural to a human participant.
研究論文(学術雑誌), 英語 - Annotating Illocutionary Force Types and Phonological Features into a Spontaneous Dialogue Corpus : An Experimental Study
Kazuyo Tanaka; Kanae Kinibuchi; Naoko Houra; Kazuyuki Takagi; Shuichi Itahashi; Katsunobu Itoh; Satoru Hayamizu
Proceedings of ICSLP94 (International Conference on Spoken Language Processing), 3巻, 掲載ページ 1831-1834, 出版日 1994年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Prosodic pattern of utterance units in Japanese spoken dialogs
Kazuyuki Takagi; Shuichi Itahashi
Proceedings of ICSLP'94 (The 3rd International Conference on Spoken Language Processing, 1巻, 掲載ページ 143-146, 出版日 1994年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Characteristics of utterance units and temporal structure of spoken dialog
Kazuyuki Takagi; Naoko Houra; Shuichi Itahashi
Proceedings of ISSD93 (International Symposium on Spoken Dialogue), 掲載ページ 287-290, 出版日 1993年11月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Automatic formant frequency extraction by moment calculation of speech spectrum
Shuichi Itahashi; Kazuyuki Takagi
Proceedings of EUROSPEECH'89, 2巻, 掲載ページ 207-210, 出版日 1989年09月, 査読付
研究論文(国際会議プロシーディングス), 英語 - Formant frequency estimation by moment calculation of speech spectrum
Kazuyuki Takagi; Shuichi Itahashi
Proceedings of 2nd Joint Meeting of ASA and ASJ, Journal of the Acoustical Society of America, 84-J6巻, 掲載ページ 22, 出版日 1988年11月, 査読付
研究論文(国際会議プロシーディングス), 英語
MISC
- 調音クラスの事後確率に基づく言語識別の検討
平田 拓海; 高木 一幸
言語識別とは,入力音声に対しその言語が何語であるかを自動的に判別する技術である.言語識別では言語を区別する特徴の抽出が重要である.本研究では調音特徴に基づく調音クラスの事後確率を言語識別に用いる.音声のスペクトル特徴に対する各調音クラスの事後確率を GMM を用いて求め,これらを束ねた事後確率ベクトルの時系列をベクトル量子化し,VQ 符号時系列を得る.言語毎の VQ 符号時系列の n-gram を言語識別用のモデルとする.識別時には,n-gram モデルの入力音声の調音クラス事後確率の VQ 符号時系列に対する尤度が最も高い言語を識別結果とする;提案手法を用いた日英 2 言語識別実験では 97.1%の識別率を得た.Extraction of features from input speech that are effective in distinguishing the language is a key issue for language identification system. We use posterior probabilities on articulatory classes as features for language identification. Posterior probability on each articulatory class is calculated by GMMs. Each GMM is trained with MFCC data of speech segments labeled with the phonemes or acoustic events that correspond to the articulatory class. The posterior probability values of the articulatory classes are concatenated to form an articulatory-feature- class-posterior-probability (AFCPP) vector at each analysis frame. These vectors are then quantized to yield VQ code sequence, which is used as the training data for a n-gram language model. Language identification is performed by selecting the n-gram model that yields the highest likelihood for the AFCPP vector sequence of the input utterance. Language identification experiment between Japanese and English by the present method showed identification rate of 97.1%., 一般社団法人情報処理学会, 出版日 2014年12月08日, 研究報告音声言語情報処理(SLP), 2014巻, 28号, 掲載ページ 1-5, 日本語, 110009850972, AN10442647 - 非負値行列因子分解を用いた音素配列情報の抽出による言語識別の検討 (音声)
緒形 剛; 高木 一幸
言語識別とは,発話内容に係わらず入力音声の言語を識別する技術である.本研究では音素配列を特徴量として言語識別に利用する.音素配列を得るためには,発話データから音素の出現情報の抽出を行う必要がある.その抽出方法として,テンプレートを用いた非負値行列因子分解を用いる.抽出した音素の出現情報を用いて配列パターンをモデル化するためにn-gramを使用する.n-gramのパラメータを特徴ベクトルとしてサポートベクタマシーンで言語識別を行う.提案手法を用いて,日本語と英語で言語識別を識別を行った.その結果,テンプレート数とn-gramの次数によって識別性能が変化することが確認された.テンプレート数が13, n-gramの次数が3のとき98.6%の識別率を得た., 一般社団法人電子情報通信学会, 出版日 2011年12月19日, 電子情報通信学会技術研究報告 : 信学技報, 111巻, 365号, 掲載ページ 45-48, 日本語, 0913-5685, 110009466803, AN10013221
講演・口頭発表等
- 管路内水中音響データによる漏水音の自動検出―現地流下試験データの検討―
髙木一幸; 石川佳佑; 羽田陽一; 浅野勇; 農; 森充広; 農研; 川上昭彦; 川邉翔平
ポスター発表, 日本語, 日本音響学会2019年春季研究発表会, 一般財団法人日本音響学会, 電気通信大学, 農業水利施設のパイプラインの漏水診断を目的として現地の流下試験で収録した音響データについて、観測された各種音響イベント・漏水音の特性とその自動検出に関し、実験用水路のデータと比較して考察する。
発表日 2019年03月06日 - 管路内水中音響データによる漏水音の自動検出―部分帯域音響モデルによる検討―
髙木一幸; 石川佳佑; 羽田陽一; 浅野勇; 農; 森充広; 農研; 川上昭彦; 川邉翔平
ポスター発表, 日本語, 日本音響学会2018年秋季研究発表会, 一般財団法人日本音響学会, 大分大学旦野原キャンパス, 農業水利施設のパイプラインの漏水診断を目的として、実験用水路で 収録した音響データから
機械学習した漏水音と非漏水音の複数帯域音響モデルにより漏水音を自動検知することを試みた。
発表日 2018年09月12日 - 管路内水中音響データによる漏水音の自動検出
髙木一幸; 羽田陽一; 浅野勇; 農; 森充広; 農; 川上昭彦; 川邉翔平
ポスター発表, 日本語, 日本音響学会2018年春季研究発表会, 一般財団法人日本音響学会, 日本工業大学宮代キャンパス
発表日 2018年03月13日 - 調音クラス事後確率による言語識別における連続型言語モデルの検討
石川佳佑; 髙木一幸
ポスター発表, 日本語, 日本音響学会2018年春季研究発表会, 一般財団法人日本音響学会, 日本工業大学宮代キャンパス, 国内会議
発表日 2018年03月13日 - 調音クラス事後確率を用いた言語識別 -線形判別分析を用いた特徴量抽出の改良-
石川佳佑; 高木一幸
ポスター発表, 日本語, 日本音響学会2017年秋季研究発表会, 日本音響学会, 愛媛大学, 本研究室は,調音に着目した言語識別法を提案した.先行研究では,調音クラス抽出における認識率が約60から90%であった.そこで,LDA分析を用いることで,調音クラス抽出の精度をあげ,言語識別率の向上を目的とした., 国内会議
発表日 2017年09月26日 - 調音クラスの事後確率に基づいた言語識別での局所特徴及び群遅延スペクトルの利用
小泉理紗; 高木一幸
ポスター発表, 日本語, 日本音響学会2016年春季研究発表会, 日本音響学会, 桐蔭横浜大学, 現在の音声処理技術では音声の振幅スペクトルの周波数方向の変化や,音声波形の位相情報は考慮していない.本研究では,局所特徴,群遅延スペクトル,MFCCを特徴量として学習した特定話者の音素HMMを用いて,特定話者,同性異話者,異性話者の条件で音素認識性能の評価を行った.その結果,局所特徴を用いた場合に最も高い認識率が得られたが,各特徴量に他の特徴量よりも精度良く認識できる音素があった.各特徴量の音素HMMの尤度を結合した尤度に基づいて行った音素認識では,各HMMを単独で用いた場合よりも高い認識率が得られた.このことから,局所特徴,群遅延スペクトル,MFCCを適切に組み合わせて用いることにより,話者性による認識率の低下を抑え,音声認識の性能を向上させられる可能性があることがわかった., 国内会議
発表日 2016年03月11日 - 調音クラスの事後確率に基づく言語識別の検討〜 言語共通の調音特徴抽出器及びVQ符号長について 〜
平田拓海; 高木一幸
ポスター発表, 日本語, 電子情報通信学会技術報告,2015年3月度音声研究会, 電子情報通信学会、日本音響学会, 南の美ら花ホテルミヤヒラ, 調音特徴に基づく調音クラスを設定し,音声のスペクトル特徴に対する各調音クラスの事後確率を言語識別に用いる.音声のスペクトル特徴時系列に対する各調音クラスの対数事後確率をGMMに基づく調音特徴抽出器を用いて求め,各調音クラスの対数事後確率値を束ね多次元のベクトルを得る.このベクトルに対しベクトル量子化を行うことでVQ符号時系列を得る.VQ符号時系列のN-gramを識別用言語モデルとする.提案法を用いた日英2言語識別実験の結果,VQ符号長によって識別性能が変化することが確認された.言語個別の調音特徴抽出器を用いる方法はVQ符号長64のとき識別率98.1%となり,言語共通の調音特徴抽出器を用いる方法はVQ符号長256のとき識別率95.6%となった., 国内会議
発表日 2015年03月03日 - 局所特徴,群遅延スペクトル,MFCC及びこれらの組み合わせの音素認識における有効性の検討
小泉理紗; 高木一幸
ポスター発表, 日本語, 電子情報通信学会技術報告,2015年3月度音声研究会, 電子情報通信学会、日本音響学会, 南の美ら花ホテルミヤヒラ, 現在の音声処理技術では音声の振幅スペクトルの周波数方向の変化や,音声波形の位相情報は考慮していない.本研究では,局所特徴,群遅延スペクトル,MFCCを特徴量として学習した特定話者の音素HMMを用いて,特定話者,同性異話者,異性話者の条件で音素認識性能の評価を行った.その結果,局所特徴を用いた場合に最も高い認識率が得られたが,各特徴量に他の特徴量よりも精度良く認識できる音素があった.各特徴量の音素HMMの尤度を結合した尤度に基づいて行った音素認識では,各HMMを単独で用いた場合よりも高い認識率が得られた.このことから,局所特徴,群遅延スペクトル,MFCCを適切に組み合わせて用いることにより,話者性による認識率の低下を抑え,音声認識の性能を向上させられる可能性があることがわかった., 国内会議
発表日 2015年03月03日 - 調音クラスの事後確率に基づく言語識別の検討
平田拓海; 高木一幸
ポスター発表, 日本語, 電子情報通信学会技術報告,第16回音声言語シンポジウム, 電子情報通信学会、日本音響学会, 東京工業大学すずかけ台キャンパス, 言語識別とは,入力音声に対しその言語が何語であるかを自動的に判別する技術である.言語識別では言語を区別する特徴の抽出が重要である.本研究では調音特徴に基づく調音クラスの事後確率を言語識別に用いる.音声のスペクトル特徴に対する各調音クラスの事後確率をGMMを用いて求め,これらを束ねた事後確率ベクトルの時系列をベクトル量子化し,VQ符号時系列を得る.言語毎のVQ符号時系列のn-gramを言語識別用のモデルとする.識別時には,n-gramモデルの入力音声の調音クラス事後確率のVQ符号時系列に対する尤度が最も高い言語を識別結果とする.提案手法を用いた日英2言語識別実験では97.1%の識別率を得た., 国内会議
発表日 2014年12月16日 - 言語共通のスペクトルテンプレートによる非負値行列因子分解を用いた日英2言語識別の検討
石井貴大; 緒形剛; 高木一幸
口頭発表(一般), 日本語, 日本音響学会2013年秋季研究発表会講演論文集,日本音響学会2013年秋季研究発表会
発表日 2013年09月 - スパースネス及び連続性制約付き非負値行列因子分解による特徴分析を用いた言語識別の検討
緒形剛; 高木一幸
口頭発表(一般), 日本語, 日本音響学会2013年春季研究発表会講演論文集,日本音響学会2013年春季研究発表会
発表日 2013年03月 - 非負値行列因子分解を利用した音素配列情報の抽出による言語識別の検討
緒形剛; 高木一幸
口頭発表(一般), 日本語, 日本音響学会2012年春季研究発表会講演論文集,日本音響学会2012年春季研究発表会
発表日 2012年03月 - 非負値行列因子分解を用いた音素配列情報の抽出による言語識別の検討
緒形剛; 高木一幸
口頭発表(一般), 日本語, 電子情報通信学会技術報告,第13回音声言語シンポジウム
発表日 2011年12月 - 韻律情報を用いた辞書分割法による雑音環境下での単語認識
小倉秀隆; 高木一幸; 吉田利信
口頭発表(一般), 日本語, 日本音響学会講演論文集,日本音響学会2010年春季研究発表会
発表日 2010年03月 - マルチバンド・マルチSNR・マルチパス単語音声認識における帯域結合重みに関する検討
土屋裕一; 高木一幸; 吉田利信
口頭発表(一般), 日本語, 日本音響学会講演論文集,日本音響学会2009年春季研究発表会
発表日 2009年03月 - マルチSNR・マルチバンド法によるGMMを用いた言語識別
高木一幸; 加来俊輔
口頭発表(一般), 日本語, 日本音響学会講演論文集,日本音響学会2009年春季研究発表会
発表日 2009年03月 - 韻律情報を用いた話し言葉コーパスの係り受け解析の試み
高木 一幸; 尾関 和彦
口頭発表(一般), 日本語, 日本音響学会,日本音響学会2006年春季研究発表会
発表日 2006年03月 - 概念距離と係り受けを利用した要約文の文節対応付け
福冨諭; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 言語処理学会,言語処理学会第12回年次大会
発表日 2006年03月 - 係り受け経路長を利用した新聞記事の自動簡約
山形究; 福冨諭; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 言語処理学会,言語処理学会第12回年次大会
発表日 2006年03月 - マルチSNR・マルチバンド音声認識のためのHMM学習用雑音に関する検討
坪井 豊; 高木 一幸; 尾関 和彦
口頭発表(一般), 日本語, 日本音響学会,日本音響学会2005年秋季研究発表会
発表日 2005年09月 - 参照再構成法を用いた時間周波数マスクによる音声と音楽の分離
井原健紘; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 電子情報通信学会総合大会
発表日 2005年03月 - 概念距離と係り受けを利用した要約文の文節対応付け
福冨諭; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 情報処理学会第67回全国大会講演論文集
発表日 2005年03月 - マルチSNR・マルチバンド法を用いた話者識別における様々な学習雑音に対する性能評価
吉田健一; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2005年03月 - 話し言葉コーパスの係り受け解析を目的とした韻律の分析
高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2005年03月 - 係り受け解析における韻律情報有効性の多数話者による評価
高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2004年03月 - 着目文節の前後のポーズ情報を利用した係り受け解析
呂美蓉; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2004年03月 - 1/f雑音を用いたマルチSNR部分帯域法による雑音下話者識別
吉田健一; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2004年03月 - マルチパス方式を用いた雑音環境下での単語音声認識―アクセント情報の利用―
小野寺栄; 吉田健一; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2004年03月 - 雑音下話者識別におけるマルチSNR部分帯域法とスペクトルサブトラクション法の性能比較
吉田健一; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2003年09月 - マルチSNR部分帯域モデルを用いた話者識別システムの耐雑音性能改善
吉田健一; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2003年03月 - 日本語読み上げ文の係り受け解析における複数ポーズ情報の利用
呂美蓉; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2003年03月 - 韻律情報を用いた日本語読み上げ文の係り受け解析におけるニューラルネットワークの利用
沖本真美子; 小川善生; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2003年03月 - サポートベクターマシンによる日本語長文の短文分割
根岸知弘; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 言語処理学会第9回年次大会発表論文集
発表日 2003年03月 - 係り受け整合度と文節重要度を用いた自動簡約文の主観評価
諸岡祐平; 小黒玲; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 言語処理学会第9回年次大会発表論文集
発表日 2003年03月 - The use of prosody for disambiguating Japanese dependency structure
Kazuyuki Takagi; Mamiko Okimoto; Yoshio Ogawa; Kazuhiko Ozeki
その他, 英語, Proceedings for 2002 2nd Plenary Meeting and Symposium on Prosody and Speech Processing
発表日 2003年02月 - 文節間係り受け整合度と文節重要度を用いて自動簡約した日本語文の主観評価
諸岡祐平; 小黒玲; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 情報処理学会研究報告自然言語処理
発表日 2003年01月 - 韻律を利用した係り受け解析におけるポーズ・基本周波数情報の結合法の検討
久保田新; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 2002年03月 - 係り受け解析におけるポーズ・ピッチの利用法の検討
久保田新; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集 I, 2-2-8
発表日 2001年10月 - 文節重要度と係り受け整合度に基づいた文簡約実験
小黒玲; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 電子情報通信学会技術研究報告, NLC 2001-3
発表日 2001年05月 - 雑音重畳音声の認識における連語言語モデルの比較
高木一幸; 小黒玲; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集Ⅰ,2-33-18
発表日 2001年03月 - フレーム単位で最適SNR部分帯域モデルを選択する話者認識
吉田健一; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集Ⅰ,3-P-8
発表日 2001年03月 - 係り受け解析における韻律情報の利用
高木一幸; 尾関和彦
その他, 日本語, 文部省科学研究費補助金特定領域研究(B)「韻律に着目した音声言語処理の高度化」研究成果報告書(平成12年度)(領域代表者 広瀬啓吉)
発表日 2001年01月 - マルチSNR部分帯域GMMを用いた雑音環境下での話者認識
吉田健一; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 電子情報通信学会技術研究報告,DSP2000-97,SP2000-63
発表日 2000年09月 - 文節重要度と係り受け整合度に基づく文要約アルゴリズム
小黒玲; 尾関和彦; 張玉潔; 高木一幸
口頭発表(一般), 日本語, 言語処理学会第6回年次大会発表論文集
発表日 2000年03月 - 種々の音響条件におけるニュース音声認識についての考察
高木一幸; 小黒玲; 林真由美; 八木澄江; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集Ⅰ,1-Q-10
発表日 2000年03月 - 複数の単語bigramモデルを線形結合した言語モデルの検討
小黒玲; 高木一幸; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集Ⅰ,3-Q-20
発表日 1999年10月 - 単語クラスタリングに基づく言語モデルを用いたニュース音声認識
橋本顕示; 高木一幸; 小黒 玲; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集I,1-1-26
発表日 1999年03月 - ニュース音声認識のための言語モデルの比較
小黒玲; 高木一幸; 橋本顕示; 尾関和彦
口頭発表(一般), 日本語, 日本音響学会講演論文集,1-6-22
発表日 1998年03月 - ニュース音声認識における言語モデルの検討
高木一幸; 小黒玲; 橋本顕示; 尾関和彦
口頭発表(一般), 日本語, 電子情報通信学会技術研究報告(SP)
発表日 1997年12月 - 対話音声の発話単位への自動区分の検討
高木一幸; 板橋秀一
口頭発表(一般), 日本語, 情報処理学会研究報告
発表日 1997年02月 - 間投詞・非流暢発話と休止による対話音声区分化の検討
高木一幸; 板橋秀一
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 1996年03月 - 対話音声中の自立語の検出におけるポーズ情報導入の効果
高木一幸; 板橋秀一
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 1995年03月 - 対話音声コーパスの発話文タイプ・形態素情報の付与
田中和世; 杵淵香奈恵; 保浦直子; 高木一幸; 小栗直樹; 板橋秀一; 伊藤克亘; 速水悟
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 1994年03月 - 音声対話における発話系列の韻律パタン
高木一幸; 板橋秀一
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 1994年03月 - 対話における話題展開と発話単位の性質
高木一幸; 保浦直子; 板橋秀一
口頭発表(一般), 日本語, Spontaneous Speechの分析・理解・生成
発表日 1993年07月 - 対話音声中の発話単位の時間関係
高木一幸; 保浦直子; 板橋秀一
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 1993年03月 - 模擬対話音声における各種区分の持続時間の性質
高木一幸; 保浦直子; 板橋秀一
口頭発表(一般), 日本語, 電子情報通信学会技術研究報告
発表日 1992年12月 - 対話音声中の各種音形・韻律単位の性質
高木一幸; 板橋秀一
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 1992年10月 - スペクトルのモーメント計算によるホルマント周波数推定
高木一幸; 板橋秀一
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 1989年03月 - スペクトルモーメントを利用した音声のホルマント周波数推定法
高木一幸; 板橋秀一
口頭発表(一般), 日本語, 電子情報通信学会技術研究報告
発表日 1988年10月 - スペクトルモーメントによる母音ホルマント周波数の推定
高木一幸; 板橋秀一
口頭発表(一般), 日本語, 日本音響学会講演論文集
発表日 1988年03月
担当経験のある科目_授業
- メディア情報学実験(音声認識)
電気通信大学 - マルチメディア処理
The University of Electro-Communications - 情報領域演習第二C演習(アセンブラプログラミンング)
電気通信大学 - マルチメディア処理
電気通信大学 - マルチメディア処理
電気通信大学 - メディア情報学実験(音声認識)
The University of Electro-Communications - メディア情報学実験(音声認識)
電気通信大学 - 情報領域演習第二C演習
電気通信大学 - 情報領域演習第二C演習
電気通信大学 - 情報領域演習第二C演習(アセンブラプログラミンング)
The University of Electro-Communications - 情報領域演習第二C演習(アセンブラプログラミンング)
電気通信大学 - 音声音響情報処理
電気通信大学 - 大学院輪講第一(II)
The University of Electro-Communications - メディア情報学実験
The University of Electro-Communications - 大学院輪講第一(I)
電気通信大学 - 大学院輪講第一(II)
電気通信大学 - 大学院輪講第一(II)
電気通信大学 - 大学院輪講第一(I)
The University of Electro-Communications - 大学院輪講第一(I)
電気通信大学 - メディア情報学実験
電気通信大学 - Media Science and Engineering Laboratory
The University of Electro-Communications - 音声音響情報処理
The University of Electro-Communications - 音声音響情報処理
電気通信大学 - Physics Laboratory
The University of Electro-Communications - 基礎科学実験A
電気通信大学 - メディア情報学実験
電気通信大学
共同研究・競争的資金等の研究課題
- 水中音波生成・解析を利用した漏水探索ロボットの位置特定および漏水データの特性分析に関する研究
田野俊一
(研)科学技術振興機構「SIP」, 研究助成, 模擬実験用管路で収集したデータを検聴してイベントのラベル付けを行い、パターン学習および評価用のデータを整備する。 -上記のデータに基づき、漏水箇所の音響的特徴を解析し、パターン認識処理に適した信号処理方法の設計を行う。 -適切な条件で信号処理された音響的特徴を基に統計的音声認識技術を応用した機械学習を行い、漏水箇所とそれ以外の箇所の自動検出の可能性を検討する。
研究期間 2017年04月01日 - 2019年03月31日 - 重要文抽出と文簡約を併用する圧縮度の高い新聞記事自動要約
尾関 和彦; 高木 一幸
日本学術振興会, 科学研究費助成事業, 電気通信大学, 基盤研究(C), 1.本研究では,学習データとして原文と人手による簡約文が対になった新聞記事データベースを使用している.このデータベースを用いると,人が行なう簡約の傾向に関する情報を得ることができ,自動簡約に役立っ.このような情報抽出を有効に行なうためには,原文と簡約文の間の文節対応付けを行なう必要がある.そのため,概念距離と係り受けを利用した対応付けアルゴリズムを開発した. 2.当該研究期間以前は,原文の集合から係り受け距離の分布を求め,それに基づいて係り受け整合度を定めていた.しかし,この方法では原文とそれに対応する簡約文の関係が反映されていない。この問題を解決するため,まず,原文と簡約文の間の文節対応付けを行なった.そして,原文においてある係り受け経路長を持つ文節対が簡約文において係り受け距離1で現れる相対頻度を求め,それに基づいて係り受け整合度を定めた.これを用いて簡約文を生成し,主観評価実験を行なったところ,重要情報の保持,構文的自然性,総合評価のいずれにおいても改善が認められた. 3.本研究で採用している文節抽出型文簡約においては,原文中で係り受け関係になかった文節対が簡約文では係り受け関係を持っようになり,文の自然性が損なわれることがある.その場合でも係り文節の末尾を修正することにより,自然性を向上させることができる.ここでは,ルールベースと統計ベースの2つの方法により文節末を修正する方法を提案し,主観評価実験によりその有効性を確かめた. 4.文節重要度と係り受け整合度はヒューリスティックな方法で定めていたが,それを確率論的な枠組みで定式化し直して簡約文生成を行なった.主観評価実験の結果,この方法とヒューリスティックな方法はほぼ同等な性能を持つことが明らかになった., 16500077
研究期間 2004年 - 2006年 - 音声認識・理解における韻律情報の利用
尾関 和彦; 峯松 信明; 山下 洋一; 吉田 利信; 高木 一幸; 荒木 雅弘; 新美 康永
日本学術振興会, 科学研究費助成事業, 電気通信大学, 特定領域研究, 1.音声知覚における韻律の役割解明と音声認識への応用 (1)句頭アクセント核の検出とそれに基づく仮説探索制御を実装した.単語アクセントは前後の環境により変化するが,句頭に核が存在した場合は,その単語は必ず一型となる.この規則の基づき,句頭のF0情報よりその語が一型となる事後確率を求め,韻律スコアを導入した.連続音声認識システムJuliusに本モジュールを実装し,大語彙連続音声認識におけるその有効性を示した. (2)音声の時間構造を,局所話速の分析を中心に,文内の文節継続長を決定する統計モデル,文節内のモーラ継続長制御モデル,モーラ内での子音継続時間長制御モデルの3階層でモデル化した.また,それぞれのモデルについて時間構造の知覚実験を行い,時間的制約について検討した. 2.発話の構文・意味解析における韻律情報の利用 (1)これまで利用した着目文節の直後のポーズと着目文節の直後の文節の直後のポーズに加えて,着目文節の直前のポーズを利用することにより,係り受け解析の精度が向上することを確認した.また,これらのポーズ情報にF0情報を加えることにより,さらなる解析精度の向上が得られた. (2)多数の話者による音声データを用いて不特定話者条件の係り受け解析実験を行った結果,ポーズ長とF0特徴量のモデルは従来より簡単なものでよいこと,ポーズ長は平均音節継続長で正規化した方が良いことなどがわかった.また,大量のコーパスを用いて評価文に対する被覆率が高い係り受け規則を新たに作成した. 3.音韻情報と韻律情報を統合した音声認識・理解システム ディクテーションシステムにおける入力補完候補の絞込みに,アクセント情報を利用する手法を開発した.また,アクセント情報の認識・ディクテーション・入力補完機能を統合した予測型音声入力システムを実装し,アクセント情報利用の有効性を検証した. 4.韻律的特徴を用いた講演音声の自動要約 重要文抽出によって講演音声の要約を自動生成するために,文単位と文重要度を韻律情報を利用して決定する手法について検討した.ポーズで区切られた発話単位境界に対し,文境界とすべきかどうかを判断する決定木を学習し94%の分類率を得た.文重要度の決定において,連続音声認識による誤りを含む言語情報奪利用する場合の方が,正しい言語情報を利用する場合よりも,韻律情報の効果が大きいことを示した., 12132203
研究期間 2000年 - 2003年 - 総ペナルティ最小化法による係り受け解析の高度化
尾関 和彦; 高木 一幸
日本学術振興会, 科学研究費助成事業, 電気通信大学, 基盤研究(C), 1.文簡約アルゴリズムの開発 文簡約を、与えられた文から、文節重要度と係り受け整合度の総和が最大になるような部分文節列を選択する問題として定式化し、係り受け解析の技術を応用して効率よく解を求めるアルゴリズムを開発した。 2.係り受け整合度と文節重要度の推定 (1)京都大学コーパス中の約34,000文を用いて2文節間の係り受け整合度の推定を行なった。整合度は係り受け距離の頻度分布に基づいて定めており、それを係り文節と受け文節のクラス毎に計算した。 (2)同コーパス中の200文を人手で簡約し、文節の残存率から文節クラス毎に文節重要度の推定を行なった。 3.簡約文の主観評価 上記のアルゴリズム、係り受け整合度、および文節重要度を用いて自動簡約した文の質に対して主観評価を行なった。評価用の文は、文節重要度の推定に用いたのとは別の200文である。また、簡約文の質を評価するための被験者数は5名である。評価は、(1)総合評価、(2)情報の保持に関する評価、(3)簡約文の文法的自然性に関する評価、の3つについて行なった。また、提案法による簡約を、人手による簡約およびランダム簡約と比較した。その結果、提案法による簡約文の質は、どの簡約率においても、人手による簡約とランダム簡約の中間に位置することが分かった。文法的自然性に関しては、提案法による簡約と人手による簡約の間に差は見られなかった。 4.短文分割 日本語文章には、しばしば長文が現れる。そのような長文は、そのまま係り受け解析することは大変困難であるので、解析がより容易な短文に分割することが望ましい。ここでは、サポートベクターマシンを用いて短文分割点を自動推定するための研究を行なった。短文分割点を定めるのに重要な役割をする文節の属性値をデータとして短文分割実験を行った結果、適合率77%、再現率84%、文正解率72%が得られた。, 12680372
研究期間 2000年 - 2002年 - 総ペナルティ最小化係り受け解析法による音声言語処理
尾関 和彦; 張 玉潔; 高木 一幸
日本学術振興会, 科学研究費助成事業, 電気通信大学, 基盤研究(C), 本研究の成果は,総ペナルティ最小化係り受け解析法に関わる1.理論的基礎,2.文節分割と短文分割,3.韻律情報の利用,4.文簡約手法,に分類することができる.以下,それらの要点を述べる. 1.係り受け解析を「最小コスト分割問題」として捉え,考察した.その結果,コストの設定の仕方によって,種々のアルゴリズムが得られること,また,総ペナルティ最小化法においてはコストの設定を柔軟に行うことができ,各種の数値情報を言語知識として利用するのに適していることなどが明らかになった. 2.係り受け解析においては,まず文を文節単位に分割する必要がある.この問題に対して決定木の手法を利用することにより,比較的少量の学習データで従来法より高い分割精度が得られることが示された.また,係り受け解析の前処理として行われる短文分割においても決定木の利用を図り,短文分割点を推定するための規則が自動学習出来ることを明らかにした. 3.韻律に含まれる係り受け解析に有効な情報を見い出すため,本研究では韻律と係り受け距離の関係を統計的にモデル化し,総ペナルティ最小化法を適用するときの言語知識として用いた.その結果,ポーズは非常に有効な情報であることが明らかになった.アクセントやイントネーションの情報の利用についてはさらに研究を進める必要がある. 4.TV放送のためのオンライン字幕付与などを目的として,文を簡約する効率の良いアルゴリズムを考案した.このアルゴリズムは,文節間の係り受け整合度と文節重要度の和を評価基準として,原文から最適な部分文節列を選択するものである.今後は,文簡約に適した文節重要度や係り受け整合度の定め方について研究するとともに,多くの入力文を用いて簡約文の質の評価を行う必要がある., 09680356
研究期間 1997年 - 1999年