検索詳細｜電気通信大学

中鹿　亘

情報・ネットワーク工学専攻	准教授
Ⅰ類（情報系）	准教授

研究者情報

学位

博士（工学）, 神戸大学

研究キーワード

統計的信号処理

機械学習

音声合成

音声認識

深層学習

声質変換

メディア情報処理

研究分野

情報通信, 知覚情報処理

人文・社会, 認知科学

情報通信, データベース

経歴

2014年10月01日 - 2015年03月31日
神戸大学, 大学院システム情報学研究科, 助教

2011年09月01日 - 2012年08月25日
インサ・リヨン工科大学, LIRIS, CNRS, 客員研究員

学歴

2011年04月01日 - 2014年09月25日
神戸大学, システム情報学研究科, 情報科学専攻

2009年04月01日 - 2011年03月25日
神戸大学, 工学研究科, 情報知能学専攻

2005年04月01日 - 2009年03月25日
神戸大学, 工学部, 情報知能工学科

2005年03月25日
滋賀県立膳所高等学校, 普通科

委員歴

2023年04月 - 現在
運営委員, 電子情報通信学会音声研究会

2023年04月 - 現在
運営委員, 情報処理学会音声言語情報処理

2021年02月 - 現在
Interspeech Technical Program Committee (TPC), ICASSP

2023年04月 - 2025年06月
編集委員会会誌部会委員, 日本音響学会

2021年04月 - 2025年06月
広報・電子化委員会委員, 日本音響学会

2023年04月 - 2025年05月
編集委員会査読委員, 日本音響学会

2021年04月 - 2023年03月
幹事補佐, 音響学会音声コミュニケーション調査研究委員会

2021年04月 - 2023年03月
幹事, 情報処理学会音声言語情報処理

2021年04月 - 2023年03月
幹事補佐, 電子情報通信学会音声研究会

2020年02月 - 2020年03月
Technical Program Committee (TPC), IJCAI-PRICAI 2020

2018年03月15日 - 現在
Technical Program Committee (TPC), Interspeech

2018年02月 - 2018年03月
Technical Program Committee (TPC), ACM International Conference on Multimedia Retrieval (ICMR) 2018

研究活動情報

受賞

受賞日 2024年03月
電子情報通信学会音声研究会
Transformerを用いた脳波信号からの音声復元の検討
音声研究会学生ポスター賞, 水野友暁;岸田拓也;吉村奈津江;中鹿亘

受賞日 2024年03月
日本音響学会
学会活動貢献賞, 中鹿亘

受賞日 2021年06月
電子情報通信学会音声研究会
話者特徴抽出器を加えたFaderNetVCによる未知話者声質変換
音声研究会学生ポスター賞, 井硲巧;岸田拓也;中鹿亘

受賞日 2020年05月
日本音響学会
拡張ボルツマンマシンに基づく音声合成に関する研究
独創研究奨励賞板倉記念受賞
国内学会・会議・シンポジウム等の賞

受賞日 2018年09月
日本音響学会
長・短期記憶構造を持つ拡張ボルツマンマシンの検討
粟屋潔学術奨励賞
国内学会・会議・シンポジウム等の賞

受賞日 2016年05月
情報処理学会
Three-way restricted Boltzmann machineによる音声モデリングに基づく話者・音素の同時認識
音学シンポジウム2016 優秀賞
国内学会・会議・シンポジウム等の賞

受賞日 2014年06月
電子情報通信学会
話者依存型Conditional Restricted Boltzmann Machineによる声質変換
音声研究会研究奨励賞
国内学会・会議・シンポジウム等の賞

論文

Fast and Lightweight Non-Parallel Voice Conversion Based on Free-Energy Minimization of Speaker-Conditional Restricted Boltzmann Machine
Takuya KISHIDA; Toru NAKASHIKA
IEICE Transactions on Information and Systems, Institute of Electronics, Information and Communications Engineers (IEICE), 出版日 2025年, 査読付
研究論文（学術雑誌）
URL
DOI URL

An Investigation on the Speech Recovery from EEG Signals Using Transformer
Tomoaki Mizuno; Takuya Kishida; Natsue Yoshimura; Toru Nakashika
ラスト(シニア)オーサー, 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), IEEE, 掲載ページ 1-6, 出版日 2024年12月03日, 査読付
研究論文（国際会議プロシーディングス）
URL
DOI URL

Gamma-VAE: Speech representation based on VAE assuming gamma distribution for both latent variables and observation
Nanako Imaichi; Toru Nakashika
ラスト(シニア)オーサー, 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), IEEE, 掲載ページ 1-6, 出版日 2024年12月03日, 査読付
研究論文（国際会議プロシーディングス）, 英語
URL
DOI URL

DDPMVC: Non-parallel any-to-many voice conversion using diffusion encoder
Ryuichi Hatakeyama; Kohei Okuda; Toru Nakashika
ラスト(シニア)オーサー, 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), IEEE, 掲載ページ 1-6, 出版日 2024年12月03日, 査読付
研究論文（国際会議プロシーディングス）, 英語
URL
DOI URL

SBERT-based Chord Progression Estimation from Lyrics Trained with Imbalanced Data
Mastuti Puspitasari; Takuya Takahashi; Gen Hori; Shigeki Sagayama; Toru Nakashika
Proceedings of the CMMR 2023, 出版日 2023年11月, 査読付

Controllable Automatic Melody Composition Model across Pitch/Stress-accent Languages
Takuya Takahashi; Shigeki Sagayama; Toru Nakashika
Proceedings of the CMMR 2023, 出版日 2023年11月, 査読付

Gamma Boltzmann Machine for Audio Modeling
Toru Nakashika; Kohei Yatabe
IEEE/ACM Transactions on Audio Speech and Language Processing, 29巻, 掲載ページ 2591-2605, 出版日 2021年, 査読付
研究論文（学術雑誌）
DOI URL

Gamma Boltzmann Machine for Simultaneously Modeling Linear- and Log-amplitude Spectra
Toru Nakashika; Kohei Yatabe
Proceedings of APSIPA Annual Summit and Conference 2020, 掲載ページ 471-476, 出版日 2020年12月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Complex-Valued Variational Autoencoder: A Novel Deep Generative Model for Direct Representation of Complex Spectra
Toru Nakashika
Proceedings of the Interspeech 2020, 掲載ページ 2002-2006, 出版日 2020年10月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Simultaneous Conversion of Speaker Identity and Emotion Based on Multiple-Domain Adaptive RBM
Takuya Kishida; Shin Tsukamoto; Toru Nakashika
Proceedings of the Interspeech 2020, 掲載ページ 3431-3435, 出版日 2020年10月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Many-to-Many Symbolic Multi-track Music Genre Transfer
Michel Pezzat; Hector Perez-Meana; Toru Nakashika; Mariko Nakano
Proceedings of the SoMeT 2020, 掲載ページ 272-281, 出版日 2020年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Speech chain VC: linking linguistic and acoustic levels via latent distinctive features for RBM-based voice conversion
Takuya Kishida; Toru Nakashika
IEICE TRANSACTIONS on Information and Systems, IEICE, E103-D巻, 11号, 掲載ページ 1-11, 出版日 2020年08月06日, 査読付
研究論文（学術雑誌）, 英語
URL
DOI URL

Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition
Yuki Takashima; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
EURASIP Journal on Audio, Speech, and Music Processing, Springer, DOI: 10.1186/s13636-019-0160-1巻, 掲載ページ 1-11, 出版日 2019年08月14日, 査読付
研究論文（学術雑誌）, 英語
DOI URL

Pre-Training of DNN-Based Speech Synthesis Based on Bidirectional Conversion between Text and Speech
Kentaro Sone; Toru Nakashika
IEICE TRANSACTIONS on Information and Systems, IEICE, E102-D巻, 8号, 掲載ページ 1546-1553, 出版日 2019年08月01日, 査読付
研究論文（学術雑誌）, 英語
DOI URL

STFT spectral loss for training a neural speech waveform model
Shinji Takaki; Toru Nakashika; Xin Wang; Junichi Yamagishi
Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019), 掲載ページ 7065-7069, 出版日 2019年05月, 査読付
研究論文（国際会議プロシーディングス）, 英語

複素数の観測データを直接表現する制限ボルツマンマシンの拡張と音声信号処理への応用
中鹿亘
日本音響学会誌, 日本音響学会, 75巻, 3号, 掲載ページ 164-172, 出版日 2019年03月01日, 招待
研究論文（学術雑誌）, 日本語

Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra
Toru Nakashika; Shinji Takaki; Junichi Yamagishi
IEEE/ACM Transactions on Audio, Speech and Language Processing, IEEE/ACM, 27巻, 2号, 掲載ページ 244-254, 出版日 2018年10月22日, 査読付
研究論文（学術雑誌）, 英語
DOI URL

音声スペクトル系列の自己回帰性を考慮した複素RBMの拡張
中鹿亘; 高木信二; 山岸順一
日本音響学会秋季研究発表会, 掲載ページ 1135-1138, 出版日 2018年09月
研究論文（その他学術会議資料等）, 日本語

スペクトル系列誤差に基づくDNN音声波形モデルの学習
高木信二; 中鹿亘; 山岸順一
日本音響学会秋季研究発表会, 掲載ページ 1131-1132, 出版日 2018年09月
研究論文（その他学術会議資料等）, 日本語

DNN-based Speech Synthesis for Small Data Sets Considering Bidirectional Speech-Text Conversion
Kentaro Sone; Toru Nakashika
Proceedings of the Interspeech 2018, 掲載ページ 2519-2523, 出版日 2018年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

LSTBM: A Novel Sequence Representation of Speech Spectra Using Restricted Boltzmann Machine with Long Short-Term Memory
Toru Nakashika
Proceedings of the Interspeech 2018, 掲載ページ 2529-2533, 出版日 2018年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Bidirectional Voice Conversion Based on Joint Training Using Gaussian-Gaussian Deep Relational Model
Kentaro Sone; Shinji Takaki; Toru Nakashika
Proceedings of the Odyssey 2018, 掲載ページ 261-266, 出版日 2018年06月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Parallel-Data-Free Dictionary Learning for Voice Conversion Using Non-Negative Tucker Decomposition
Yuki Takashima; Hajime Yano; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018), IEEE, 掲載ページ 5294-5298, 出版日 2018年04月, 査読付
研究論文（国際会議プロシーディングス）, 英語
URL
DOI URL

非負値タッカー分解によるNMF辞書学習に基づく非パラレル声質変換
高島悠樹; 矢野肇; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2018年春季研究発表会講演論文集, 掲載ページ 211-214, 出版日 2018年03月
研究論文（その他学術会議資料等）, 日本語

リカレント構造を持つ複素制限ボルツマンマシンによる複素スペクトル系列モデリング
中鹿亘; 高木信二; 山岸順一
第120回音声言語情報処理研究会 (SIG-SLP) SLP-21, 出版日 2018年02月
研究論文（研究会，シンポジウム資料等）, 日本語

国際会議Interspeech2017報告
高木信二; 倉田岳人; 郡山知樹; 塩田さやか; 鈴木雅之; 玉森聡; 俵直弘; 中鹿亘; 福田隆; 増村亮; 森勢将雅; 山岸順一; 山本克
第120回音声言語情報処理研究会 (SIG-SLP) SLP-14, 出版日 2018年02月
研究論文（研究会，シンポジウム資料等）, 日本語

Deep relational model: A joint probabilistic model with a hierarchical structure for bidirectional estimation of image and labels
Toru Nakashika
IEICE Transactions on Information and Systems, Institute of Electronics, Information and Communication, Engineers, IEICE, E101D巻, 2号, 掲載ページ 428-436, 出版日 2018年02月01日, 査読付
研究論文（学術雑誌）, 英語
DOI URL

複素RBMを用いた音声スペクトルモデリングの改良と評価
中鹿亘; 高木信二; 山岸順一
日本音響学会秋季研究発表会, 掲載ページ 169-172, 出版日 2017年09月
研究論文（研究会，シンポジウム資料等）, 日本語

Practice Process Analysis Using Score Matching Method Based on OBE-DTW and its Effects on Memorizing Musical Score
Toru Nakashika; Eriko Aiba
Proceedings of International Symposium on Performance Science 2017 (ISPS2017), 掲載ページ 66-67, 出版日 2017年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Speaker-adaptive-trainable Boltzmann machine and its application to non-parallel voice conversion
Toru Nakashika; Yasuhiro Minami
EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, DOI: 10.1186/s13636-017-0112-6巻, 掲載ページ 1-10, 出版日 2017年06月, 査読付
研究論文（学術雑誌）, 英語
DOI URL

適応型Gaussian-Gaussian RBMを用いた構音障害者音声認識
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2017年春季研究発表会講演論文集, 掲載ページ 95-98, 出版日 2017年03月
研究論文（その他学術会議資料等）, 日本語

複素 RBM：制限ボルツマンマシンの複素数拡張と音声信号への応用
中鹿亘; 高木信二; 山岸順一
日本音響学会春季研究発表会, 掲載ページ 219-222, 出版日 2017年03月
研究論文（研究会，シンポジウム資料等）, 日本語

CAB: An energy-based speaker clustering model for rapid adaptation in non-parallel voice conversion
Toru Nakashika
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, International Speech Communication Association, 2017-巻, 掲載ページ 3369-3373, 出版日 2017年, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

Complex-valued restricted Boltzmann machine for direct learning of frequency spectra
Toru Nakashika; Shinji Takaki; Junichi Yamagishi
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, International Speech Communication Association, 2017-巻, 掲載ページ 4021-4025, 出版日 2017年, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

3WRBM-based speech factor modeling for arbitrary-source and non-parallel voice conversion
Toru Nakashika; Yasuhiro Minami
European Signal Processing Conference, European Signal Processing Conference, EUSIPCO, 2016-巻, 掲載ページ 607-611, 出版日 2016年11月28日, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

3WRBM-Based Speech Factor Modeling for Arbitrary-Source and Non-Parallel Voice Conversion
Toru Nakashika; Yasuhiro Minami
Interspeech 2016, 掲載ページ 1487-1491, 出版日 2016年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Factored 3-Way Restricted Boltzmann Machine を用いたマルチモーダル音声認識の検討
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2016年秋季研究発表会講演論文集, 掲載ページ 109-112, 出版日 2016年09月
研究論文（その他学術会議資料等）, 日本語

Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform
Zhaojie Luo; Jinhui Chen; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
The 9th ISCA Speech Synthesis Workshop (SSW), 掲載ページ 153-158, 出版日 2016年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Non-Parallel Training in Voice Conversion Using an Adaptive Restricted Boltzmann Machine
Toru Nakashika; Tetsuya Takiguchi; Yasuhiro Minami
IEEE/ACM Transactions on Audio, Speech and Language Processing, 23巻, 3号, 掲載ページ 1-14, 出版日 2016年08月, 査読付
研究論文（学術雑誌）, 英語

Non-Parallel Training in Voice Conversion Using an Adaptive Restricted Boltzmann Machine
Toru Nakashika; Tetsuya Takiguchi; Yasuhiro Minami
IEEE/ACM Transactions on Audio, Speech and Language Processing, IEEE/ACM, 24巻, 11号, 掲載ページ 2032-2045, 出版日 2016年08月, 査読付
研究論文（学術雑誌）, 英語
DOI URL

Phone Labeling Based on the Probabilistic Representation for Dysarthric Speech Recognition
Yuki Takashima; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
American Journal of Signal Processing, American Journal of Signal Processing, 6巻, 1号, 掲載ページ 19-23, 出版日 2016年06月, 査読付
研究論文（学術雑誌）, 英語

MODELING DEEP BIDIRECTIONAL RELATIONSHIPS FOR IMAGE CLASSIFICATION AND GENERATION
NAKASHIKA Toru; TAKIGUCHI Tetsuya; ARIKI Yasuo
IEEE ICASSP, 2016巻, ICASSP号, 掲載ページ 1331, 出版日 2016年03月, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

Restricted Boltzmann Machine を用いた話者性・雑音を考慮したモデリングの検討
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2016年春季研究発表会講演論文集, 掲載ページ 299-302, 出版日 2016年03月
研究論文（その他学術会議資料等）, 日本語

MODELING DEEP BIDIRECTIONAL RELATIONSHIPS FOR IMAGE CLASSIFICATION AND GENERATION
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 掲載ページ 1327-1331, 出版日 2016年, 査読付
研究論文（国際会議プロシーディングス）, 英語

SPEAKER ADAPTIVE MODEL BASED ON BOLTZMANN MACHINE FOR NON-PARALLEL TRAINING IN VOICE CONVERSION
Torsi Nakashika; Yasuhiro Minami
2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 掲載ページ 5530-5534, 出版日 2016年, 査読付
研究論文（国際会議プロシーディングス）, 英語

Selection of an Optimum Random Matrix Using a Genetic Algorithm for Acoustic Feature Extraction
Yuichiro Kataoka; Toru Nakashika; Ryo Aihara; Tetsuya Takiguchi; Yasuo Ariki
2016 IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS), 掲載ページ 983-988, 出版日 2016年, 査読付
研究論文（国際会議プロシーディングス）, 英語

3WRBM-Based Speech Factor Modeling for Arbitrary-Source and Non-Parallel Voice Conversion
Toru Nakashika; Yasuhiro Minami
2016 24TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 掲載ページ 607-611, 出版日 2016年, 査読付
研究論文（国際会議プロシーディングス）, 英語

Generative Acoustic-Phonemic-Speaker Model Based on Three-Way Restricted Boltzmann Machine
Toru Nakashika; Yasuhiro Minami
17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5, 掲載ページ 1487-1491, 出版日 2016年, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

Small-parallel exemplar-based voice conversion in noisy environments using affine non-negative matrix factorization
Ryo Aihara; Takao Fujii; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2015:32巻, DOI: 10.1186/s13636-015-0075-4号, 掲載ページ 1-9, 出版日 2015年11月, 査読付
研究論文（学術雑誌）, 英語
DOI URL

Parallel-Data-Free, Many-to-Many Voice Conversion Using an Adaptive Restricted Boltzmann Machine
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
MLSLP 2015, 掲載ページ 1-6, 出版日 2015年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Voice conversion using RNN pre-trained by recurrent temporal restricted boltzmann machines
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
IEEE Transactions on Audio, Speech and Language Processing, Institute of Electrical and Electronics Engineers Inc., 23巻, 3号, 掲載ページ 580-587, 出版日 2015年03月01日, 査読付
研究論文（学術雑誌）, 英語
DOI URL

Voice Conversion Using RNN Pre-Trained by Recurrent Temporal Restricted Boltzmann Machines
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 23巻, 3号, 掲載ページ 580-587, 出版日 2015年03月, 査読付
研究論文（学術雑誌）, 英語
DOI URL

Voice conversion using speaker-dependent conditional restricted Boltzmann machine
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2015:8巻, DOI 10.1186/s13636-014-0044-3号, 掲載ページ 1-12, 出版日 2015年02月, 査読付
研究論文（学術雑誌）, 英語
DOI URL

話者正規化学習に基づく潜在的音韻情報を考慮した音声モデリングによる非パラレル声質変換
中鹿亘; 滝口哲也
日本音響学会2015年秋季研究発表会講演論文集, 掲載ページ 223-236, 出版日 2015年
研究論文（その他学術会議資料等）, 日本語

適応型 Restricted Boltzmann Machine を用いたパラレルデータフリーな任意話者声質変換
中鹿亘; 滝口哲也; 有木康雄
日本音響学会2015年春季研究発表会講演論文集, 掲載ページ 279-282, 出版日 2015年
研究論文（その他学術会議資料等）, 日本語

制約付きThree-Way Restricted Boltzmann Machineを用いた音響・音韻・話者情報の同時モデリング
中鹿亘; 滝口哲也
電子情報通信学会技術研究報告, 115巻, 346号, 掲載ページ 7-12, 出版日 2015年
研究論文（研究会，シンポジウム資料等）, 日本語

Deep Boltzmann Machine を用いた音素ラベル情報推定
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2015年春季研究発表会講演論文集, 掲載ページ 3-6, 出版日 2015年
研究論文（その他学術会議資料等）, 日本語

少量のパラレルデータを用いたNon-negative Matrix Factorizationによる雑音環境下の声質変換
藤井貴生; 相原龍; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2015年春季研究発表会講演論文集, 掲載ページ 393-396, 出版日 2015年
研究論文（その他学術会議資料等）, 日本語

構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
電子情報通信学会技術研究報告, 115巻, 99号, 掲載ページ 71-76, 出版日 2015年
研究論文（研究会，シンポジウム資料等）, 日本語

構音障害者音声認識のための確率表現に基づく音素ラベリングの検討
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2015年秋季研究発表会講演論文集, 掲載ページ 1243-1246, 出版日 2015年
研究論文（その他学術会議資料等）, 日本語

FEATURE EXTRACTION USING PRE-TRAINED CONVOLUTIVE BOTTLENECK NETS FOR DYSARTHRIC SPEECH RECOGNITION
TAKASHIMA Yuki; NAKASHIKA Toru; TAKIGUCHI Tetsuya; ARIKI Yasuo
EUSIPCO, 掲載ページ 1411-1415, 出版日 2015年, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

Content-based Image Retrieval Using Rotation-invariant Histograms of Oriented Gradients
Jinhui Chen; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
ICMR'15: PROCEEDINGS OF THE 2015 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL, 掲載ページ 443-446, 出版日 2015年, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

SPARSE NONLINEAR REPRESENTATION FOR VOICE CONVERSION
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
2015 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME), 掲載ページ 1-6, 出版日 2015年, 査読付
研究論文（国際会議プロシーディングス）, 英語

NOISE-ROBUST VOICE CONVERSION USING A SMALL PARALLE DATA BASED ON NON-NEGATIVE MATRIX FACTORIZATION
Ryo Aihara; Takao Fujii; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 掲載ページ 315-319, 出版日 2015年, 査読付
研究論文（国際会議プロシーディングス）, 英語

FEATURE EXTRACTION USING PRE-TRAINED CONVOLUTIVE BOTTLENECK NETS FOR DYSARTHRIC SPEECH RECOGNITION
Yuki Takashima; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 掲載ページ 1411-1415, 出版日 2015年, 査読付
研究論文（国際会議プロシーディングス）, 英語

High-Order Sequence Modeling Using Speaker-Dependent Recurrent Temporal Restricted Boltzmann Machines for Voice Conversion
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
Proceedings of the 15th Conference of the International Speech Communication Association (Interspeech 2014), 掲載ページ 2278-2282, 出版日 2014年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Error Correction of Automatic Speech Recognition Based on Normalized Web Distance
E. Byambakhishig; K. Tanaka; R. Aihara; T. Nakashika; T. Takiguchi; Y. Ariki
Proceedings of the 15th Conference of the International Speech Communication Association (Interspeech 2014), 掲載ページ 2852-2856, 出版日 2014年09月, 査読付
研究論文（国際会議プロシーディングス）, 英語

Parallel Dictionary Learning Using a Joint Density Restricted Boltzmann Machine for Sparse-Representation-Based Voice Conversion
NAKASHIKA Toru; TAKIGUCHI Tetsuya; ARIKI Yasuo
Advances in Computer Science and Engineering, 12巻, 2号, 掲載ページ 101-117, 出版日 2014年06月, 査読付
研究論文（学術雑誌）, 英語

Voice Conversion Based on Speaker-Dependent Restricted Boltzmann Machines
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, E97D巻, 6号, 掲載ページ 1403-1410, 出版日 2014年06月, 査読付
研究論文（学術雑誌）, 英語
DOI URL

話者適応を用いたNMFによる声質変換
藤井貴生; 相原龍; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2014年春季研究発表会講演論文集, 日本音響学会, 掲載ページ 421-424, 出版日 2014年03月, 本稿では，話者適応を用いたNMFによる声質変換手法を提案する．我々が提案してきた従来のNMFによる声質変換手法では，入力話者と出力話者の同一発話内容のパラレルデータを用いることが前提となっていた．つまり，対応する任意の話者の大量のデータをあらかじめ用意しておかなければならないという問題点があった．そこで，出力話者の少量の音声データのみを辞書適応に用いることで，入力話者辞書から出力話者辞書を生成する手法を提案する．評価実験では，話者適応を用いた本手法の有効性を示す．
研究論文（その他学術会議資料等）, 日本語

声質変換のための Restricted Boltzmann Machine を用いたパラレル辞書の学習法
中鹿亘; 滝口哲也; 有木康雄
日本音響学会2014年春季研究発表会講演論文集, 日本音響学会, 掲載ページ 415-416, 出版日 2014年03月, 本稿では，スパース表現に基づく声質変換において，パラレル辞書の作成・選択を統一的な枠組みで行うために，結合型RBM(restricted Boltzmann machine)を用いた声質変換法を提案する．
研究論文（その他学術会議資料等）, 日本語

Convolutive Bottleneck Network 特徴量を用いた構音障害者の音声認識
吉岡利也; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2014年春季研究発表会講演論文集, 日本音響学会, 掲載ページ 237-240, 出版日 2014年03月, 本論文では，構音障害者を対象とした音声認識の実現に向けて，障害者音響モデルを用いた認識実験を行う．さらに，筋肉の緊張により発話が変動しやすいという障害者特有の問題に対して，ボトルネックの構成を持つCNN(CBN)を用いた特徴量抽出法を提案する．
研究論文（その他学術会議資料等）, 日本語

Hierarchical Sparse Representation for Object Recognition
NAKASHIKA Toru; OKUMURA Takeshi; TAKIGUCHI Tetsuya; ARIKI Yasuo
Transactions on Machine Learning and Artificial Intelligence, 2巻, 1号, 掲載ページ 46-60, 出版日 2014年02月, 査読付
研究論文（学術雑誌）, 英語

Depth Spatial Pyramid: a Pooling Method for 3D-Object Recognition
NAKASHIKA Toru; HORI Takafumi; TAKIGUCHI Tetsuya; ARIKI Yasuo
Advances in Computer Science and Engineering, 12巻, 1号, 掲載ページ 15-30, 出版日 2014年, 査読付
研究論文（学術雑誌）, 英語

話者適応型 Restricted Boltzmann Machine を用いた声質変換の検討
中鹿亘; 滝口哲也; 有木康雄
電子情報通信学会技術研究報告, 114巻, 365号, 掲載ページ 165-170, 出版日 2014年
研究論文（研究会，シンポジウム資料等）, 日本語

話者適応を用いたNMFによる雑音環境下の声質変換
藤井貴生; 相原龍; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2014年秋季研究発表会講演論文集, 掲載ページ 345-348, 出版日 2014年
研究論文（その他学術会議資料等）, 日本語

話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換
中鹿亘; 滝口哲也; 有木康雄
日本音響学会2014年秋季研究発表会講演論文集, 掲載ページ 219-222, 出版日 2014年
研究論文（その他学術会議資料等）, 日本語

遺伝的アルゴリズムを用いた構音障害者の音声特徴量抽出に最適なランダム行列の生成
片岡悠一郎; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2014年秋季研究発表会講演論文集, 掲載ページ 83-86, 出版日 2014年
研究論文（その他学術会議資料等）, 日本語

スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine
中鹿亘; 滝口哲也; 有木康雄
電子情報通信学会技術研究報告, 114巻, 52号, 掲載ページ 343-348, 出版日 2014年
研究論文（研究会，シンポジウム資料等）, 日本語

Convolutive Bottleneck Network with Dropout for Dysarthric Speech Recognition
NAKASHIKA Toru; YOSHIOKA Toshiya; TAKIGUCHI Tetsuya; ARIKI Yasuo; DUFFNER Stefan; GARCIA Christophe
Transactions on Machine Learning and Artificial Intelligence, 2巻, 2号, 掲載ページ 46-60, 出版日 2014年, 査読付
研究論文（学術雑誌）, 英語

VOICE CONVERSION BASED ON NON-NEGATIVE MATRIX FACTORIZATION USING PHONEME-CATEGORIZED DICTIONARY
AIHARA Ryo; NAKASHIKA Toru; TAKIGUCHI Tetsuya; ARIKI Yasuo
ICASSP, 2014 Vol.10巻, 掲載ページ 7894-7898, 出版日 2014年, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

VOICE CONVERSION BASED ON NON-NEGATIVE MATRIX FACTORIZATION USING PHONEME-CATEGORIZED DICTIONARY
Ryo Aihara; Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 掲載ページ 7944-7948, 出版日 2014年, 査読付
研究論文（国際会議プロシーディングス）, 英語

VOICE CONVERSION IN TIME-INVARIANT SPEAKER-INDEPENDENT SPACE
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 掲載ページ 7939-7943, 出版日 2014年, 査読付
研究論文（国際会議プロシーディングス）, 英語

Probabilistic spectral envelope modeling of musical instruments within the non-negative matrix factorization framework for mixed music analysis
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
Acoustical Science and Technology, Acoustical Society of Japan, 35巻, 4号, 掲載ページ 181-191, 出版日 2014年, 査読付
研究論文（学術雑誌）, 英語
DOI URL

3D-Object Recognition Based on LLC Using Depth Spatial Pyramid
Toru Nakashika; Takafumi Hori; Tetsuya Takiguchi; Yasuo Ariki
2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), 掲載ページ 4224-4228, 出版日 2014年, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

Dysarthric Speech Recognition Using a Convolutive Bottleneck Network
Toru Nakashika; Toshiya Yoshioka; Tetsuya Takiguchi; Yasuo Ariki; Stefan Duffner; Christophe Garcia
2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 掲載ページ 505-509, 出版日 2014年, 査読付
研究論文（国際会議プロシーディングス）, 英語

話者依存型 Conditional Restricted Boltzmann Machine による声質変換
中鹿亘; 滝口哲也; 有木康雄
電子情報通信学会技術研究報告, 電子情報通信学会, 113巻, 366号, 掲載ページ 83-88, 出版日 2013年12月, 本研究では，元の音響特徴量空間よりも音韻性や時間変化性を抑え，話者性を強調させることによって，より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として，話者ごとにconditional restricted Boltzmann machine (CRBM)を用いた声質変換法を提案する．提案手法ではまず初めに，話者ごとに用意した学習データ（パラレルデータである必要は無い）を用いて，入力話者，出力話者のCRBMを独立に学習させる．次に，少量のパラレルデータの音響特徴量を，それぞれのCRBMを通して話者依存高次元空間へ写像（CRBMの前方推論）し，その高次特徴量同士をNeural Network (NN)を用いて変換させる．NNの変換で得られた特徴量は，CRBMの後方推論によって元の音響特徴量へ逆変換することが可能である
研究論文（研究会，シンポジウム資料等）, 日本語

辞書選択に基づく非負値行列因子分解による声質変換
相原龍; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2013年秋季研究発表会講演論文集, 日本音響学会, 掲載ページ 1473-1476, 出版日 2013年09月, 本稿では，声質変換においてもっとも一般的な，音声スペクトルを特徴量とした話者変換をタスクとし，NMFを用いた声質変換手法の精度を向上させるため，辞書選択手法の導入を提案する．これまではパラレルデータの全フレームをそのまま辞書の基底として用いており，辞書のサイズが膨大となっていた．そのため，入力音声のフレームと，入力話者辞書から選ばれる基底の音素が必ずしも一致しないといった問題があった．そこで本稿では，入力・出力話者辞書を音素カテゴリに分けた副辞書を作成する．NMFを用いて音素カテゴリ認識を行い，選択した副辞書上でマッピングを行うことで声質変換を行う．
研究論文（その他学術会議資料等）, 日本語

時間変化を考慮した Deep Learning を用いた声質変換
中鹿亘; 滝口哲也; 有木康雄
日本音響学会2013年秋季研究発表会講演論文集, 日本音響学会, 掲載ページ 1471-1472, 出版日 2013年09月, 本研究では，Conditional Restricted Boltzmann Machine を用いて音声の時間的変化を捉え，Deep Learningの枠組みで声質変換を行う手法を提案する．
研究論文（その他学術会議資料等）, 日本語

Convolutional Neural Networksを用いた構音障害者のための音声認識
吉岡利也; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2013年秋季研究発表会講演論文集, 日本音響学会, 掲載ページ 167-168, 出版日 2013年09月, 提案手法では，音声のスペクトログラムから得られた2次元特徴を入力層，入力層の音素情報を要素として持つベクトルを出力層とするConvolutional Neural Networks (CNN) を構築し，特徴量抽出に用いる．
研究論文（その他学術会議資料等）, 日本語

Specmurtを利用した調波構造行列による混合楽音解析の検討
西村大樹; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2013年春季研究発表会, 日本音響学会, 掲載ページ 843-844, 出版日 2013年03月, 我々が耳にする楽曲の多くは様々な楽器が同時刻に存在する混合楽音である．しかし，Specmurt法は単一楽器の多重音の解析のみしか行うことができない．そこで我々は従来のSpecmurtを拡張し，複数の楽器の混合楽音から，各楽器に分離された音高を解析する新たな手法を提案する．各楽器に分離された音高を解析する新たな手法を提案する．
研究論文（その他学術会議資料等）, 日本語

Sparseness Criteria of F0-Frequencies Selection for Specmurt-Based Multi-Pitch Analysis without Modeling Harmonic Structure
NISHIMURA Daiki; NAKASHIKA Toru; TAKIGUCHI Tetsuya; ARIKI Yasuo
Journal of Signal Processing, Research Institute of Signal Processing, 17巻, 2号, 掲載ページ 29-38, 出版日 2013年03月, 査読付, This paper introduces a multi-pitch analysis method using specmurt analysis without modeling the common harmonic structure pattern. Specmurt analysis is based on the idea that the fundamental frequency distribution is expressed as a deconvolution of the observed spectrum by the common harmonic structure pattern. To analyze the fundamental frequency distribution, the common harm
研究論文（学術雑誌）, 英語

Deep Belief Nets による低次元空間表現を用いた声質変換の検討
中鹿亘; 高島遼一; 滝口哲也; 有木康雄
日本音響学会2013年春季研究発表会, 日本音響学会, 掲載ページ 517-520, 出版日 2013年03月, 本稿では，DBNとNNを組み合わせて，話者性の取り除いた低次元空間で非線形変換を行う声質変換法を提案した．主観的・客観的に評価実験を行い，いずれの実験においても高い精度を示した．
研究論文（その他学術会議資料等）, 日本語

SPARSE REPRESENTATION FOR OUTLIERS SUPPRESSION IN SEMI-SUPERVISED IMAGE ANNOTATION
Toru Nakashika; Takeshi Okumura; Tetsuya Takiguchi; Yasuo Ariki
2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 掲載ページ 2080-2083, 出版日 2013年, 査読付
研究論文（国際会議プロシーディングス）, 英語

Voice Conversion in High-order Eigen Space Using Deep Belief Nets
Toru Nakashika; Ryoichi Takashima; Tetsuya Takiguchi; Yasuo Ariki
14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 掲載ページ 369-372, 出版日 2013年, 査読付
研究論文（国際会議プロシーディングス）, 英語

A Combination of Hand-crafted and Hierarchical High-level Learnt Feature Extraction for Music Genre Classiﬁcation
Julien Martel; Toru Nakashika; Christophe Garcia; Khalid Idrissi
Proceedings of the 23rd International Conference on Artificial Neural Networks (ICANN 2013), 8131巻, 掲載ページ 397-404, 出版日 2013年, 査読付
研究論文（国際会議プロシーディングス）, 英語

High-frequency restoration using deep belief nets for super-resolution
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
Proceedings - 2013 International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2013, 掲載ページ 38-42, 出版日 2013年, 査読付
研究論文（国際会議プロシーディングス）, 英語
DOI URL

重みつきノルム基準によるF0周波数選択を用いたSpecmurtによる多重音解析
西村大樹; 中鹿亘; 滝口哲也; 有木康雄
日本音響学会2012年秋季研究発表会, 日本音響学会, 掲載ページ 781-784, 出版日 2012年09月, 本稿では共通調波構造をモデル化しないで，重みつきノルムによるスパース性を考慮したSpecmurtによる多重音解析の有効性を示した．この手法は音色の学習を必要とせず，また和音数などといった知識も用いないで多重音の解析ができる．
研究論文（その他学術会議資料等）, 日本語

Convolutional Neural Networks を用いた局所特徴統合による自動音楽ジャンル分類
中鹿亘; Garcia Christophe; 滝口哲也; 有木康雄
日本音響学会2012年秋季研究発表会, 日本音響学会, 掲載ページ 789-790, 出版日 2012年09月, 近年のコンピュータの発展とともに音楽のデジタルコンテンツが爆発的に増大し，web上や個人の情報端末上で音楽データを整理・検索することが困難になってきている．このような背景の中で，類似した音楽を自動的にクラスタリングする自動音楽ジャンル分類の研究が盛んに行われている．本稿では後者のアプローチに基づき，各マップから計算される画像特徴であるGLCM (Gray Level Co-occurrence Matrix)を特徴量とし，Convolutional Neural Networks (ConvNets)を用いて複数のGLCMを統合しつつ音楽ジャンルを識別する手法を提案する．
研究論文（その他学術会議資料等）, 日本語

Local-feature-map Integration Using Convolutional Neural Networks for Music Genre Classiﬁcation
Toru Nakashika; Christophe Garcia; Tetsuya Takiguchi
Proceedings of the 13th Conference of the International Speech Communication Association (Interspeech 2012), 掲載ページ 1750-1753, 出版日 2012年, 査読付
研究論文（国際会議プロシーディングス）, 英語

Constrained Spectrum Generation Using A Probabilistic Spectrum Envelope for Mixed Music Analysis
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
Proceedings of the 12th International Society for Music Information Retrieval Conference (ISMIR 2011), 掲載ページ 181-184, 出版日 2011年10月, 査読付
研究論文（国際会議プロシーディングス）, 英語

GENERIC OBJECT RECOGNITION USING AUTOMATIC REGION EXTRACTION AND DIMENSIONAL FEATURE INTEGRATION UTILIZING MULTIPLE KERNEL LEARNING
Toru Nakashika; Akira Suga; Tetsuya Takiguchi; Yasuo Ariki
2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 掲載ページ 1229-1232, 出版日 2011年, 査読付
研究論文（国際会議プロシーディングス）, 英語

Probabilistic Spectrum Envelope: Categorized Audio-features Representation for NMF-based Sound Decomposition
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, 掲載ページ 1776-1779, 出版日 2011年, 査読付
研究論文（国際会議プロシーディングス）, 英語

Speech Synthesis by Modeling Harmonics Structure with Multiple Function
Toru Nakashika; Ryuki Tachibana; Masafumi Nishimura; Tetsuya Takiguchi; Yasuo Ariki
11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2, 掲載ページ 945-+, 出版日 2010年, 査読付
研究論文（国際会議プロシーディングス）, 英語

MATHEMATICAL MODELING OF HARMONIC-TIMBRE STRUCTURE WITH MULTI-BETA-DISTRIBUTION
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
2009 IEEE/SP 15TH WORKSHOP ON STATISTICAL SIGNAL PROCESSING, VOLS 1 AND 2, 掲載ページ 768-771, 出版日 2009年, 査読付
研究論文（国際会議プロシーディングス）, 英語

MISC

コーヒーブレイク〜あの日私は
中鹿亘
日本音響学会, 出版日 2022年04月01日, 日本音響学会誌, 78巻, 4号, 掲載ページ 210-211, 日本語, 招待, 記事・総説・解説・論説等（学術雑誌）
DOI URL

構音障害者音声認識のための適応型restricted Boltzmann machineを用いた特徴量抽出 (音声)
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
電子情報通信学会, 出版日 2017年03月01日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 116巻, 477号, 掲載ページ 321-326, 日本語, 0913-5685, 40021161268, AN10013221
URL

構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討
高島悠樹; 中鹿亘; 滝口哲也
日本音響学会, 出版日 2015年06月18日, 聴覚研究会資料 = Proceedings of the auditory research meeting, 45巻, 4号, 掲載ページ 275-280, 日本語, 1346-1109, 40020532927, AN00227138
URL

話者適応型Restricted Boltzmann Machineを用いた声質変換の検討
中鹿亘; 滝口哲也; 有木康雄
質変換は，入力した音声を音韻情報などを保ったまま，話者性に関する特定の情報のみを変換する技術であり，話者変換や感情変換，発話支援など様々なタスクへの応用が期待されている．従来の多くの声質変換手法は，同一発話内容の入出力音声対（パラレルデータ）を学習時に必要とするが，予め発話内容を決めておく必要がある，音声間のアライメントを取る必要があるなど，学習データを慎重に用意しなければならないという問題がある．また，変換モデルの利用は学習された話者対のみに限定されてしまう．本研究では，パラレルデータを必要としない任意話者声質変換を実現するため，確率モデルの一つである Restricted Boltzmann machine(RBM) を拡張した話者適応型 RBM（Adaptive restricted Boltzmann machine; ARBM）を新たに提案する．適応型 RBM は可視素子層と隠れ素子層からなる二層の確率モデルであり，異なる層の素子間には話者によって変化する結合重みが存在する．本稿では，適応型 RBM を用いた任意話者声質変換に関する評価実験の結果について報告する．Voice conversion (VC) is a technique where only speaker-specific information in source speech is converted while keeping phonological information. The technique can be applied to various tasks such as speaker-identity conversion, emotion conversion and aid to speaking for people with articulation disorders. Most of the existing VC methods rely on parallel data—pairs of speech data from source and target speakers uttering the same articles. However, this approach involves several problems; firstly, the data used for the training is limited to the pre-defined articles. Secondly, the use of the trained model is limited only to the speaker pair used in the training. In this paper, we propose a novel probabilistic model called an adaptive restricted Boltzmann machine (ARBM) for VC between arbitrary speakers without use of parallel data. This model consists of a visible-unit and a hidden-unit layer with the speaker-dependent connection. In this paper, we report our experimental results of arbitrary-speaker VC using our model, an ARBM., 一般社団法人情報処理学会, 出版日 2014年12月08日, 研究報告音声言語情報処理（SLP）, 2014巻, 30号, 掲載ページ 1-6, 日本語, 110009850974, AN10442647
URL

スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine
中鹿亘; 滝口哲也; 有木康雄
近年，声質変換の研究分野において，over-fitting や over-smoothing の生じにくいスパース表現に基づく手法が注目を浴びている．スパース表現に基づく声質変換法では，予め入力話者・出力話者のパラレル辞書を求めておき，スパースな辞書選択重みを用いて適切な辞書を選択することで声質変換を実現するとの手法は主に 2 つのアプローチに分けることができる．1 つ目はパラレル辞書として，学習データの音響特徴量をそのまま辞書として用いるアプローチであり，もう１つは，パラレル辞書そのものを何らかの手法で学習させるアプローチである．本研究では，後者のアプローチに基づき，近年注目を浴びている Deep Learning の基礎技術となる restricted Bolzmann machine(RBM) を用いて，入力話者・出力話者のパラレル辞書を体系的に求める手法を提案する．評価実験では，代表的な手法である Gaussian mixture model(GMM) だけでなく，従来のスパース表現に基づく手法である､non-negative matrix factorization (NMF) による声質変換法に比べて高い精度が得られたことを確認した．In voice conversion, sparse-representation-based methods have recently been garnering attention because they are, relatively speaking, not affected by over-fitting or over-smoothing problems. In these approaches, voice conversion is achieved by estimating a sparse vector that determines which dictionaries of the target speaker should be used, calculated from the matching of the input vector and dictionaries of the source speaker. The sparse-repre sentation-based voice conversion methods can be broadly divided into two approaches: 1) an approach that uses raw acoustic features in the training data as parallel dictionaries, and 2) an approach that trains parallel dictionaries from the training data. Our approach belongs to the latter; we systematically estimate the parallel dictionaries using a restricted Boltzmann machine, a fundamental technology commonly used in deep learning. Through voice-conver sion experiments, we confirmed the high-performance of our method, comparing it with the conventional Gaussian mixture model (GMM)-based approach, and a non-negative matrix factorization (NMF)-based approach, which is based on sparse-representation., 出版日 2014年05月17日, 研究報告音楽情報科学（MUS）, 2014巻, 66号, 掲載ページ 1-6, 日本語, 170000083787, AN10438388
URL

話者依存型Conditional Restricted Boltzmann Machineによる声質変換 (音声)
中鹿亘; 滝口哲也; 有木康雄
本研究では,元の音響特徴量空間よりも音韻性や時間変化性を抑え,話者性を強調させることによって,より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として,話者ごとにconditional restricted Boltzmann machine(CRBM)を用いた声質変換法を提案する.提案手法ではまず初めに,話者ごとに用意した学習データ(パラレルデータである必要は無い)を用いて,入力話者,出力話者のCRBMを独立に学習させる.次に,少量のパラレルデータの音響特徴量を,それぞれのCRBMを通して話者依存高次元空間へ写像(CRBMの前方推論)し,その高次特徴量同士をNeural Network(NN)を用いて変換させる.NNの変換で得られた特徴量は,CRBMの後方推論によって元の音響特徴量へ逆変換することが可能である.評価実験では,従来のGMMやNN,DBNを用いた声質変換法に比べて,主観的にも客観的にも良い精度が得られたことを確認した., 一般社団法人電子情報通信学会, 出版日 2013年12月19日, 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報, 113巻, 366号, 掲載ページ 83-88, 日本語, 0913-5685, 110009903078, AN10013221
URL

話者依存型 Conditional Restricted Boltzmann Machine による声質変換
中鹿亘; 滝口哲也; 有木康雄
本研究では，元の音響特徴量空間よりも音韻性や時間変化性を抑え，話者性を強調させることによって，より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として，話者ごとに conditional restricted Boltzmann machine (CRBM) を用いた声質変換法を提案する．提案手法ではまず初めに，話者ごとに用意した学習データ（パラレルデータである必要は無い）を用いて，入力話者，出力話者の CRBM を独立に学習させる．次に，少量のパラレルデータの音響特徴量を，それぞれの CRBM を通して話者依存高次元空間へ写像 (CRBM の前方推論）し，その高次特徴量同士を Neural Network (NN) を用いて変換させる．NN の変換で得られた特徴量は，CRBM の後方推論によって元の音響特徴量へ逆変換することが可能である．評価実験では，従来の GMM や NN，DBN を用いた声質変換法に比べて，主観的にも客観的にも良い精度が得られたことを確認した．In this paper, we present a voice conversion (VC) method that utilizes conditional restricted Boltzmann machines (CRBMs) for each speaker to obtain time-invariant speaker-independent spaces where voice features are converted more easily than those in an original acoustic feature space. First, we train two CRBMs for a source and target speaker independently using speaker-dependent training data (without the need to parallelize the training data). Then, a small number of parallel data are fed into each CRBM and the high-order features produced by the CRBMs are used to train a concatenating neural network (NN) between the two CRBMs. Finally, the entire network (the two CRBMs and the NN) is fine-tuned using the acoustic parallel data. Through voice-conversion experiments, we confirmed the high performance of our method in terms of objective and subjective evaluations, comparing it with conventional GMM, NN, and speaker-dependent DBN approaches., 一般社団法人情報処理学会, 出版日 2013年12月12日, 研究報告音声言語情報処理（SLP）, 2013巻, 14号, 掲載ページ 1-6, 日本語, 110009646537, AN10442647
URL

確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討
中鹿亘; 滝口哲也; 有木康雄
出版日 2011年07月, 電子情報通信学会音声研究会, SP2011-50,pp. 51-56巻, 日本語, 速報，短報，研究ノート等（学術雑誌）

確率スペクトル包絡に基づくNMF 基底生成モデルを用いた混合楽音解析
中鹿亘; 滝口哲也; 有木康雄
出版日 2011年02月, 情報処理学会音楽情報科学研究会, Vol.2011-MUS-89,No.18, pp. 1-6巻, 日本語, 速報，短報，研究ノート等（学術雑誌）

基底の反復生成と教師ありNMFを用いた信号解析
中鹿亘; 滝口哲也; 有木康雄
出版日 2010年12月, 電子情報通信学会音声研究会, SP2010-102,pp. 195-200巻, 日本語, 速報，短報，研究ノート等（学術雑誌）

物体領域特徴の自動選定とマルチカーネル学習を用いた特徴統合による一般物体認識
中鹿亘; 須賀晃; 滝口哲也; 有木康雄
出版日 2010年07月, 画像の認識・理解シンポジウム, OS8-2, pp. 1404-1411巻, 日本語, 速報，短報，研究ノート等（学術雑誌）

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討
中鹿亘; 立花隆輝; 西村雅史; 滝口哲也; 有木康雄
出版日 2009年12月, 第11回音声言語シンポジウム, SP2009-93,No. 29,pp. 165-170巻, 日本語, 速報，短報，研究ノート等（学術雑誌）

書籍等出版物

IT Text 深層学習
柳井啓司; 中鹿亘; 稲葉通将
日本語, 共著, 288, オーム社, 出版日 2022年11月22日, ISBN 4274228886

講演・口頭発表等

2 種のラグ窓によるスペクトル平滑化を用いた F0 推定
越森道貴; 嵯峨山茂樹; 中鹿亘
日本音響学会2024年春季研究発表会
発表日 2024年03月

FaderNetworks を用いた F0 変換による歌唱技術の付与
後藤純平; 中鹿亘
日本音響学会2024年春季研究発表会
発表日 2024年03月

歌唱音声合成における F0 の自然性向上のための Diffusion-GAN モデルの検討
芦田裕飛; 中鹿亘
日本音響学会2024年春季研究発表会
発表日 2024年03月

拡散確率モデルを用いたノンパラレルな Any-to-many 声質変換
畠山瑠一; 奥田耕平; 中鹿亘
日本音響学会2024年春季研究発表会
発表日 2024年03月

事前学習済みモデルによる埋め込み表現を組み込んだ音声編集モデルの検討
平本佳弘; 中鹿亘
日本音響学会2024年春季研究発表会
発表日 2024年03月

分類型半制限ボルツマンマシンによる全音程関係を考慮した和音認識
石川峻弥; 中鹿亘
日本音響学会2024年春季研究発表会
発表日 2024年03月

Transformerを用いた脳波信号からの音声復元の検討
水野友暁; 岸田拓也; 吉村奈津江; 中鹿亘
第151回音声言語情報処理研究発表会
発表日 2024年03月

潜在変数と観測データにガンマ分布を仮定したVAEによる音声振幅スペクトル表現
今市夏菜子; 中鹿亘
第151回音声言語情報処理研究発表会
発表日 2024年03月

複数のラグ窓対を用いた音声基本周波数と周期性尺度の推定
越森道貴; 嵯峨山茂樹; 中鹿亘
第151回音声言語情報処理研究発表会
発表日 2024年03月

DDPMVC: 連続時間拡散確率モデルを用いた非パラレル声質変換と評価
畠山瑠一; 奥田耕平; 中鹿亘
第151回音声言語情報処理研究発表会
発表日 2024年03月

ベータ分布に基づくFaderNetを用いた音声印象変換の性能評価
釘本咲; 中鹿亘
日本音響学会2023年秋季研究発表会
発表日 2023年09月

レイリー型制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離
古田翔太郎; 中鹿亘
日本音響学会2023年秋季研究発表会
発表日 2023年09月

SiFiSinger: SiFi-GANを内包した歌唱音声合成
芦田裕飛; 中鹿亘
日本音響学会2023年秋季研究発表会
発表日 2023年09月

FaderNetを用いた未知話者に対する音声印象変換
釘本咲; 中鹿亘
音学シンポジウム2023
発表日 2023年06月

入力特徴量で条件づけた拡散確率モデルによるパラレル声質変換
岸田拓也; 中鹿亘
第146回研究会音声言語情報処理研究会
発表日 2023年03月

Speechsplit を用いたイントネーション・リズム・発音の矯正による外国語アクセント変換
許誠; 岸田拓也; 中鹿亘
日本音響学会2023年春季研究発表会
発表日 2023年03月

振幅重み付けエネルギー関数を用いたボルツマンマシンによる位相復元
羽賀洋克; 矢田部浩平; 岸田拓也; 中鹿亘
日本音響学会2023年春季研究発表会
発表日 2023年03月

Dual Diffusion Implicit Bridgesを用いた話者間の匿名性を担保した声質変換
奥田耕平; 岸田拓也; 中鹿亘
日本音響学会2023年春季研究発表会
発表日 2023年03月

条件付き制限ボルツマンマシンの平衡化傾向を利用したノンパラレル声質変換
岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年秋季研究発表会, 国内会議
発表日 2022年09月

話者因子係数の量子化に基づく声色制御可能な話者変換
井硲巧; 大西弘太郎; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年秋季研究発表会, 国内会議
発表日 2022年09月

MoCoVC: モーメンタム対照表現学習によるノンパラレル声質変換
大西弘太郎; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年秋季研究発表会, 国内会議
発表日 2022年09月

マルチモーダルVAEを用いた顔画像に基づく目標話者音声不要な声質変換
飯田紘崇; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年春季研究発表会, 国内会議
発表日 2022年03月

時系列条件付きボルツマンマシンによる位相復元
羽賀洋克; 矢田部浩平; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年春季研究発表会, 国内会議
発表日 2022年03月

印象表現語ラベルを用いたFaderNetworksに基づく音声印象変換
岡留有希; 大西弘太郎; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年春季研究発表会, 国内会議
発表日 2022年03月

TTSモデルにおけるアラインメントロバスト性向上のための非停滞化制約付きForward Attention
Zhou Yujin; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年春季研究発表会, 国内会議
発表日 2022年03月

非可逆圧縮を用いた敵対的ニューラルボコーダのためのデータ拡張法
大西弘太郎; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年春季研究発表会, 国内会議
発表日 2022年03月

リズムスタイルを考慮したFader Networksに基づく外国語学習者の発音変換
王庭輝; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2022年春季研究発表会, 国内会議
発表日 2022年03月

深層エネルギーベースモデルによる音声の音響特徴量の生成
岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2021年秋季研究発表会, 国内会議
発表日 2021年09月

深層エネルギーベースモデルによる音声の音響特徴量の生成
井硲巧; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2021年秋季研究発表会, 国内会議
発表日 2021年09月

話者特徴抽出器を加えたFaderNetVCによる未知話者声質変換
井硲巧; 岸田拓也; 中鹿亘
ポスター発表, 日本語, 音学シンポジウム2021, 国内会議
発表日 2021年06月

VQVAEに基づくリアルタイム波形ベース声質変換の検討
大西弘太郎; 中鹿亘; 松本光春
口頭発表（一般）, 日本語, 日本音響学会2021年春季研究発表会, 国内会議
発表日 2021年03月

条件付きボルツマンマシンによる位相復元の初期検討
羽賀洋克; 矢田部浩平; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2021年春季研究発表会, 国内会議
発表日 2021年03月

Attention RBMによる音声特徴量系列の符号化と生成
岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2021年春季研究発表会, 国内会議
発表日 2021年03月

Cluster ARBM を用いた話者・音韻相互作用分類による声質変換
岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2020年秋季研究発表会, 国内会議
発表日 2020年09月

HMelGAN: 階層的構造を導入した敵対的学習ネットワークに基づく高速ニューラルボコーダ
大西弘太郎; 中鹿亘; 松本光春
口頭発表（一般）, 日本語, 日本音響学会2020年秋季研究発表会, 国内会議
発表日 2020年09月

Speech chain を模倣したボルツマンマシンによるワンショット多対多声質変換の検討
岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2020年春季研究発表会, 国内会議
発表日 2020年03月

マルチタスクモデルを用いたdisentangleな学習による楽器音変換
荒川賢也; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2020年春季研究発表会, 国内会議
発表日 2020年03月

適応型 RBM を用いた音声情報の分離による話者と感情の同時変換
塚本伸; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2020年春季研究発表会, 国内会議
発表日 2020年03月

適応型RBMを用いたノンパラレル感情音声変換
塚本伸; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2019年秋季研究発表会, 国内会議
発表日 2019年09月

Fader Networksを用いた楽器音変換
荒川賢也; 岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2019年秋季研究発表会, 国内会議
発表日 2019年09月

複素VAE: 音声の複素スペクトルを直接表現する新しい変分自己符号化器
中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2019年秋季研究発表会, 国内会議
発表日 2019年09月

Speech chain VC: 音声コミュニケーションの言語-生理-音響連鎖を考慮する声質変換
岸田拓也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2019年秋季研究発表会, 国内会議
発表日 2019年09月

Degree of Inharmonicity: Index to Evaluate Sustained Pedal Control
Toru Nakashika; Eriko Aiba
ポスター発表, 英語, International Symposium on Performance Science (ISPS) 2019, 国際会議
発表日 2019年07月

パラレル制約付きVAEを用いた未知話者声質変換の検討
大西弘太郎; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2019年春季研究発表会, 国内会議
発表日 2019年03月

セミパラレル手法による適応型 RBM を用いた声質変換の性能改善
塚本伸; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2019年春季研究発表会, 国内会議
発表日 2019年03月

VAE を用いた多対多声質変換における音素識別制約の検討
木庭慶人; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2019年春季研究発表会, 国内会議
発表日 2019年03月

スペクトル系列誤差に基づくDNN音声波形モデルの学習
高木信二; 中鹿亘; 山岸順一
口頭発表（一般）, 日本語, 日本音響学会2018年秋季研究発表会, 国内会議
発表日 2018年09月

音声スペクトル系列の自己回帰性を考慮した複素RBMの拡張
中鹿亘; 高木信二; 山岸順一
口頭発表（一般）, 日本語, 日本音響学会2018年秋季研究発表会, 国内会議
発表日 2018年09月

DRMを用いた唇動画像と音声の双方向変換
塚本伸; 中鹿亘
ポスター発表, 日本語, 音学シンポジウム2018, 国内会議
発表日 2018年06月

RBMを用いた楽器音基底と演奏情報への分離による多重音解析
荒川賢也; 中鹿亘
口頭発表（一般）, 日本語, 2018年度人工知能学会全国大会, 国内会議
発表日 2018年05月

長・短期記憶構造を持つ拡張ボルツマンマシンの検討
中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2018年春季研究発表会, 国内会議
発表日 2018年03月

非負値タッカー分解による NMF 辞書学習に基づく非パラレル声質変換
高島悠樹; 矢野肇; 中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2018年春季研究発表会, 国内会議
発表日 2018年03月

GGDRMによる双方向変換を考慮したDNN声質変換のための事前学習法
曾根健太郎; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2018年春季研究発表会, 国内会議
発表日 2018年03月

RBMを用いた楽器音基底と演奏情報への分離による多重音解析の検討
荒川賢也; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2018年春季研究発表会, 国内会議
発表日 2018年03月

DRMを用いた唇動画像と音声の双方向変換の検討
塚本伸; 曾根健太郎; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2018年春季研究発表会, 国内会議
発表日 2018年03月

リカレント構造を持つ複素制限ボルツマンマシンによる複素スペクトル系列モデリング
中鹿亘; 高木信二; 山岸順一
口頭発表（一般）, 日本語, 第120回音声言語情報処理研究会, 国内会議
発表日 2018年02月

国際会議Interspeech2017報告
高木信二; 倉田岳人; 郡山知樹; 塩田さやか; 鈴木雅之; 玉森聡; 俵直弘; 中鹿亘; 福田隆; 増村亮; 森勢将雅; 山岸順一; 山本克彦
口頭発表（一般）, 日本語, 第120回音声言語情報処理研究会, 国内会議
発表日 2018年02月

フェイクデータを用いた ARBM に基づく非パラレル声質変換手法の改善
中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2017年秋季研究発表会, 国内会議
発表日 2017年09月

複素 RBM を用いた音声スペクトルモデリングの改良と評価
中鹿亘; 高木信二; 山岸順一
口頭発表（一般）, 日本語, 日本音響学会2017年秋季研究発表会, 国内会議
発表日 2017年09月

GCDRMを用いたテキスト・音声の同時確率表現に基づく音声認識・合成器の同時構築
曾根健太郎; 中鹿亘
口頭発表（一般）, 日本語, 日本音響学会2017年秋季研究発表会, 国内会議
発表日 2017年09月

Practice Process Analysis Using Score Matching Method Based on OBE-DTW and Its Effects on Memorizing Musical Score
Toru Nakashika; Eriko Aiba
ポスター発表, 英語, International Symposium on Performance Science (ISPS) 2017, 国際会議
発表日 2017年08月

複素RBM：制限ボルツマンマシンの複素数拡張と音声信号への応用と評価
中鹿亘; 高木信二; 山岸順一
口頭発表（一般）, 日本語, 情報処理学会音声言語研究会技術研究報告, 国内会議
発表日 2017年07月

テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法
曾根健太郎; 中鹿亘; 南泰浩
ポスター発表, 日本語, 音学シンポジウム2017, 国内会議
発表日 2017年06月

話者クラスタ適応学習可能な拡張制限ボルツマンマシンに基づく非パラレル声質変換
曾根健太郎; 中鹿亘; 南泰浩
ポスター発表, 日本語, 音学シンポジウム2017, 国内会議
発表日 2017年06月

クラスタ適応制限ボルツマンマシンを用いた話者クラスタリングと声質変換への応用
中鹿亘; 南泰浩
口頭発表（一般）, 日本語, 第31回人工知能学会全国大会, 国内会議
発表日 2017年05月

適応型 Gaussian-Gaussian RBM を用いた構音障害者音声認識
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2017年春季研究発表会, 国内会議
発表日 2017年03月

構音障害者音声認識のための適応型 restricted Boltzmann machine を用いた特徴量抽出
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 電子情報通信学会技術研究報告, 国内会議
発表日 2017年03月

話者クラスタ適応学習可能な拡張制限ボルツマンマシンに基づく非パラレル声質変換
中鹿亘; 南泰浩
口頭発表（一般）, 日本語, 日本音響学会2017年春季研究発表会, 国内会議
発表日 2017年03月

複素RBM：制限ボルツマンマシンの複素数拡張と音声信号への応用
中鹿亘; 高木信二; 山岸順一
口頭発表（一般）, 日本語, 日本音響学会2017年春季研究発表会, 国内会議
発表日 2017年03月

Simultaneous recognition of phone and speaker using three-way restricted Boltzmann machine
Toru Nakashika; Yasuhiro Minami
ポスター発表, 英語, The 5th Joint Meeting Acoustical Society of America and Acoustical Society of Japan, 国際会議
発表日 2016年11月

音響・音韻・話者ファクターを考慮したThree-way RBMよる話者・音素の同時認識
中鹿亘; 南泰浩
口頭発表（一般）, 日本語, 日本音響学会2016年秋季研究発表会, 国内会議
発表日 2016年09月

Factored 3-Way Restricted Boltzmann Machine を用いたマルチモーダル音声認識の検討
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2016年秋季研究発表会, 国内会議
発表日 2016年09月

Three-way restricted Boltzmann machineによる音声モデリングに基づく話者・音素の同時認識
中鹿亘; 南泰浩
ポスター発表, 日本語, 音学シンポジウム2016, 国内会議
発表日 2016年05月

Restricted Boltzmann Machine を用いた話者性・雑音を考慮したモデリングの検討
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2016年春季研究発表会, 国内会議
発表日 2016年03月

音響・音韻・話者情報を考慮したThree-Way Restricted Boltzmann Machineを用いた任意入力声質変換
中鹿亘; 南泰浩
口頭発表（一般）, 日本語, 日本音響学会2016年春季研究発表会, 国内会議
発表日 2016年03月

制約付きThree-Way Restricted Boltzmann Machineを用いた音響・音韻・話者情報の同時モデリング
中鹿亘; 滝口哲也
口頭発表（一般）, 日本語, 電子情報通信学会技術研究報告, 国内会議
発表日 2015年12月02日

構音障害者音声認識のための確率表現に基づく音素ラベリングの検討
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2015年秋季研究発表会, 国内会議
発表日 2015年09月

遺伝的アルゴリズムを用いたランダム写像行列の選択
片岡悠一郎; 中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2015年秋季研究発表会, 国内会議
発表日 2015年09月

話者正規化学習に基づく潜在的音韻情報を考慮した音声モデリングによる非パラレル声質変換
中鹿亘; 滝口哲也
口頭発表（一般）, 日本語, 日本音響学会2015年秋季研究発表会, 国内会議
発表日 2015年09月

Modeling Deep Bidirectional Relationships for Image Classification and Generation
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
ポスター発表, 英語, The 18th Meeting on Image Recognition and Understanding, 国内会議
発表日 2015年07月

構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 電子情報通信学会技術研究報告, 国内会議
発表日 2015年06月

適応型 Restricted Boltzmann Machine を用いたパラレルデータフリーな任意話者声質変換
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2015年春季研究発表会, 国内会議
発表日 2015年03月

少量のパラレルデータを用いたNon-negative Matrix Factorizationによる雑音環境下の声質変換
藤井貴生; 相原龍; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2015年春季研究発表会, 国内会議
発表日 2015年03月

Deep Boltzmann Machine を用いた音素ラベル情報推定
高島悠樹; 中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2015年春季研究発表会, 国内会議
発表日 2015年03月

話者適応型 Restricted Boltzmann Machine を用いた声質変換の検討
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 電子情報通信学会技術研究報告, 国内会議
発表日 2014年12月

話者適応を用いたNMFによる雑音環境下の声質変換
藤井貴生; 相原龍; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2014年秋季研究発表会, 国内会議
発表日 2014年09月

話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2014年秋季研究発表会, 国内会議
発表日 2014年09月

遺伝的アルゴリズムを用いた構音障害者の音声特徴量抽出に最適なランダム行列の生成
片岡悠一郎; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2014年秋季研究発表会, 国内会議
発表日 2014年09月

スパース表現に基づく声質変換のための結合型 restricted Boltzmann machine
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 電子情報通信学会技術研究報告, 国内会議
発表日 2014年05月

話者適応を用いたNMFによる声質変換
藤井貴生; 相原龍; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2014年春季研究発表会, 国内会議
発表日 2014年03月

声質変換のための Restricted Boltzmann Machine を用いたパラレル辞書の学習法
中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2014年春季研究発表会, 国内会議
発表日 2014年03月

Convolutive Bottleneck Network 特徴量を用いた構音障害者の音声認識
吉岡利也; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2014年春季研究発表会, 国内会議
発表日 2014年03月

話者依存型 Conditional Restricted Boltzmann Machine による声質変換
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 電子情報通信学会技術研究報告, 国内会議
発表日 2013年12月

辞書選択に基づく非負値行列因子分解による声質変換
相原龍; 中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2013年秋季研究発表会, 国内会議
発表日 2013年09月

時間変化を考慮した Deep Learning を用いた声質変換
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2013年秋季研究発表会, 国内会議
発表日 2013年09月

Convolutional Neural Networksを用いた構音障害者のための音声認識
吉岡利也; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2013年秋季研究発表会, 国内会議
発表日 2013年09月

High-frequency Restoration using Deep Belief Nets for Super-resolution
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
ポスター発表, 日本語, 画像の認識・理解シンポジウム (MIRU) 2013, 国内会議
発表日 2013年07月

RGB-D based 3D-Object Recognition by LLC using Depth Spatial Pyramid
Toru Nakashika; Takahiro Hori; Tetsuya Takiguchi; Yasuo Ariki
ポスター発表, 日本語, 画像の認識・理解シンポジウム (MIRU) 2013, 国内会議
発表日 2013年07月

Deep Belief Nets による低次元空間表現を用いた声質変換の検討
中鹿亘; 高島遼一; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2013年春季研究発表会, 国内会議
発表日 2013年03月

Specmurtを利用した調波構造行列による混合楽音解析の検討
西村大樹; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2013年春季研究発表会, 国内会議
発表日 2013年03月

Gray Level Co‑occurrence Matrix を用いた時間・音高シフトに頑健な自動音楽ジャンル分類
中鹿亘; Christophe Garcia; 滝口哲也; 有木康雄
ポスター発表, 日本語, 第15回日本音響学会関西支部若手研究者交流研究発表会, 国内会議
発表日 2012年12月

重みつきノルム基準によるF0周波数選択を用いたSpecmurtによる多重音解析
西村大樹; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2012年秋季研究発表会, 国内会議
発表日 2012年09月

Convolutional Neural Networks を用いた局所特徴統合による自動音楽ジャンル分類
中鹿亘; Garcia Christophe; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2012年秋季研究発表会, 国内会議
発表日 2012年09月

スパース性基準によるF0 周波数選択を用いたSpecmurt による多重音解析
西村大樹; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2011年秋季研究発表会, 国内会議
発表日 2011年09月

確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 電子情報通信学会技術研究報告, 国内会議
発表日 2011年07月

スパース性を考慮したSpecmurtによる多重音解析
西村大樹; 中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2011年春季研究発表会, 国内会議
発表日 2011年03月

確率スペクトルを用いた基底生成モデルとNMFによる混合楽音解析
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2011年春季研究発表会, 国内会議
発表日 2011年03月

確率スペクトル包絡に基づくNMF 基底生成モデルを用いた混合楽音解析
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 第89回音楽情報科学研究会, 国内会議
発表日 2011年02月

基底の反復生成と教師ありNMFを用いた信号解析
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 電子情報通信学会技術研究報告, 国内会議
発表日 2010年12月

NMFと基底モデルを用いた多重楽音解析
中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2010年秋季研究発表会, 国内会議
発表日 2010年09月

物体領域特徴の自動選定とマルチカーネル学習を用いた特徴統合による一般物体認識
中鹿亘; 須賀晃; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 画像の認識・理解シンポジウム (MIRU) 2010, 国内会議
発表日 2010年07月

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成
中鹿亘; 立花隆輝; 西村雅史; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2010年春季研究発表会, 国内会議
発表日 2010年03月

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討
中鹿亘; 立花隆輝; 西村雅史; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 第11回音声言語シンポジウム, 国内会議
発表日 2009年12月

多重ベータ分布を用いた音色形状の数理モデリングによる楽器音生成
中鹿亘; 滝口哲也; 有木康雄
ポスター発表, 日本語, 日本音響学会2009年秋季研究発表会, 国内会議
発表日 2009年09月

Mathematical Modeling of Harmonic-Timbre Structure with Multi-Beta-Distribution
Toru Nakashika; Tetsuya Takiguchi; Yasuo Ariki
口頭発表（一般）, 日本語, IEEE Statistical Signal Processing Workshop (SSP) 2009, 国際会議
発表日 2009年08月

多重ベータ分布による音色形状モデルを用いた多重楽音の解析
中鹿亘; 滝口哲也; 有木康雄
口頭発表（一般）, 日本語, 日本音響学会2009年春季研究発表会, 国内会議
発表日 2009年03月

担当経験のある科目_授業

コンピュータサイエンス実験第二A
The University of Electro-Communications

コンピュータサイエンス実験第二A
電気通信大学

コンピュータサイエンス実験第二B
The University of Electro-Communications

コンピュータサイエンス実験第二B
電気通信大学

イノベイティブ総合コミュニケーションデザイン1
The University of Electro-Communications

イノベイティブ総合コミュニケーションデザイン1
電気通信大学

情報領域演習第二K演習
The University of Electro-Communications

情報領域演習第二K演習
電気通信大学

情報領域演習第一P演習
The University of Electro-Communications

情報領域演習第二Q演習
The University of Electro-Communications

情報領域演習第二Q演習
電気通信大学

コンピュータサイエンス実験第一
電気通信大学

コンピュータサイエンス実験第一
電気通信大学

情報領域演習第一P演習
電気通信大学

情報領域演習第一P演習
電気通信大学

ＥｌｅｍｅｎｔｓｏｆＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓＦｕｎｄａｍｅｎｔａｌｓ２
The University of Electro-Communications

情報システム基盤学基礎２
電気通信大学

所属学協会

ISCA

日本音響学会

IEEE Membership

電子情報通信学会

共同研究・競争的資金等の研究課題

非侵襲型脳波を用いた言語・非言語音声合成による次世代コミュニケーション技術の確立
中鹿亘
日本学術振興会, 科学研究費助成事業, 電気通信大学, 基盤研究(A), 24H00715
研究期間 2024年04月01日 - 2029年03月31日

深層エネルギーベースモデルによる創造的声質変換の研究
岸田拓也; 中鹿亘
日本学術振興会, 科学研究費助成事業, 愛知淑徳大学, 基盤研究(C), 23K11161
研究期間 2023年04月01日 - 2026年03月31日

音響的分析と聞き手の心理評価に基づく表情豊かな英語スピーチ力の育成
山下友子
日本学術振興会, 科学研究費助成事業, 芝浦工業大学, 基盤研究(C), スピーチを行う場合、話し手は言語情報だけでなくパラ言語情報(意図的に表出する感情・意図・態度)をも伝達することで聞き手に伝わる表情豊かなスピーチとなる。本研究では、日本人英語学習者が英語でスピーチを行うときに、その音声にどのような音響的特徴が現れればパラ言語情報が聞き手によりよく伝わるようになるのかを明らかにすることを目的とする。本研究では独自に作成したスピーチ原稿と教材音声で英語学習者の発話訓練を行う計画である。訓練前後の音声の音響的特徴と聞き手の心理的評価結果について多変量解析を行い、どのような音響的特徴がパラ言語伝達に関連するのかを明らかにする予定である。得られた知見は、英語教育の現場で英語スピーチの指導に役立てることができると期待される。感情表現にフォーカスした英語スピーチ力を育成するという上記で述べた本研究の最終的な目的を念頭におき、まずは実験用のスピーチスクリプトを作成する参考とするため、実験参加者が感情を込めやすい状況やスピーチ内容について情報を収集する計画を立てた。本実験では日本人英語学習者の大学生を対象として実験を行う計画であるため、情報収集においても日本人大学生を対象に、特定の感情が湧いた状況をヒアリングすることとし、ヒアリング用のアンケートの作成を行った。研究代表者の山下がアンケート項目のドラフトを作成し、分担者の冬野が11名の学生を対象にパイロット実験を実施した。パイロット実験で特に問題が見られず、アンケートの有用性が確認できた。その後、石井が117名の学生を対象に本実験を行った。モデル音声作成の研究課題では、英語学習者の英語訓練を促進することを目的とし、スピーチの訓練を受けた英語母語話者の収録音声と、その音声に対するパラ言語情報のラベリングを用いて得られる、パラ言語情報の評価値と音響的特徴の相関の高いモデル音声を作成し、声質変換システムを用いて自分の声質をモデル音声へ変換する。本研究期間ではモデル学習のための事前実験として英語学習者および英語母語話者の現場での実環境音声収録、音響解析のための環境整備と声質変換モデルの考案を実施した。後者については具体的には入力特徴量中の指定属性を軽減させた潜在特徴抽出が可能なFaderNetworkを応用して、入力される英語学習者音声から得られるアクセント属性を軽減した特徴量と、英語母語話者のアクセント属性を復号器に通すことで学習者の話者性を保持したまま英語母語者のアクセントを持つ音声を合成する手法を検討しており、話者変換タスクにおける簡単な動作確認を行った。, 20K00842
研究期間 2020年04月 - 2025年03月

音声スペクトルを対数的に表現する浅層ニューラルネットに関する研究
中鹿亘
日本学術振興会, 科学研究費助成事業, 電気通信大学, 基盤研究(C), 本研究では，音声の表現に適した新しい機械学習手法として，確率的な浅層ニューラルネットである制限ボルツマンマシン（RBM）をベースに，対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する．深層学習とは異なり，RBMはコンパクトで解釈性があり，データの確率分布を陽に仮定できるため，より適切に音声を表現することができると期待される．初年度である本研究期間では，対数振幅スペクトル表現に着目し，モデル定義と実装・評価実験及び論文執筆を行なった．具体的には，可視素子として振幅スペクトルと対数振幅スペクトルを用いたRBMを定義することで，結果的に隠れ素子が与えられた時の可視素子の条件付き確率が，隠れ素子で定まる２種の分布パラメータを持つガンマ分布で表現されることを導出した．評価実験では，振幅スペクトルを従来のガウス型RBMで表現したモデルと，対数振幅スペクトルを従来のガウス型RBMで表現したモデルよりも，上記提案モデルの方が，PESQ及びSTOIに基づく客観評価基準と，自然性に関するMOS（５段階評価）に基づく主観的基準において高い精度で音声の符号化・復号化が可能であることを示した．従来研究においても，音声のスペクトルを表現する分布として正規分布よりもガンマ分布の方が適しているという報告がなされていたが，本研究では，その根拠として振幅スペクトルと対数振幅スペクトルの両方の存在確率を同時に表現しているからと考えることができるという，新しい解釈ができたという点においても意義がある．本研究成果に関して，権威のある国際論文誌であるIEEE/ACM Transactions on Audio Speech and Language Processingに１件投稿し，採択された．また本研究に関連して９件の国内会議発表，１件の特許出願を行なった．, 21K11957
研究期間 2021年04月 - 2024年03月

音声中の感情と話者性を制御できる拡張ボルツマン分布に基づく確率モデル
中鹿亘
日本学術振興会, 科学研究費助成事業, 電気通信大学, 若手研究, 研究代表者, 音声信号処理分野において、話者認識と感情認識など、異なる複数のタスクを同時に実現する手法は確立されていない。本研究では、様々な因子間の関係性を自由に表現できる性質を持つボルツマンマシンに着目し、話者認識・感情認識・話者変換・感情変換を同時に実現する手法を検討し、その有効性について評価した。実験結果により、たった一つのボルツマンマシンを用いて話者認識・感情認識・話者変換・感情変換が実現できることが分かり、また、話者のみ、感情のみを表現したあるボルツマンマシンと比べて同時に話者・感情を表現したボルツマンマシンの方が高い精度で認識・変換が可能であることが明らかとなった。, 18K18069
研究期間 2018年04月01日 - 2021年03月31日

制限ボルツマンマシンの複素数拡張モデルにおける最適化アルゴリズムとMRI画像への応用
中鹿亘
中島記念国際交流財団, 研究代表者
研究期間 2018年04月01日

制限ボルツマンマシンの複素数拡張と音声合成への応用
中鹿亘
電気通信普及財団, 研究代表者
研究期間 2017年04月01日

産業財産権

声質変換装置、声質変換方法及びプログラム
特許権, 大西弘太郎, 中鹿亘, 特願2021-026128, 出願日: 2021年02月22日, 国立大学法人電気通信大学

符号化装置、復号装置、パラメータ学習装置、およびプログラム
特許権, 中鹿亘, 特願2019-150516, 出願日: 2019年08月20日, 国立大学法人電気通信大学

符号化装置、符号化方法およびプログラム
特許権, 中鹿亘, 特願2018-31875, 出願日: 2018年02月26日, 国立大学法人電気通信大学

符号化装置、符号化方法およびプログラム
特許権, 中鹿亘, 高木信二, 山岸順一, 特願2017-037640, 出願日: 2017年02月28日, 国立大学法人電気通信大学

声質変換装置、声質変換方法およびプログラム
特許権, 中鹿亘, 特願2017-036109, 出願日: 2017年02月28日, 国立大学法人電気通信大学

声質変換装置、声質変換方法および声質変換プログラム
特許権, 中鹿亘, 南泰浩, 特願2016-032488, 出願日: 2016年02月23日, 国立大学法人電気通信大学

声質変換方法および声質変換装置
特許権, 中鹿亘, 滝口哲也, 有木康雄, 特願2015-114238, 出願日: 2015年06月04日, 国立大学法人神戸大学

学術貢献活動

音学シンポジウム2023 現地世話人
大会・シンポジウム等, 企画立案・運営等, 実施期間 2023年06月23日 - 2023年06月24日

情報処理学会第85回全国大会
パネル司会・セッションチェア等, 実施期間 2023年03月02日 - 2023年03月04日

第140回音声言語情報処理研究会主催
学会・研究会等, 企画立案・運営等, 中鹿亘, 実施期間 2023年02月28日 - 2023年03月01日

Interspeech 2023
査読, 実施期間 2023年

Interspeech 2022
査読等, 査読, 実施期間 2022年07月

音学シンポジウム2022
学会・研究会等, パネル司会・セッションチェア等, 実施期間 2022年06月17日, 幹事として学会開催を運営した．

第141回音声言語情報処理研究会幹事
学会・研究会等, 企画立案・運営等, 実施期間 2022年03月23日

第139回音声言語情報処理研究会幹事
学会・研究会等, 企画立案・運営等, 実施期間 2021年12月01日

Interspeech 2021
査読等, 査読, 実施期間 2021年07月

音学シンポジウム2021
学会・研究会等, パネル司会・セッションチェア等, 実施期間 2021年06月18日, 副実行委員長として学会開催を補佐した．

第137回音声言語情報処理研究会幹事
学会・研究会等, 企画立案・運営等, 実施期間 2021年06月18日

日本音響学会2021年春季研究発表会
学会・研究会等, パネル司会・セッションチェア等, 実施期間 2021年03月10日, 第2会場音声A/音声B/午後-後半B(16:00~17:45)[音声認識・合成I]

その他

平成30年度「大学の世界展開力強化事業(JUSST)」短期受入生（Michel Pezzat Morales）
2018年 - 2018年

平成30年度「大学の世界展開力強化事業(JUSST)」短期受入生（Scheck Kevin）
2018年 - 2018年

平成29年度「大学の世界展開力強化事業」短期受入生（Eduardo PICHARDO MORALES）
2017年 - 2017年

中鹿 亘

学位

研究キーワード

研究分野

経歴

学歴

委員歴

受賞

論文

MISC

書籍等出版物

講演・口頭発表等

担当経験のある科目_授業

所属学協会

共同研究・競争的資金等の研究課題

産業財産権

学術貢献活動

その他

中鹿　亘