ログイン
Language:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 資料タイプ別
  2. 学術雑誌論文

Investigation of DNN-Based Audio-Visual Speech Recognition (Special Section on Recent Advances in Machine Learning for Spoken Language Processing)

https://tokushima-u.repo.nii.ac.jp/records/2003784
https://tokushima-u.repo.nii.ac.jp/records/2003784
b63fb834-1f54-471b-89e0-1d32e33d4053
名前 / ファイル ライセンス アクション
ieice_trans_e99-d_10_2444.pdf ieice_trans_e99-d_10_2444.pdf (808 KB)
アイテムタイプ 文献 / Documents(1)
公開日 2017-08-29
アクセス権
アクセス権 open access
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
出版社版DOI
関連識別子 http://search.ieice.org/bin/summary.php?id=e99-d_10_2444&category=D&year=2016&lang=E&abst=
出版タイプ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
タイトル
タイトル Investigation of DNN-Based Audio-Visual Speech Recognition (Special Section on Recent Advances in Machine Learning for Spoken Language Processing)
著者 タムラ, サトシ

× タムラ, サトシ

ja タムラ, サトシ

ja-Kana タムラ, サトシ

en Tamura, Satoshi

Search repository
ニノミヤ, ヒロシ

× ニノミヤ, ヒロシ

ja ニノミヤ, ヒロシ

ja-Kana ニノミヤ, ヒロシ

en Ninomiya, Hiroshi

Search repository
北岡, 教英

× 北岡, 教英

WEKO 728
e-Rad 10333501

ja 北岡, 教英
ISNI

ja-Kana キタオカ, ノリヒデ

en Kitaoka, Norihide

Search repository
オオスガ, シン

× オオスガ, シン

ja オオスガ, シン

ja-Kana オオスガ, シン

en Osuga, Shin

Search repository
イリベ, ユリエ

× イリベ, ユリエ

ja イリベ, ユリエ

ja-Kana イリベ, ユリエ

en Iribe, Yurie

Search repository
タケダ, カズヤ

× タケダ, カズヤ

ja タケダ, カズヤ

ja-Kana タケダ, カズヤ

en Takeda, Kazuya

Search repository
ハヤミズ, サトル

× ハヤミズ, サトル

ja ハヤミズ, サトル

ja-Kana ハヤミズ, サトル

en Hayamizu, Satoru

Search repository
抄録
内容記述 Audio-Visual Speech Recognition (AVSR) is one of techniques to enhance robustness of speech recognizer in noisy or real environments. On the other hand, Deep Neural Networks (DNNs) have recently attracted a lot of attentions of researchers in the speech recognition field, because we can drastically improve recognition performance by using DNNs. There are two ways to employ DNN techniques for speech recognition: a hybrid approach and a tandem approach; in the hybrid approach an emission probability on each Hidden Markov Model (HMM) state is computed using a DNN, while in the tandem approach a DNN is composed into a feature extraction scheme. In this paper, we investigate and compare several DNN-based AVSR methods to mainly clarify how we should incorporate audio and visual modalities using DNNs. We carried out recognition experiments using a corpus CENSREC-1-AV, and we discuss the results to find out the best DNN-based AVSR modeling. Then it turns out that a tandem-based method using audio Deep Bottle-Neck Features (DBNFs) and visual ones with multi-stream HMMs is the most suitable, followed by a hybrid approach and another tandem scheme using audio-visual DBNFs.
キーワード
主題 audio-visual speech recognition
キーワード
主題 deep neural network
キーワード
主題 Deep Bottleneck Feature
キーワード
主題 multi-stream HMM
書誌情報 en : IEICE Transactions on Information and Systems

巻 E99-D, 号 10, p. 2444-2451, 発行日 2016-10-01
収録物ID
収録物識別子タイプ ISSN
収録物識別子 17451361
収録物ID
収録物識別子タイプ NCID
収録物識別子 AA11510321
出版者
出版者 The Institute of Electronics, Information and Communication Engineers
備考
値 IEICE Transactions Online TOP:http://search.ieice.org/
権利情報
権利情報 (c)2016 The Institute of Electronics, Information and Communication Engineers
EID
識別子 315662
言語
言語 eng
戻る
0
views
See details
Views

Versions

Ver.1 2024-10-28 02:24:29.677442
Show All versions

Share

Share
tweet

Cite as

Other

print

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX
  • ZIP

コミュニティ

確認

確認

確認


Powered by WEKO3


Powered by WEKO3