Item type |
SIG Technical Reports(1) |
公開日 |
2015-10-23 |
タイトル |
|
|
タイトル |
HTML5対応クラウド音声認識プラットフォーム |
タイトル |
|
|
言語 |
en |
|
タイトル |
Introduction of noise-robust ASR platform based on HTML5 |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
NTTコミュニケーションズ |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
NTTコミュニケーションズ |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Communications Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Communications Corporation |
著者名 |
鎌土, 記良
藤村, 滋
岩瀬, 義昌
青野, 裕司
政瀧, 浩和
山田, 智広
大津谷, 亮祐
|
著者名(英) |
Noriyoshi, Kamado
Shigeru, Fujimura
Yoshimasa, Iwase
Yushi, Aono
Hirokazu, Masataki
Tomohiro, Yamada
Ryosuke, Otsuya
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
我々はこれまで,PC やモバイル端末を問わず,HTML5 対応 Web ブラウザのみでサーバークライアント型音声認識機能を実現する方式の提案と,その実用性について報告を行ってきた.我々が提案する方式では,クライアントで実行される JavaScript を介して音声認識機能の利用が可能となるため,ブラウザさえインストールされていれば端末を問わず音声認識機能をネットワークを介して利用することができる.具体的には,クライアントのブラウザ上で実行される JavaScirpt にてマイクからの音声データの取得と圧縮を行い,Web サーバへのストリーミング送信を実施する.サーバー側では,送信音声に対し音声区間検出器 (Voice Activity Detector; VAD) と音声認識処理を行う.これによりクライアントでの計算コストを削減し,Web ブラウザのみでの音声認識を実現する.本システムは NTT アイティ社の協力の元,SpeechRec for Browser としてサービスインした.昨年からは,NTT ドコモのドコモ・デベロッパー・サポートへ,今年は NTT コミュニケーションズの SkyWay からの利用ができるようになり,徐々にその利用が広まりつつある.そこで,本稿では,これまで我々が提案してきたシステムの構成について,再度詳細を述べた上で,昨今のブラウザや端末の対応状況確認を実施し,最後に提案システムの具体的な利用方法について述べる. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We propose a browser-based speech recognition system using HTML5 in a broad sense and report its performance in actual use. Our proposed method enables browsers in PCs and mobile devices to use speech recognition function by client-side JavaScript code. Unlike traditional Web applications, there is no need to install specific application or browser plug-in. The flow of processing, at first getting the streaming audio data from the microphone of the client, and the client device transmits its streaming data to the speech-recognition server by the WebSocket protocol. In consideration of the quality of mobile broadband, by using client-side JavaScript, compression for audio data is also performed, and the Voice Activity Detector(VAD) and the speech recognition decoder are implemented to the server because of the reduction of the computational cost of the client. The proposed system has been started to provide as a SaaS “SpeechRec for Browser” from last year by NTT-IT. This service is not only available from DoCoMo developer support of NTT DoCoMo from last year, is now available from the SkyWay of NTT Communications. In this paper, we explain the architecture of our proposed system and support status of browsers and devices again based on this kind of scenery. And we also report the audio compression performance in the client and the quality of actual use in mobile broadband. In the result, even now the proposed method has adequate quality as using speech recognition system. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2015-SLP-108,
号 3,
p. 1-6,
発行日 2015-10-23
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |