このページの大半は、し ました。最近更新した箇所は緑の字で示しています。
現在市販されている一般向けの音声認識ソフトでは、ユーザーの癖を音声認識ソフトに教えることで、認識率を向上できます。これは、「エンロール」と呼ばれています (この作業が必要ないソフトもあります)。「エンロールには時間がかかる」と、古い音声認識ソフトを使った人はよく思い込んでいるようです。これははっきり言って間違いです。2005年時点では、十数分のエンロールで必要十分な効果は得られます。また、長く使えば劇的に向上するようなものでもありません。これでも音声認識がうまくいかない場合、本質的な問題点は、マイクの位置などまったく別のところにあります。 しかしこのような問題点には、一人ではなかなか気づくことができません。
文章入力する人であれば、だれでも音声認識を便利に活用することができます。特に大量の文書を扱う翻訳者、報告書をまとめるビジネスパーソン、レポートや小論文を書いている中学生・高校生・大学生、論文を執筆している研究者、出版社・記者・文筆業の方などには便利でしょう。
条件付きながらテープ起こしにも使えます。
文章の入力では、どのような用途でも使用できます。私は、専門誌の記事執筆、翻訳、本の執筆、メールの発信や返信、掲示板への書き込み、読書中のメモ取り、Webサイトやプレゼンテーションの作成などほとんどすべての文章入力に使用しています。
翻訳支援ツールを使う場合は、細切れ入力になるため、効率も認識率もベストではありません。
キーボードのみの入力よりは早く、また楽に入力できます。
また自分の声を聞くことになり、声に出しておかしな文章でないか確認することができます。つまり文章の推敲が同時にできるわけです。
慣れれば「少し早口」程度の速さで入力できます。以下は実際に入力に掛かった時間です。
音声認識でどれだけ速く入力できるか実験してみましょう(15秒。3回目の試行では7秒)。()内の数字は入力にかかった時間です(訂正の時間を含む)。
訂正する個所が多いと時間がかかることもありますが、1度で認識できた場合には、キーボードよりもはるかに速く入力できます。(19秒)
キーボードで実際にこれらの文を入力して、どれだけ時間がかかるか測ってみてください。(12秒)
キーボードでもこの速さで入力するのは不可能ではありませんが、長時間作業すると、疲労の度合いが大きいはずです。
音声認識は、長時間パソコンを使用して指、手、肩、腰などが痛い場合に助かります。実際にその理由で購入している人も多いようです。
残念ながら、現在の音声認識は常に100%正確に入力できるわけではありません。しかし実際に音声認識が正しく使われている場合、ほとんどの方は、その速度と正確さに驚かれるようです。一般に認識が困難な、カタカナ語を含んでいる文章でも、95%程度は認識されます。文章によっては100%に近い認識ができることもあります。キーボードで修正が必要な場合でも、キーボードのみの入力よりははるかに早く、また楽に入力できます。
結論から言えば必ず一回で入力できるとは限りません。慣れれば訂正を最小限にすることができますが、「訂正しながら入力する」のが基本です。しかし、音声入力の速度はキーボードよりも大幅に速いために、訂正の時間を含めても全体的には早くて楽です。自分が書いた文章を人に見せる前に、必ず読み返す習慣が必要です(これは音声認識以前の「常識」だと思いますが)。
音声認識には特殊な話し方は必要ありません。「普通に話す」だけで入力できます。逆に言えば、早すぎる、遅すぎるなど極端な話し方では認識率が下がります。慣れれば認識可能速度の限界が分かってきます。また、「認識率を上げる話し方」のコツもあります。
もちろん可能です。英語の認識には英語版の音声認識ソフト(ViaVoice for Windows Pro V10 英語版 、ViaVoice Standard Edition 英語版、Dragon NaturallySpeaking® Standard 8など)が必要です。ただし発音がネイティブ並みである必要があります。 またアメリカ英語とイギリス英語の区別もあるので、(それそれのバージョンに応じて)どちらかのアクセントで話す必要があります。その他の種類の英語版もありますが、「日本人英語版」はまだありません……。
ただし、日本語版のソフトでは、カタカナ語は英語的な発音では認識されません。あくまでもカタカナ語として発音する必要があります。
音声認識の技能習得は、それほど難しいものではありません。むしろ速く入力できるという点では、キーボードからの入力より簡単に習得できます。
しかし音声認識は、必ずしも独学で学べるとは限りません。ちょっとした勘違いが認識率を大きく下げていることもあり、独学ではそのことに気づくのが非常に困難な場合があるからです。
自分で試してみてどうしてもうまくできない場合は、実際に使っている人から直接学ぶのがよいでしょう。
基本的には不可能ではありませんが、条件があります。現在市販されている音声認識ソフトは、何人もの人間が(しかも時には同時に)話す会議などの音声認識は苦手です(業務用ではこのような状況に対応できるソフトもあります)。また、テープやMDの録音では、音質が悪かったり、雑音が多かったりすることがあります。これらの要因も音声認識の障害となります。テープ起こしは、「音声認識を意識した話し方や環境」でのみ可能です。 インタビューなどでは、相手に音声認識を意識して話してもらうわけにもいかないでしょう。現実的には、(認識させるコツを知っている)「自分が話す」ことと「静かな環境」であることが必要になります。
ただし、テープなどの会話を聞き取り、自分で再度発声することにより、どのような音源でも音声認識させることができます。これはリスピーク(respeak)と呼ばれています。一見面倒なようですが、キーボードから入力するより早くて楽です。またキーボードのように両手で入力する必要がないため、フットコントローラは不要です。
ボイス レコーダーには、音声認識ソフトと連携できるものも多くあります。ボイスレコーダーで直接録音して、パソコンに転送し、パソコン上で 音声認識を行います。
初心者にはヘッドセット型をお勧めします。音声認識ソフトには付属している場合もあります。正確に認識させるためにはマイクの選択は重要ですが、最初のうちはこれで十分です。初心者にとっては、マイクの種類よりも、マイクの位置や話し方の方がはるかに大きな問題です。