ホーム > イベントにリアルタイム字幕を付ける

◆ リアルタイム音声認識字幕を付けるということ

このたびはリアルタイム音声認識字幕付与をご検討くださりありがとうございます。

ここで音声認識についてぜひご理解いただきたいことをお伝えさせていただきます。

音声認識アプリは自動的に声を文字に変換していくアプリですが、実は講演などでの話し手の音声を直接認識させても、誤認識が多くなりとても読める文章にならない場合があります。また、オンラインイベントの場合、それぞれのマイクや通信状況等により雑音があったり音声が途切れたりすると、直接認識させても理解できる文章にならない場合が多いです。

そのため当方では、話し手の話を、ほぼ話すとおりにそのまま全てこちらでリスピーク(復唱)して認識させる手法を取ることがほとんどです。もちろん、音声状況が非常によく、話し手の音声をそのまま認識させても誤認識が少ないと判断した場合は、リスピークから直接認識に切り替えたりしながらの運用になります。

また、固有名詞や普段使わないような言葉、言い回しなどは、いくらリスピークとはいえそのままできちんと認識が出るわけではありません。そのため、事前に資料などをいただき当方で全て内容に目を通し、あらかじめ単語登録したほうがよい語句をピックアプし登録していきます。1つのイベントで数百〜1000を超える単語を登録する場合もあります。

ですので、全自動で音声認識字幕の表示を行っているわけではないということをご理解いただければ幸いです。

それから、一番大事な点として…

イベントで話される方、皆さんに、音声認識で字幕を表示することをお伝えいただき、話し方に少しだけ配慮をいただくよう、主催者さまよりお伝えいただければとてもありがたく思います。

「音声認識で字幕を付けます」

だけでは不十分だと考えております。

何のために字幕を付けるのでしょうか。主には聞こえにくい方が文字で情報を得られるようにということもありますが、聞こえる聞こえないにかかわらず、文字を読むのが苦手な方もいらっしゃるかと思います。それでも情報を得るために頑張って文字を読もうとされたり、また、外国籍の方で日本語が不得手な方、聞こえる方でも文字があったほうが理解しやすい方、その他、盲ろうの方で字幕を読み上げる機械を用い、それを点字に変換して情報を得るという方も中にはいらっしゃいます。

もし、話し手の話し方がものすごく早口で聞き取りにくい話し方だとしたら、いくらリスピークとはいえ誤認識も多くなりますし、出てくる文章に句読点も入りにくく、ものすごい速さで流れていく字幕になってしまいます。これでは字幕を読む方はとても読むのが追いつかない場合も出てきて、読むのを諦めてしまうこともあるかもしれません。せっかくリアルタイムの字幕を付けても、読んでもらえなければもったいないと思うのです…。

できる限り読みやすい字幕にするためには(音声認識で誤認識が少なく、読むスピードに合った字幕にするためには)、話す方に、区切りや間を意識しながら話していただくのがよいかと思います。不必要にひどくゆっくりとか、区切りだらけにする必要はありません。1文は流れるように話していただいていいのですが、自分は普段から早口と思われる方は、少しだけゆっくりを意識しながら話していただくとよりいいのではないかと思います。字幕を読む必要のない普通に聞こえる方も、そのほうが聞き取りやすく、内容も理解しやすくなのではないでしょうか。

長々となりましたが、最後までお読みいただきありがとうございました。

以上の点、ご理解いただけましたら幸いでございます。