AI音声認識とは│業務効率化のポイントとシステム選定の注意点を解説

2024/10/02

コールセンター業界では、長年続いた人手不足への有効な解決策として「AI」の導入、活用方法に注目が集まっています。その中でも一般化しつつあるのがAI音声認識システムです。

今回はコールセンターでのAIを活用した音声認識システムについて、その導入事例や選定ポイントや主要ベンダーの特徴を解説します。

AI音声認識システムとは

AI音声認識システムとは、コールセンターに日々寄せられる電話問い合わせの音声データをAI技術を活用した音声認識でテキスト化するシステムのことです。テキスト化することで構造データとして扱うことができ、対応履歴の入力の省力化や、分析などに活用されています。

また、リアルタイムでテキスト化を行うことで、SVのモニタリングの補助や、自然言語処理と組み合わせることでFAQのレコメンドなどを可能にしています。

コールセンターが抱えている課題とは

AI技術を利用した音声認識システムが注目されるようになった背景には、コールセンターが抱える課題にあります。

深刻な人手不足

コールセンターで働くオペレーターの年間離職率は約5割の企業で10%以上、2割の企業で11~30%(コールセンター白書 2021)であり、2020年のデータに比べると改善されているものの、人手不足の状態が発生しています。

また若者の電話離れや他業界の時給高騰もあり、採用難の状態が続いています。離職率が高い理由としては、「教育体制が不十分で、知識が不十分のまま電話対応しなければならない」「クレームなどの対応」など、心身ともに負担が大きいことが考えられます。

SNS発展に伴い、サービスレベルは高いものを求められる

近年SNSが発展し、個人が発信力をもつ時代になったため、よりお客様対応を慎重に行う必要があります。良い対応はSNSにより拡散され、企業ブランドを高めることが期待されますが、逆に不注意な対応を行えば企業ブランドを著しく害する可能性があります。

そのためコールセンター運営側は、以前よりオペレーターのモニタリングを慎重に行う必要があります。

意味のあるデータ蓄積・分析が求められている

AIを利用し高度なビッグデータ分析が可能になった今、企業にとってデータ蓄積することが競争優位を築く上で重要になっています。
コールセンターは年間何万件もの問い合わせがあり、企業にとってVOC(Voice Of Customer=お客様の声)データを集める重要な場となります。

しかし、音声データは非構造化データのため、そのままデータで分析することは困難です。
そのため、オペレーターが残す対応履歴を元に分析してきましたが、オペレーターごとに対応履歴の残し方がバラバラだったり、オペレーターの解釈が入っていたりと、その品質には課題があります。

意味のあるデータ分析のため、対応履歴の平準化、均一化はコールセンターの大きな課題となります。

AI音声認識システム導入による効果

AI音声認識ができることは、大きく下記の2つです。

現在コールセンターの現場で導入が進んでいるAI音声認識システムは、主にオペレーター業務の補強ツールとしてのAI音声認識システムになります。

人を介さず自動対応で電話対応人数・工数を削減

コールセンターに電話すると「○○の方は1を押してください」といった電話対応を受けたことがありませんか。これは、IVR(自動音声応答装置、Interactive Voice Response)といい、自動メッセージが対応することは今では一般的になりました。

現在はIVRがさらに進歩し、「○○について問い合わせ」といったお客様の発言に反応して、AIが担当を振り分けるシステムも登場し、人を介さずにAI音声認識システムのみで対応が完結するものも出てきており、コールセンターの自動化に向けて注目されています。

オペレーターの業務を補強するアシスタント機能

しかし、完全な自動応答にはまだまだ課題が多く、現在メインとなっているのはオペレーターの業務を補強するアシスタント機能としてのAIです。

例えば顧客対応を行うオペレーターに対し、AIが問い合わせに応じて画面上にFAQやマニュアル、予測される回答などを提示します。
AIが回答例を提示して対話を主導することにより、ナレッジの検索精度が上がり、新人オペレーターであってもベテランに近い対応が可能になります。そのため教育にかける時間を短縮することができます。

また会話内容がリアルタイムでテキスト化されることによって、対応履歴の入力工数が削減できます。これによりコールセンター全体として1件当たりの対応時間が短くなり、応答率を担保することが可能となります。

【導入事例】大手インターネットサービスプロバイダ通信事業会社のAI音声認識システム活用方法

ここで大手インターネットサービスプロバイダ事業を展開する通信事業会社の事例をご紹介します。
同社は全国8拠点1400席のコールセンターを運営しており、サービス利用方法やトラブルシューティングなどお客様からの問い合わせに対応しております。

AI音声認識システムを導入した目的は、コールセンターの応対品質やパフォーマンスのばらつきを抑え、オペレーターの人材不足の市場でも安定的なセンター運営を行うためです。
AI音声認識システム導入により、オペレーターの業務が効率化、後処理時間90秒短縮による人件費の大幅な削減が見込まれ、通話の見える化によって応対品質の向上・均一化が可能になりました。

システム選定時の注意点とは?

何を基準に選定すればいいのか

音声認識を選定する際に最大のポイントとなるのは「認識精度」です。どれだけ機能が優れていても、認識精度が悪ければパフォーマンスを発揮しません。
そのため、まずは認識精度を見ることが重要になります。

チューニングコストに注意

システム選定時に気をつけなければいけないのが、初期の認識精度だけで比較してはいけない点です。

音声認識は初期の認識精度だけでなく、その後どのように認識精度が上がり、そして維持できるのかがポイントになります。
現状の音声認識システムは、放置しておくと認識精度がどんどん下がっていきます。認識精度を維持するには、「チューニング」と呼ばれる定期的なメンテナンスが必要になりますが、このチューニング作業は通常ベンダー側が行う場合が多く、費用が発生します。

そのため、システム導入前には「チューニングにどれだけの工数とコストをかけないといけないか」といった点を確認することで、長期間活用が可能かどうかの判断ができます。

数字だけで判断するのは危険

また、認識率の「数字」だけでみるのも注意しなくてはいけません。
認識率は通常、音声認識によってテキスト化された文字が正解テキストに対してどれだけ正確に文字化されているかを割合でみます。

しかし、この誤字脱字の考え方や1文字ごとにみるのか、1単語ごとでみるのかなど企業によって認識率の取り方はバラバラです。
そのため、数字上は同じ認識率でも受ける印象が全然違う場合もあります。

認識率は数字だけでなく、見た目の印象、またそれを補完するUIや機能があるかが重要になります。

国内AI音声認識システム主要ベンダーとその特徴

最後に、コールセンター向けにソリューションを展開している国内主要ベンダー4社を紹介します。

株式会社アドバンスト・メディア

サービス名:AmiVoice®Communication Suite
アドバンスト・メディアは、国内でトップシェアをもつ音声認識ベンダーになります。

大手カード会社や運送会社など、幅広い業界のコールセンターに対して導入実績があります。長年お客様の要望に応え機能を開発してきており、初期で実装されている機能面も充実しています。

また、大手PBXメーカーやCRMメーカーとも提携を結んでおり、連携実績も多数あるため、既存システムとの連携もスムーズにできる点が強みになります。

<特徴>

  • 国内最多の導入実績
  • 感情分析、オペレーター評価システムなど機能が豊富
  • PBX、CRMなど各システムとの連携実績多数

Hmcomm株式会社

サービス名:Voice Contact® Hmcomm
Hmcomm株式会社は産業技術総合研究所発の音声認識ベンチャーになります。

産総研独自の音声処理技術を用いた要素技術の研究や開発、 ソリューション、サービスの提供を行っており、国内ベンチャー賞で多くの受賞歴があるなど、国内でも有数の技術を保有しています。

また、ユーザー側でチューニングができる独自の機能(特許)を提供しており、チューニング作業が手軽にできることも大きな特徴になっています。

音声認識、自然言語処理の研究も行っており、音声認識から要約までをすべて自社ソリューションとして提供しているのも強みになります。

<特徴>

  • 産業技術総合研究所発の高性能エンジンを使用しており、精度が高く、相対的に安価である
  • ユーザー側でチューニングができる独自機能も含め、全ての機能をワンストップで提供
  • フルスクラッチによりPBX、CRMなど連携可能

東芝デジタルソリューションズ 株式会社

サービス名:東芝コミュニケーションAI RECAIUS(リカイアス)
東芝デジタルソリューションズ株式会社は日本の大手電機メーカーであり、音声認識、音声合成、翻訳、対話、意図理解、画像認識などを統合した「東芝コミュニケーションAI RECAIUS(リカイアス)」を提供する会社です。
特徴は全ての製品を⾃社開発しており、認識・合成ともに⽇本語に強い点です。

また独自の⾳声特徴量抽出技術を採⽤しており、できるだけ少ない文で認識精度を上げていくことができます。
今後翻訳や音声合成を利用した自動応答など、音声認識のみならず、機能の拡張が期待されます。

<特徴>

  • 話し⾔葉に強く、少ないデータで学習可能な独⾃カスタム技術
  • 日・英(米語)・中(北京語)・韓国語に対応
  • 音声合成、機械翻訳の技術を保有

丸紅情報システムズ株式会社

サービス名:omnis (エムシスオムニス)
丸紅情報システムズは、SIerと技術商社という2つの特性を持つ丸紅の子会社になります。

Google Cloud Platform(Googleが運営しているクラウドコンピューティングのプラットフォーム)をコールセンター利用に特化したソリューションとして展開しています。

全世界のGoogle ユーザーが日々認識精度向上に貢献しているため、初期の段階から高い認識率を出すことができます。

また、クラウドを利用し従量課金での提供となるため、繁閑差が激しいコールセンターに導入しやすいメリットがあります。また、短期間での導入が可能になっているのが強みになります。

<特徴>

  • Google音声認識をベースとした初期の高い認識率
  • 従量課金のため、利用した分のみの費用となり過剰な設備投資が不要
  • 導入にかかる時間が短い(最短1か月で導入可能)

図1-1 機能比較表

※スマートフォンの画面サイズではスクロールが可能です。

機能Advanced
Media
HmcommRECAIUSOmnis
自動
言語
学習
××
ユーザー
チュー
ニング
機能

ベンダー
依頼必要

ベンダー
依頼必要
×
チューニング
不可
単語登録
リアルタイムテキスト化
自動FAQ検索
他社連携
必須

AP提供
自動要約
他社連携
必須

AP提供
自動帳票入力×××
モニタリング機能×
感情分析
オプション
×
自動FAQ生成×××
オペレーター評価機能
オプション
×

図1-2 価格と機能のポジショニング

図1-3 チューニングコストのポジショニング

最後に

比較した4社の認識精度は、オペレーターの認識率が平均80~95%と言われており、顧客など鮮明でない話し方の音声は、平均50~80%程度と言われています。

また認識精度はPBXやオペレーションに依存するため、実務に耐えうるかはPoCを実施するまで評価が難しいところがあります。

そのためPoC実施の際は、認識精度はもちろんですが各社の機能特徴をつかみ、自社のオペレーションにあったものを選ぶことが大切です。

また音声認識は導入後もメンテナンスが必要なため、メンテナンスのしやすさや各社の対応についても注目する必要があります。

コンタクトセンターの運営課題をお持ちのご担当者様へ

「コンタクトセンターの人材採用がなかなかうまくいかない」「定着率をあげたい」「生産性を高めたい」とお悩みのご担当者様、まずはお気軽にウィルオブ・ワークにご相談ください。コールセンター専門特化25年以上、実績多数のウィルオブ・ワークが、お客様の運営課題にカスタマイズのご提案をさせていただきます。ご相談・お見積りは無料!次のボタンよりお気軽にご相談ください。

WILLOFについて知る

Writer編集者情報

  • コネナビ編集部 小林 弘明

    新卒1年半は銀行にて勤務。その後 株式会社セントメディア(現:株式会社ウィルオブ・ワーク)にキャリアチェンジし、営業職と支店長を経験。
    その後4年間は教育担当者として従事し、本部営業を1年間経験。現在は営業推進部マネージャとしてスタッフキャリア支援を担当。

    ・趣味:北海道の田舎で育ったので、自然アクティビティが大好き!特にシュノーケリング、川遊び。
    ・特技:飲み屋でだれとでもすぐ仲良くなること。

Related article関連記事

関連記事がありません。

法人お問合わせ・資料ダウンロード

コンタクトセンターの採用・運営に関してお悩みの方、お仕事探しの方はお気軽にお問合せください。