プッシュ式IVRはもう古い?声でAIが用件を把握するボイスIVRとは
2025/07/02
- システム導入

コンタクトセンターの人材不足が深刻化する中、多くの企業がノンボイス化による効率化を推進してきました。しかし、アメリカでは2027年時点でも電話接触率が60%以上、日本では全世代で電話が最も選ばれるチャネルという現実があります。つまり、真の課題解決には「電話そのものの効率化」が不可欠なのです。
そこで注目を集めているのが、顧客の自由な発話をAIが理解して適切に振り分ける「ボイスIVR」です。従来の「○○の方は1を押してください」という煩雑なプッシュ式IVRを革新することができます。
本記事では、ボイスIVRが注目される背景から、3つのAI技術(ルールベース・識別系AI・生成AI)を組み合わせた意図理解の仕組み、実際の導入事例と効果、そして導入時の課題と現実的な解決策まで、包括的に解説します。AIエージェント化や感情認識技術といった未来展望も含め、コールセンター運営の新たなスタンダードとなりつつあるボイスIVRの全貌をお伝えします。
なぜ今ボイスIVRが注目されているのか
コンタクトセンターの最大の課題は人材不足です。この課題解決に向けて、多くの企業がノンボイス化を推進し、コール件数を減らす取り組みを続けてきました。確かにコール自体は減少傾向にありますが、ボリュームゾーンは依然としてコールが占めており、ノンボイス化にも限界が見えてきているのが現状です。
つまり、コンタクトセンターが真に向き合うべき課題は、コールそのものをいかに効率化するかということなのです。
電話の根強い存在感
米国の現状:2027年でも電話接触率は60%以上
コンタクトセンター先進国と呼ばれるアメリカの統計データを見ると、驚くべき事実が浮かび上がります。チャネル別の接触率推移を示すグラフでは、確かにノンボイス化が進み、メールやチャットの利用が増加しています。しかし、2027年時点での電話接触率の予測は、それでも60%以上。つまり、半数以上の顧客が依然として電話を選択し続けるということです。
日本の実態:全世代で電話がトップ
翻って日本の状況はどうでしょうか。トランスコスモスが2024年に実施した「オムニチャネル利用実態調査」では、問い合わせで最初に選ぶ手段について世代別に調査しています。その結果、全世代で最も選ばれているのは「電話オペレーター」でした。
特に注目すべきは、電話離れが進んでいると言われる20代でも、最初に選ぶチャネルは電話であるという事実です。70代の高齢者が電話を選ぶのは想像がつきますが、若年層においても電話の存在感は依然として大きいのです。
なぜ電話は選ばれ続けるのか
なぜ電話チャネルがこれほどまでに選ばれるのでしょうか。それは、音声でやり取りするインターフェースが人間にとって最も強力なUIだからです。
人間は有史以来、この「ボイスUI」を活用してコミュニケーションを取ってきました。話すことは基本的に生まれながらに備わっている能力で、文字を書いたりテキストを打つよりも早く習得される、最も自然に操ることができるUIなのです。
さらに、音声は伝えられる情報量が圧倒的に多いという特徴があります。1分あたりのスマホ入力は約60文字とされていますが、音声では約250文字と4倍以上の情報量を伝えることができます。加えて、文字情報だけでは表せないニュアンスや感情も同時に伝達可能です。
そして電話は、老若男女誰もが使えて、デフォルトでスマートフォンにインストールされている音声コミュニケーションアプリです。「誰ものスマートフォンにインストールされていて、誰もが使い方を理解している」という状態を実現するのは普通のアプリでは困難ですが、電話はそれを既に実現しています。強固なインフラと通信の安定性も担保されており、この優位性を置き換えることは容易ではありません。
統計情報からも、改めて「電話業務は容易にはなくならない」という前提で、コンタクトセンター運営をする必要があることがわかります。
従来のプッシュ式IVRの課題
電話チャネルの重要性が明らかになった一方で、従来の電話応対システムには大きな課題がありました。それが、プッシュ式IVRの限界です。

プッシュ式IVRは、ユーザーがガイダンスを聞いて要件に合った番号を選択するシステムです。しかし、このシステムには根本的な問題があります。
まず、ユーザーにとって受け身のUIであることです。従来のプッシュ式IVRでは、ユーザーはすべてのガイダンスを聞かなければ選択肢を理解できません。さらに、提示できる選択肢は5つから10個程度に限られており、アナウンスを聞いても自分の用件がどれに当てはまるのかわからないケースもあります。
結果として、ユーザーは間違ったルートからオペレーターに繋がってしまい、顧客体験の悪化とオペレーター業務の非効率化を招いているのです。こうした背景から、従来のプッシュ式IVRの課題を乗り越える、新たなソリューションとしてボイスIVRに注目が集まっているのです。
ボイスIVRとは何か
ボイスIVRとは、端的に言うと「お客様が声で入力した自由に発話した内容を、AIがその問い合わせ内容の意図を理解して適切なコールリーズン(問い合わせ理由)に振り分ける」システムです。ボイスボット(Voice-bot)が特定の手続き処理に対応するのに対し、ボイスIVR(Voice-IVR)は振り分けすることに特化したシステムになります。
ただ、振り分けと言っても、従来のプッシュ式IVRのような決められた選択肢から番号を選ぶのではなく、顧客が自分の言葉で用件を説明すると、AIがその内容を理解し、最適な担当部署や解決チャネルへと自動的に案内します。このシステムの中核となるのは、AIが顧客の自然言語を理解する「意図理解」技術であり、AIが顧客の言葉を自然言語で理解することでAIエージェントなどにも繋がるあらゆる可能性を生み出すことができます。
プッシュ式IVRとの革新的な違い
比較項目 | プッシュ式IVR | ボイスIVR |
UI | 顧客は受動的なUI | 顧客が能動的なUI |
提示できる選択肢 | 5~10 | 数十〜数百 |
体験 | 全てのガイダンスを聞く | 自分の用件を話す |
従来のプッシュ式IVRは、人がガイダンスを聞いて要件に合った番号を押すという操作を何回か繰り返すことで担当者に繋がるシステムでした。このシステムではユーザーにとって受け身のUIとなっており、提示できる選択肢は5つから10個程度に限定されます。ユーザーは全てのガイダンスを聞かないと選択肢を理解できず、自分の要件がどれに当てはまるのかわからないケースが頻発し、結果として間違ったルートでオペレーターに到達してしまうという課題がありました。
一方、ボイスIVRは全く異なるアプローチを採用しています。ユーザーからアクティブにアクションを起こすUIとなっており、ユーザーが聞きたい内容を自由な言葉で話すことができます。AIがその要件を判断して適切なフローに接続するため、階層構造がなく最短ルートで目的の担当者に繋がることができるのです。これにより、従来の受け身的なユーザー体験から能動的なユーザー体験への大きな転換が実現されています。
ボイスIVRの中核技術である「意図理解」とは
ボイスIVRの中核を担うのは、「AIが顧客の言葉を自然言語で理解する」技術、いわゆる「意図理解」です。顧客は何らかの用事があってコールセンターに連絡してきますが、これまでは電話でユーザーの用事を事前に知る手段として、プッシュ式IVRが利用されてきました。しかし、前述した通り、離脱率の高さや把握できる粒度の粗さ、その結果、多くの顧客が自分の問題に合った選択肢を見つけられず、誤ったルートでオペレーターに到達している現状がありました。
この課題を解決するために、AIの言語モデルを使って自然言語で理解することが可能になったのが、最近の技術発展による大きな成果です。AIが意図を理解する、言い換えれば既存のカテゴリーとマッチングさせる方法は、現状では大きく3つのアプローチがあります。
ルールベースによるマッチング
あらかじめ設計されたルールに基づいて判断する方法です。例えば「解約」のような決められた単語が出てきたら、解約カテゴリーに振り分けるといった具合です。
この手法の利点は、ユーザー側もAI側も定型の処理で済み、結果をコントロールしやすいことです。しかし一方で、言葉の揺らぎに対応できず、ルール同士の矛盾が発生する可能性もあります。このアプローチだけでは顧客の意図を理解するのは限界があります。
意図振り分け特化モデルによるマッチング
意図振り分け特化モデルは、事前に学習した内容に基づいて、顧客の要件をどのカテゴリーに振り分けるか判断する方法です。
この手法では非定型の発話でも受け取ることができ、言葉の揺らぎに対応可能という柔軟性があります。しかし、あらかじめ事前学習が必要で、学習データの準備が必要となり、未学習の内容には対応できないという制約もあります。柔軟性は向上しますが、運用開始までの準備コストが高くなるという課題があります。
生成AIモデルによるマッチング
ChatGPTでも体験できるように、生成AIは人間に近い形で論理的に判断することができます。この生成AIを使って、顧客の要件をどのカテゴリーに振り分けるか判断する方法です。
事前学習不要で柔軟な認識が可能で、プロンプト内にカテゴリーを定義すれば顧客の発話を理解して適切に振り分けできるという大きな利点があります。しかし現状ではコストが高く、処理にタイムラグが発生する可能性があり、オーバースペックになりがちという課題もあります。
例えば「カードを解約したい」という顧客の発話を事前学習していなくても、解約カテゴリーだと判断して振り分けることが可能です。しかし、この程度の問い合わせであれば通常はルールベースでも対応できるレベルのため、毎回生成AIに判断させるのはオーバースペックとなってしまいます。
最適解:3つのアプローチの組み合わせ
現状では、これら3つのアプローチ「ルールベース」「識別系AI」「生成AI」を組み合わせることがベストプラクティスとなっています。
まず定型的で明確な問い合わせはルールベースで高速処理し、言葉の揺らぎがある問い合わせは識別系AIで対応、そして複雑で未学習の内容については生成AIが処理するという階層的なアプローチです。この組み合わせにより、処理速度、コスト効率、認識精度のバランスを取りながら、幅広い顧客の意図を正確に理解することが可能になるのです。
成功事例
ボイスIVRは、すでに大手企業のカスタマーサポートを中心に利用が広がっています。特に、メニューが複雑で、複数の部署が関与する金融系や通信サービスの総合窓口などで導入が進んできました。
その中でも、代表的な成功事例を紹介します。
株式会社クレデイセゾン
クレディセゾンは、月間20万件超・多層化したIVR導線による顧客離脱やオペレーター負荷の増大という課題に直面し、LINE WORKS AiCallを導入しました。
AIが問い合わせ内容を35項目に分類して的確なチャネルへ誘導する「AIナビ」を構築。IVRの多重階層化が解消され、非対人対応での完了率が40%向上、オペレーターへの着信は月10万件から30%削減され、待ち時間の短縮によりCSも改善しました。
さらに、SMS案内やAI学習によるシナリオ改修で効率化を強化し、将来的には各種手続きをAI内完結させ、チャネル連携やパーソナライゼーションによる顧客体験の高度化を目指しています。
株式会社アイテック
株式会社アイテックは、ロックレス駐車場サービスを全国展開する中で、24時間・365日体制のコールセンターにおいて問い合わせ増加とオペレーターの応答負荷が課題となっていました。
従来は番号プッシュ式IVRだったため、顧客が全メニューを聞く必要があり非効率でしたが、PKSHA Voicebot導入により、自然な音声で発話された駐車場番号や問い合わせ目的をAIが認識し、適切なオペレーターへ即座に接続されるように仕組みが大きく変化しました。
その結果、オペレーター対応率は従来の85%から65%に低下し、残りはチャットボットが自動対応、一件あたりの対応時間も平均15秒短縮、応答品質と顧客体験の向上が同時に達成されました。この導入により、効率的な運用と高い応答基準の維持が実現され、顧客とオペレーター双方にとって負担の少ない仕組みへ進化しました。
ボイスIVRの実装における課題と考慮点
VOICEIVRは大きな効果をもたらす一方で、導入時には技術的・運用的な課題に適切に対処する必要があります。成功事例の裏には、これらの課題を乗り越えた企業の努力があることを理解することが重要です。
AIモデルの設計スキルが求められる
ボイスIVRの核となる意図理解技術には、それぞれ固有の制約があります。ルールベースには言葉の揺らぎに対応できず、ルール同士の矛盾が発生する可能性という限界があります。ディープラーニングには事前学習とデータ準備が必要で、未学習の内容には対応不可という制約があります。そして生成AIにはコストが高く、処理にタイムラグが発生し、オーバースペックになりがちというハードルがあります。
これらの課題解決には、3つの手法を適切に組み合わせる高度な設計スキルが求められます。これはAIの専門家による裏打ちされた経験がないと、高い精度はなかなか実現することはできません。
カテゴリ定義・学習データが必要
ボイスIVRの構築には、顧客の発話を、その後のオペレーションに合わせてどのように振り分けるかのカテゴリ(コールリーズン)の定義と、そのカテゴリごとで顧客が発話する可能性がある問い合わせパターンの学習データが必要です。
これらは通常、CRMに記録されているデータ、問い合わせフォームやチャットボットへの問い合わせ、オペレーターと顧客のやりとりを音声認識したデータ、SVやベテランオペレーターによる実践知から定義、データ作成が行われます。
ここがセンターにとっては最大の山場であり、ボイスIVRの精度が高くなるかの要所となります。
システム統合の複雑さ
ボイスIVRは、AIだけで完結できることを前提としておらず、基本的にはオペレーターとのハイブリッド運用が想定されたシステムです。そのため、AIが処理した後にどのように連携するかが重要なポイントとなります。
特に重要なのは、PBXとボイスIVRとの連携で、顧客番号の引き継ぎや転送料の問題から、基本的にはSIP接続(インターネットでの接続)が望ましいとされています。
段階的導入の重要性
一度にすべてを自動化しようとするのではなく、段階的なアプローチが成功の鍵となります。このようなシステムの投資対効果を人件費の削減に求めるセンターは少なくありません。これ自体は間違っていないのですが、いきなり効果を求めて自動化に走ると、導入に失敗する可能性があります。
まず、このシステムで何より重要なのは、AIが顧客の意図理解を正確に行えるかです。ここの精度は現状学習データに依存するため、通常運用開始後の改善を経て、線形に精度は向上していきます。精度が低いままに自動化をしようとすると、そもそも間違ったところに振り分けられているのに、自動化の処理が進んでしますため、カバーが効かなくなります。
最初は、仮にAIが間違った振り分けを行った場合でもカバーができるオペレーターに接続し、振分精度が安定してきたところで、段階的に自動化可能なカテゴリを自動化していくのが失敗しないポイントでしょう。そのため、このシステム導入は短期的な効果を狙ったものではなく、中長期にコンタクトセンターを大きく変革するためのシステムと言えます。
意図が理解できればAIエージェントにも繋がる
現在のボイスIVRは主に意図理解と適切な振り分けに焦点を当てていますが、意図が理解できれば、その先のより複雑な手続き処理も可能になります。これが「AIエージェント」実現への第一歩となります。
AIエージェントとは、ある目的を達成するために自律的に判断・行動できるAIのことです。例えば、顧客が「商品の発送状況を知りたい」と発話した場合、AIエージェントはCRMや基幹システムを自動検索し、配送会社のデータベースを確認し、必要に応じて再配送手続きを自動実行して、顧客へ状況を詳細に説明するといった一連の対応を完全自動でこなすことになります。
現状、AIエージェントの実現には、AIそのものの能力の向上に加え、業務システムとどのように連携するのかという問題もあります。意図理解ができ、どのコールリーズンが多いのかが分かれば、そのコールリーズンの解決の自動化からシステムとの連携を検討していくことができるので、AIエージェント実現を効率的に進めていくことができます。
まとめ
ボイスIVRとその先にあるAIエージェント化の可能性は確かに大きなものです。しかし、その実現には現実的で地道な取り組みが不可欠です。過度な期待や一足飛びの完全自動化ではなく、「今、何をすべきか」を明確にし、段階的に確実な成果を積み重ねることが重要です。
顧客の意図を正しく理解し、振り分けを最適化するという第一歩から始めて、人とAIが協働する新しいコンタクトセンターの形を創り上げていく。電話がなくならない以上、この取り組みは避けて通れない道ですが、同時に顧客体験を根本的に改善し、働く人々の業務を高度化し、企業の競争力を向上させる大きなチャンスでもあります。
ボイスIVRは今後、コンタクトセンター業界の新たなスタンダードとして定着すると予想されます。プッシュ式IVRからの移行は単なる技術アップデートではなく、顧客体験の根本的な改革です。AIによる取り組みを検討されている企業は、まずはボイスIVRから取り組みをスタートさせましょう。
この記事を読んでAI導入を相談してみたいと思った企業様へ
「AIに取り組みたいが何から始めればいいかわからない」「今使っているAIがうまくいっていない」「とにかく人が採用できないのでAIでどうにかしたい」とお悩みのご担当者様、まずはお気軽にウィルオブ・ワークにご相談ください。
豊富なシステムパートナーから適したベンダーと共に、運営課題も含めて丸っと解決します!
Writer編集者情報
-
コネナビ編集部 吉田 章孝
2011年、株式会社セントメディア(現:株式会社ウィルオブ・ワーク)に入社。
3年目に支店長として支店の新規立ち上げを経験。その後は札幌支店長として着任し、2年間で売上倍増に貢献する。
その後、首都圏管轄マネージャに着任し、営業推進部へ異動。営業推進部では、金融系プロジェクトチームの立ち上げや、部内重点顧客の本部営業などを担当。
2020年4月より、営業推進部 部長として、本部営業や社員教育、求人広告や転職支援チームなどを担当。現在は本部営業をメインに担当。
・趣味:散歩、語学
・特技:料理