4つの音声感情解析AI事例(海外): 世界が注目するテクノロジーの最前線を探る

皆さんこんにちは。
株式会社シーエーシーのEmpath事業部、柳原です。

皆さんは感情解析AIをご存じでしょうか?
感情解析AIとは、表情、音声や言語等の情報から人間の感情を検出する技術です。

Research&Marketの調査によると、2022年時点で244億ドル(USD)とみられる感情認知のグローバル市場は、2030年には735億ドルに到達すると報告されています。*1
そんな中、私たちEmpathは特に「音声から」人の感情を解析するAIを提供しています。

今回は、この音声から感情を解析するAIに絞って、「海外にはどのような音声感情解析AIがあるのか?」を調査してみました。

ご参考になれば幸いです!

目次

1.audEERING(ドイツ)

2.Hume AI(アメリカ)

3.nemesysco(イスラエル)

4.Behavioral Signals(アメリカ)

1.audEERING

audEERINGは2012年に設立されたドイツの会社で、感情と健康にかかわる情報を音声から分析するAIを提供しています。

このAIでは、6000を超える音声パラメーター(音量、ピッチ、話速など)をリアルタイムで追跡することができます。それらの情報によって、喜び、怒り、悲しみといった感情のカテゴリに加えて、感情の活性、感情がポジティブかネガティブか、どのくらい支配性があるかということも解析できます。

さらに、デバイスの周辺音声から、以下14シーンについても検知ができるそうです。

  交通:車、バス、地下鉄、電車
  外:自然、公園、道、歩行者道路、広場
  内:家、お風呂場、ビル、レストラン、お店

また、音声パラメーターを使って病気の検出モデルなども作っています。
パーキンソン病の検出は92%の正確度合いで、コロナの検出は82%の正確性で判別できるそうです。

このモデルは医療用デモトレーニング用や、VRへの融合、顧客の商品への反応測定など、様々な分野に活用されています。

ウェブサイトはこちら
https://audeering.com/

2. Hume AI

Hume AIは米国発の企業で、2021年に設立されました。
音声からだけでなく、テキストからの感情測定技術も所有しています。

音声計測指標には以下のようなものがあります。

  • 音声韻律
    • 日常の会話に複雑な意味を与える、音調、リズム、音色の25種類以上のパターンの検出。
  • 声の表現
    • 明確な意味を伝えると認識されている28種類の声表現と、それらがブレンドされた様々な発声を区別する。
    • 28種類の表現には、例えば「崇拝、楽しさ、怒り、驚異、混乱、軽蔑、満足」などがある。
  • 発話タイプ
    • 「笑い声」「ため息」「悲鳴」「ああ」「あー」「むむむ」など、67の記述子の確率を推測。

以上のような指標を用いて、48の感情を検出します。

またモデルのカスタムによって
パーキンソン病の検知
注意力が高い状態vs眠気を感じている状態の検知

など、様々な判別モデルを作成しています。

ウェブサイトはこちら

https://hume.ai/

3. nemesysco

nemesyscoは2000年に設立されたイスラエルの会社です。

150以上のパラメーターを音声から抽出し、それらを用いて「エネルギー、自信、ストレス、不安、感情的、情熱的、思慮深さ」など14の主な感情カテゴリーに分類します。

用意されているモデルとしては、

  • 嘘をついたときの感情の変化検知
  • 覚醒レベル、注意レベルの検知
  • 怒り、又は満足度の検知
  • パーソナリティの検知

などの様々な種類があり、採用、コールセンター、セキュリティ、保険の詐欺検知などに対応したソリューションを用意しています。

ウェブサイトはこちら
https://www.nemesysco.com/

4. Behavioral Signals

Behavioral Signalsは、米国で2016年に設立された企業です。

音声を、エネルギー、礼儀正しさ、エンゲージメント、話量など75の側面からプロファイルします。

この企業が提供しているOliver APIが出力できる指標には、例えば以下のようなものがあります。

  • 音色の相互作用
    • 発話割合、音色のバリエーション、発話時間と話者交代、アクティブリスニング時間、沈黙とオーバーラップ率 話し手の性別
  • 行動的手がかり
    • 覚醒の度合い、ポジティブさ/ネガティブさ、礼儀正しさ、怒りや幸福感、悲しみやフラストレーション、エンゲージメント
  • 業界横断的KPI
    • 意図予測、コールレベルの共感スコアリング、エージェント・エンゲージメント・モニタリング、強迫とストレスの検出、メンタルヘルス・モニタリング、病態の音声バイオマーカー

また、個人に特有の音響指標を用いる事でディープフェイクの検知もできるそうです。

コールセンター、セールス、防衛、等様々な分野に向けたソリューションを展開しています。

ウェブサイトはこちら
http://behavioralsignals.com/

最後に

このように、世界には様々な音声感情解析AIがありますが、それぞれの企業の独自の技術によって、検知できる音声パラメーターや識別できる感情が様々に異なっているんですね。

私たちEmpathの人工知能は日本語音声を主に学習して作られたので、日本語で表現された感情に対して、より高い精度を発揮します。

Empathの詳細についてはこちらから↓
音声感情解析AI Empath (webempath.com)

また世界や国内の感情解析AIについて調査して、続編をお届けいたします。
ここまでお読みいただき、ありがとうございました。

DMでも情報発信しております。
DMの配信登録はこちらから

*1 参照:Research&Marcet, 2023, “Global Artificial Intelligence - Emotion Recognition Market”, Research&Marcet, (2024年1月31日取得, https://www.researchandmarkets.com/reports/5923551/global-artificial-intelligence-emotion?utm_source=GNE&utm_medium=PressRelease&utm_code=vq8g82&utm_campaign=1927786+-+Global+Artificial+Intelligence+Emotion+Recognition+Industry+Research+Report+2023-2030&utm_exec=chdomspi#)