感情解析AI技術の舞台裏:感情のデータ化(第三回)

こんにちは。株式会社シーエーシーEmpath事業部の西田です。

 私たちが保有する音声感情解析エンジンEmpathは、音声等の物理的な特徴量から気分の状態を独自のアルゴリズムで判定するプログラムです。数万人の音声データベースを元に喜怒哀楽や気分の浮き沈みを判定します。

 こちらの記事は、音声解析AIによって音声から感情を自動で判定できるようにするためには、具体的にどのようなデータをどのように作成すればよいのかについてご紹介するシリーズです。


音声感情アノテーションの困難に立ち向かう

 前回の記事で音声から感情をアノテーションすることの難しさについて述べてきましたが、困難に対して打つ手なしというわけではありません。データの質はすなわちAIモデルの精度に直結しますから、良いデータを作ることが難しいからといって諦めるわけにはいかないのです。
 私たちのアノテーションチームには、私を含めた数人のアノテーターがいます。当然、私たちのあいだで感情と音声の関連について合意できている部分もあれば、ラベルづけが異なってしまいがちな感情や音声もあります。そうしたときに私たちがどのようなことを行っているか、簡単にご紹介します。

耳合わせを行う

 人それぞれどのような感情と音声を結びつけて表現するかは当然異なりますから、その現実を受け入れたうえで、どれだけ自分自身の判断の傾向を自覚し、他者との判断がずれる部分をすり合わせられるかが重要です。私たちのチームでは毎週耳合わせの時間をとって、意見が分かれそうな音声をみんなで聴き、どのような感情として聴こえるか、他者の意見はどうかということを話し合っています。怒り、驚きなどの音声の典型例がある感情なら意見が一致することも多いですが、不安や動揺などの微妙だったり弱かったりする感情だと意見がよく分かれてしまいます。

音声から状況や行動を考える

 意見が分かれたとき、私たちはよくその音声から想像を広げてみる、ということをしています。たった数秒の、前後の文脈がわからない音声を相手にするのではなく、その音声が発せられた状況や、発話者がとっている行動を想像してみるのです。そうしていると、既存の感情ラベルでは足りない、新たなラベルを追加することで解決する場合もあります。たとえば、アノテーターによって「怒り」と「嫌悪」という異なるラベルがつけられた音声があったら、まずは、その音声を何回も繰り返し聴いてみて、その音声をどんな状況で発するか、前後にどんな行動をとっているかを想像して話し合ってみます。そうして話し合っていると、「どこかの角に小指をぶつけたときに、こういう声出すよね」という意見が出たりします。すると他の人もこう言います——「なるほど! たしかにそうだね。お腹が痛すぎるときもこういう声出るなぁ」「痛みに耐えている声ってことだね」——こうして、「怒り」でも「嫌悪」でもなく、「苦しみ」という新たな感情ラベルを用意しよう、という展開になったりもします。

長時間の作業や無理な作業を避ける

 チームのメンバーのあいだでどれだけ感情と音声の関連についての合意ができていたとしても、アノテーションするのはやはり人間ですから、一日中ラベルづけをしているとだんだん疲れてきて、一貫した基準にもとづいたアノテーションができなくなることもあります。
 感情のアノテーションは量より質だと、私は思っています。分析手法がどれだけ最先端のものでも、データに不純物が混じっていれば良いAIモデルは作れません。なので、疲れてきたら休憩をとって、アノテーションの基準がぶれてしまう、適切なラベルがないのに時間がないからといって無理にラベルづけをしてしまうといったことが起こらないようにしています。

おわりに

 今回は、感情解析技術の舞台裏、特にデータ作成のためのアノテーションについてご紹介しました。感情解析とは、決してデータサイエンスの領域にとどまるものではなく、「そもそも感情とは何か? どのように捉えればいいのか?」という哲学や心理学の問いとも密接につながっているということをお伝えできていれば幸いです。
 今後も、感情解析技術を支える哲学や心理学の知見を紹介していきますので、興味のあるかたはぜひご一読ください。

弊社が開発する音声感情解析AI Empathの詳細についてはこちらから↓
音声感情解析AI Empath (webempath.com)

DMでも情報発信しております。
DMの配信登録はこちらから

記事に関するお問い合わせはこちらから↓

株式会社シーエーシー
Empath事業推進室
mail:empath_info@cac.co.jp