感情解析AI技術の舞台裏:感情のデータ化(第一回)

こんにちは。株式会社シーエーシーEmpath事業推進室の西田です。

 私たちが保有する音声感情解析エンジンEmpathは、音声等の物理的な特徴量から気分の状態を独自のアルゴリズムで判定するプログラムです。数万人の音声データベースを元に喜怒哀楽や気分の浮き沈みを判定します。

 音声からの感情解析AIとは、人が話す音声から自動的にその人の感情を判定する技術であると簡潔に述べることができます。そして、AIが感情を判定する際の材料になるものが、音声に含まれる音響的な特徴です。

 音声には、人の耳で明らかに聴き取れるものからそうでないものまで、いくつもの音響的特徴が含まれています。たとえば「声の大きさ」「抑揚」「話すスピード」などは、人が聴いても明らかに違いを感じとることのできる特徴ですね。私たちは、相手の声が大きく、抑揚があり、話すスピードが速いときには、「この人は興奮しているな」「この人は楽しそうだな」あるいは「この人は怒っているな」と考えます。このように人が行う判断についてのデータを大量に作成し、その音響的特徴と感情の関連パターンを見出すことで、人ではなく機械が自動で判定できるようにする。それが音声からの感情解析技術です。

 では、AIによって音声から感情を自動で判定できるようにするためには、具体的にどのようなデータを、どのように作成すればよいのでしょうか。今回から3回に分けて、こんな感情解析AIの「舞台裏」へのご案内をしてみたいと思います。

目次

(1回目)
感情をデータ化する
感情の概念

(2回目)
感情のアノテーション

(3回目)
音声感情アノテーションの困難に立ち向かう
耳合わせを行う
音声から状況や行動を考える
長時間の作業や無理な作業を避ける
おわりに

感情をデータ化する

 一言に感情解析AIといっても、同じEmpath事業に携わる柳原さんが書いた以前の記事(4つの音声感情解析AI事例(海外): 世界が注目するテクノロジーの最前線を探る - 音声感情解析AI Empath (webempath.com))にもあるように、それぞれのサービスやプロダクトによってどのような感情が判定できるのかは異なります。

 一方で音声からの感情解析技術に基本的に共通しているのは、まずは捉えたい感情と音声を関連させたデータを、人間の手によって作り出さなければならないということです。そしてそのためには、捉えたい感情の概念について考察し、それを表現できる尺度を作り、その尺度を用いて「アノテーション」を行うというステップを踏む必要があります。つまり、感情という目に見えないものを機械学習用にデータ化するためには、感情の概念、感情のラベル、そして感情のアノテーションについて深く理解する必要があるのです。

感情の概念

 みなさんは、「感情」という言葉から何を想像するでしょうか。言い換えると、どういった概念や言葉が「感情」に含まれると思いますか。

 多くの人は、喜怒哀楽という言葉が思い浮かぶのではないでしょうか。たしかに、喜び、怒り、哀しみ(悲しみ)、楽しみという言葉によって、私たちが日頃感じる感情の多くを表すことができそうです。

 また、心理学を勉強したことがある人は、心理学においていくつかの感情モデルが提唱されていることを知っているかもしれませんね。例えば1960年代ごろから活躍しているアメリカの心理学者 P. Ekmanの「基本感情理論」では、ヒトには進化の過程で獲得した、生得的に備わった「基本感情」があり、それは典型的には表情として表出されると考えます。たしかに、おそらくあらゆる文化を超えて、私たち人間は嬉しいときに口角が上がったり目が細まったりするでしょうし、逆に驚いたときや強い恐怖を感じたときには目を見開くでしょう。また、人間の赤子は特に誰かに教わったわけでもないのに、泣く時には顔がくしゃっとなったりしますね。このような事実は、いくつかの感情は人間に生得的に備わった性質であるという考えを支持します。Ekmanやその流れを受け継ぐ研究では、基本感情として、怒り、恐怖、驚き、悲しみ、嫌悪、幸せの6つの感情があると考えることが多く、それらと表情をはじめとした身体的反応や、発汗や心拍数の変化といった生理的反応との関連に注目してきました。

 同じくアメリカの心理学者である R. Plutchikもまた、感情を、人間の生物としての進化の過程で獲得した適応行動パターンと関連するとみなします。一方で、Plutchikが生物としてのヒトに備わっていると考えるのは、Ekmanの基本情動理論にもある怒り、恐怖、驚き、悲しみ、嫌悪、それに加えて、喜び、期待、受容という感情です。

 このように、論者によって現在の心理学では、人間もまた動物であり進化の過程で今の形質を獲得した生き物である以上、基本感情理論が提唱するように、いくつかの感情は時代や文化を超えて生得的に備わっているという主張に同意する研究者がほとんどだと思います。ですので、心理学の研究者や機械学習を用いる情報工学者、データサイエンティスト、そしてビジネスパーソンが感情解析AIを作りたいと思ったときに、こうした基本感情のカテゴリをそのまま用いることが多いのも自然なことだといえるでしょう。ちなみに、Ekmanのいうとおり、人間には本当に怒り、恐怖、驚き、悲しみ、嫌悪、幸せという感情が生得的に備わっているのか、そしてそうした基本感情と一対一で対応する身体的、生理的反応があるのかどうかという点については、いまもまだ議論がわかれているところではあります。この論争は、私はとても面白いと思っていますので、また別の機会にご紹介いたします。

 さて、今回は音声からの感情解析のための「感情のデータ化」における第一歩として、感情の概念についての議論を簡単にご紹介しました。次回は、感情をどのようにアノテーションするのかについて考えてみましょう。

弊社が開発する音声感情解析AI Empathの詳細についてはこちらから↓
音声感情解析AI Empath (webempath.com)

DMでも情報発信しております。
DMの配信登録はこちらから

記事に関するお問い合わせはこちらから↓

株式会社シーエーシー
Empath事業推進室
mail:empath_info@cac.co.jp