よくあるご質問（FAQ） | 音声感情認識・音声感情分析の株式会社AGI

INDEX

感情って何？
情動は脳の反応ですか？
情動や感情は行動で分析できないの？
感情は定量計測できるの？
音声から情動や感情を分析できるのはなぜ？
STは精神分析や心理分析ができるの？
個人差にはどう対応していますか？
日本人と外国人での違いはありますか？
感情や情動の他は何ができるの？
音声認識と違うの？
試してみたいのですが？
このシステムで「ウソ発見」はできますか？
音声から個人を自動的に特定できますか？
前の感情が今の感情に影響するの？　引きずられるの？
動物の感情はわかりますか？
STで人の微妙な感情の変化までとれますか？
面白ければそれでいいのでは？
どうして感情の定量化が必要なの？
STによる感情認識の処理は重いの？
STの感情識別率はどれくらい？
STって信用できるの？
他社の製品との比較は？
STの学会評価はどうなの？
感情を分析するときは、どのような言葉を使ったかとあわせてどのような語調、音量だったかも合わせて評価されるのでしょうか？
集団的アプローチへの活用で何かイメージされているものはありますか？またうつ状態であると判明した際に、医療以外での支援方法はどのようにしていますか？そこにこの技術は何か活用されていますか？

ANSWER

QUESTION.01
感情って何？

脳科学の定義では、情動(Emotion)と感情(Feeling)に分けられます。

「感情はどこにある？」と聞かれたら皆さんはどのように答えるでしょうか。胸を指す人もいるでしょうし、頭を指す人もいるかもしれません。

実は感情がどこにあるかは、まだ完全にはわかっておりません。

ある研究者は、生理反応によって感情の変化が起こるといいます。お腹がすくと不機嫌になる、といった生理反応により感情の状態が変化するという説です。ある研究者は、感情は脳で作られるといいます。事故で脳を損傷した人が、感情を表さなくなったためです。さらに、ある研究者は両方だといいます。興奮剤を注射してどんな気持ちかたずねたところ、周りの雰囲気によって「喜んでいる」と答える人もいれば、「怒っている」と答える人もいたためです。「興奮剤の投与で興奮していること（生理反応）」、「周囲状況の理解（認知影響）」の両方が必要だというわけです。

これらの研究は、主に脳科学と心理学の分野で行われてきました。しかし脳科学と心理学とでは、検討の仕方が異なっています。心理学での感情は、研究者によって定義が異なります。これに対して、脳科学の世界では感情のもととして情動というものがあると定義されています。

STは脳科学を基準としながらも、心理学での実験結果も取り入れ、情動（Emotion）は「生理反応で確認できるもの」、感情（Feeling）は「認知影響を受けて揺らぐもの」として考えています。感情は認知影響（環境や状況などの影響）によって揺らぐものであり、認知の仕方は人によって異なることが多い（経験や知識量などによって異なる）のです。STによる感情推定結果が人と一致するかどうかは、こうした個人差の影響や認知影響を強く受け、人によっては一致しない場合もあります。

一方、情動については人同士でも一致しやすく、よって、STと人でも比較的高い率で一致することが確認されています。最新の脳情動研究では脳とSTの因果関係においても一致する例が確認され始めています。

「感情とは何か？」最もこの研究で難しい質問ですが、当社の研究では脳科学の定義を採用し、認知科学、生理学両方の立場でも定量的に説明できるよう以下のように定義しております。

情動（Emotion）: 主に脳における短時間で反応する、生理反応で確認できる心的作用
感情（Feeling）: 主に動から起因し、認知影響（環境や状況など）を受けて比較的長時間継続する心的作用

これは、脳科学と心理学だけではなく、当社の12年間の実験結果との一致から導いた定義でもあります。

QUESTION.02
情動は脳の反応ですか？

はい、最終的には脳での反応といえます

この問題は「感情の基本問題」とされ、感情の起源論争として100年近い歴史があり、心理学的には現在も決着をみておりません。しかし科学的には、身体反応、外部刺激、ホルモン影響、認知影響などを受けても、起因や原因、誘因に関わらず最終的に反応し、判断する部位が脳である以上、情動は脳における反応といっていいとされます。

認知科学では、「感情は状況や環境の認知影響も受けて生成される」とするシャクター・シンガー感情2因説を主張しており、それを実証する科学実験もあります。それに対して「身体反応が情動や感情を作りだす」とするジェームス・ランゲ説や、「中枢神経回路の反応」とするキャノン・バート説もあり、それぞれに実証実験結果もあります。

当社は、この諸説全てに物理的説明ができる、「遺伝子により設計された「身体反応や認知影響も含む神経伝達物質やホルモン、免疫系の相互循環系メカニズム」と、脳反応からの感情ラベルによる情動生理反応の制御と恒常性維持機能」という立場で、「情動が意欲や意思を生み出し、思考・判断に強く影響する」という原理を再現しようと試みております。

これらの原理を研究するために、現在の脳科学では大きく以下の二つの分析手法があります。

侵襲型: 実際の脳に電極などを埋め込んだり、差し込んで反応を見る手法
非侵襲型: 脳画像や脳活動を動的に把握するために外部装置を使う方法

それぞれに優れた長所がありますが、どちらも完全ではありません。侵襲型では、脳全体の活動の把握が難しい問題があります。またチンパンジー以上の霊長類では、実験が禁止されております。非侵襲型では、解像度やレスポンス（反応速度）や分析の奥行きなどが全て整っているセンサーがないため、実際問題としては各種装置の併用が必要となっています。そのために、諸条件の設定が困難です。また神経細胞レベルの活動を直接分析できないため、完全な活動を把握するにはまだ課題が残っております。

そこで当社では、もう一つ新しい分析手法を提案しております。それが、人における脳と、そこに直結する声帯のダイナミクス・レスポンスを用いて、非侵襲型での脳活動の相関関係を見る手法です。これをSTの原理を利用した、脳情動研究として進めております。

QUESTION.03
情動や感情は行動で分析できないの？

直接の分析はできませんが、行動予測（正答8割以上）はできるようになりました

女性はあまりに嬉しいと泣き出す習性があります。また、とても怒っている時も泣き出すとことがあります。その一方で男性は怒りをこらえていると、表情や行動にも出ません。

よって、脳科学や薬学が発達して心を物理的に分析できるようになるまでは、行動科学的に感情は議論できないとする考えもありました。しかしfMRIや向精神薬の登場で、感情や情動に対しても、定量的な物理考察を行える環境が整ったのです。

ただし、行動科学的ラベルのついた音声での検証は、主観や生理と比較するよりは説得力があります。当社以外での実験ですが、コールセンターにくる音声を無作為に選択して、 STの出方のみからその人の行動予測（入会・退会、購入・非購入、自殺の有無、支払いの有無、滞納の事実など）を行いました。その結果、8割以上の正答率で行動を予測することができました（機密保持の問題により詳細は非公開）。

QUESTION.04
感情は定量計測できるの？

情動は現在の技術でも定量計測できますが、感情の計測は困難です

当社ではfMRIや身体反応と主観評価を組み合わせて、情動や感情を分析しております。情動は、多くの国際的に有名な科学雑誌の報告にあるように、脳での反応で確認できます。また、ホルモンや身体反応でも確認できます。

これに対して認知影響を受けやすく、それにより不確実性が高くなる感情は、本人ですら時間を置くと評価が変わります。そのため本人の主観でも6割も一致しない場合が多く、脳や身体反応で分析するしかない状況です。

脳内の感情の発生メカニズムは、情動ほど簡単ではないことが予測されます。また音声収録時の問題として、意図的に発話された感情音声はパワーや声色による演出が目立ち、自然収録された音声と比較して本当の感情と言いにくいことが挙げられます。その一方で自然に音声を収録する環境では、発話瞬間の本人の気持ちを確認することが難しいという問題があります。特に、その音声に対して第三者が評価を行うと、その結果がよりばらつきます。

そのため、当社が開発するまでは、発話瞬間の脳と、身体反応と、本人の主観や会話を同時に計測する手段がありませんでした。当社のシステムを用いて、現在各研究機関で進められている研究により、将来的には感情の定量化基準ができると考えられます。

QUESTION.05
音声から情動や感情を分析できるのはなぜ？

STは生理反応で確認できる情動を基準にして、主観的な感情を推定するからです

人間は相手の声や表情により、相手の気持ちを察しようとします。そこでSTでは人間の声に着目し、声のみから感情の推定を行う技術を開発しました。STがどのようにして声から感情を推定しているのか、声が作り出される仕組みから順を追って説明します。

声は次のような経路で作られます。

肺が空気圧を作り出す
のどの奥にある声帯が不随意に振動して、音源としての空気の粗密波を作り出す
声道（のどや口など音を共鳴させる部分）が意図的に言葉を作り出す

このようにして作られた声（空気の粗密波）を、コンピュータに取り込み以下のように分析を行います。

マイクと録音回路により、声（空気の粗密波）をデジタル信号に変換する
変換された信号を、分析してパラメタを計算する

感情や情動の情報は必ずしも言葉の意味に依存しません。そこでSTでは、情動を司る脳と、迷走神経で直結する声帯の状態や韻律をパラメタ化する、独自の手法で計算しています。また、同じ声を人が聞いた場合に、どのような感情と感じるかを調べるため、実際に収録した音声を他の複数の被験者に聞いてもらい、感じた感情を記録する実験を行いました。そして複数の被験者間で評価が一致した音声だけを選び出しました。

STは、声帯の状態や韻律などから分析した音声パラメタを元に、人がどのように感じたかという結果を反映させて作成したプログラムを用いて、声から感情を推定しています。感情は認知影響や個人差の影響を受けます。よって、感情の推定には人の感じ方を反映させたロジックが適当であると考えました。

一方、人の感じ方でも一致しやすく、生理反応（呼気や脈拍、脳活動など）でも確認できる情動については、脳や生理反応の最終出力としての声帯の状態を基本としたパラメタなどを使って、人の感じ方や生理反応と比較しながら開発を進めました。この研究成果によって、当社の代表取締役は徳島大学より工学博士を授与されました。

QUESTION.06
STは精神分析や心理分析ができるの？

STでも抑うつ状態や躁うつ状態、ストレス検知では、有効性が確認され、現在はPSTにまで進化しております。

既存のSTではない、専門家用に作られたPSTというアプリケーションでは、心理分析の一部ができるようになりました。これを現在、臨床の現場で検証しております。PSTでは、抑うつやそう状態を、音声から的確に確認できるようになりました。また、東日本大震災での自衛隊による隊員のストレス検知実験では、海外製品も含み我が社の製品のみ有効性を確認されました。この結果を国際学会（軍医学会）で発表、受賞しました。この成果により、その後の共同研究継続、文科省の科研費取得に至りました。現在、先進国での防衛関係に正式に採用科学検証された世界唯一、最高性能の技術であることは、多くの国際特許と共に確実であるといえます。

QUESTION.07
個人差にはどう対応していますか？

個人差の影響は受けないように作っております

人には個性があります。そして、人により声の特徴は違います。しかし声の大きい人や早口の人が、普通の人と比べて感情や心の状態が違うとは考えにくいです。そこで大量の音声資料と、多人数の主観評価から全員一致する優れた音声を取得して、解析パラメタを作り出しております。これで、個人差に関係なく有効な分析を可能にしております。

詳しく説明すると、音声を自動分析する場合、マイクの性能や口との距離が変化することで、声の大きさは変わります。そして個人差を含む場合、個人補正を行わないと判別できないので、自動分析には不向きです。これでは音声の自動分析を実用化することができません。

当社の過去の実験では「わざと演技して怒ると声を大きくしたり、声色を変えてみたり、話速を変える傾向がとても強い」ことを開発初期（1999年）より経験しておりました。エンターテイメントでの利用であれば問題はないかもしれません。音声感情研究でも1990年代では、声の大きさや話速も対象になっておりましたが、今は脳の情動活動と無縁の可能性が高いと考えられています。

そこでSTは、大規模音声データから大量の主観評価をフィルタにして、安定しないパラメタを排除しております、それでも200パラメタほどを分析しております。それらのパラメタについて脳の情動活動に影響するかどうかの確認をしています。これにより、主観でも脳でも有意性のあるパラメタと、人の感じ方を再現した判定ロジックの構造になりました。多くの主観が一致し、脳でも確認が取れるパラメタは、個人差の影響をほとんど受けない状態になると考えられます。脳情動活動だけが、感情や気持ちの要素だとは限りませんが、最初の段階で本人および第3者の主観で判別されていますので、主観と脳の両方での確認となりました。

ただし、MRI、MEGや脳波測定、光ポトグラフィーなどの脳センサ技術の限界もあり、充分な精度を持って人による侵襲系の実験を行うことはできません。そのため当社の研究でも、事故等による損傷例による、情動活動の部位の断定を脳活動の根拠にしております。脳の活動やメカニズムは、完全に科学的に解明されているわけではありません。よって、脳の情動活動との整合性も、科学的な事実として完全であるとはいえませんので、その点にご注意ください。

QUESTION.08
日本人と外国人での違いはありますか？

あります

英語圏は子音を中心とした言語圏、日本は母音を中心とした言語圏です。生理反応である情動は別として、感情やとくに心理要素において、日本人と外国人とでは大きく異なります。実際当社で行った、外国人が日本人の気持ちを声から当てる実験でも、感情は55%しか一致しませんでした。

簡単に外国の音声製品や心理テストをもってきても、独特な日本語文化圏での日本人の感性、繊細な心理に合うものは見つからないでしょう。これは心理学などでもよく指摘されております。また海外の心理ソフトや嘘発見機もたくさんありますが、これらの多くには科学的根拠がありません。当社の研究成果は、国内外の学会や論文誌に多数掲載され、国内・国際特許も多く取得しています。

QUESTION.09
感情や情動の他は何ができるの？

歌声をきれいな線で表示できます

日常生活環境でも堅牢に声帯の振動をキャッチできる、STピッチャー（オプションソフト）は、基本周波数として「歌声」をきれいなカーブで表現できます。

QUESTION.10
音声認識と違うの？

まったく違います

音声認識は、無尽蔵の人の言葉を認識させようとしますが、STは生理的に限られた情動を定量検知して、感情を推定します。音声認識の場合、言語という正解があります。しかし感情はその正解すら曖昧で、正解の辞書が作れません。「アンケートや人の主観程度の判定では、正解が明確にならない感情や心理」を対象にする場合、音声認識よりも厳しい条件で、生理と音声信号処理の基礎から見直しをする必要があります。

言語は声道での意図的運動で作られます。音声認識に用いられるのは、声道情報（F1, F2, F3など）から隠れマルコフモデルと呼ばれる確率認識辞書を使って、あらかじめ登録された言葉辞書に最も近いものを選ぶ手法です。一方STは、音声から抑揚と声帯（音源）の状態を解析し、情動を定量分析し、感情を推定します。

音声認識には、人工知能と同様に「認識辞書のパラドックス」があります。認識辞書に多くの言葉を登録すると、認識エラーが多くなります。また、人の無尽蔵な発話バリエーションに対応し続けると、いつかメモリの限界がきます。また少ない登録では、同じ意味でも多用な言語バリエーションに対応することができなくなります。

開発当初、STはこうした音声認識のパラドックスを回避させるために、リズム感で似たような言葉を絞り込んだり、感情を使って不認識の場合に対応したり、機械では判らない誤認識の察知を行ったりすることを目的としてスタートしました。しかし、音声認識自体の認識率が、根本的に実用レベルに達していなかったため、STを分離独立して研究することにしました。

QUESTION.11
試してみたいのですが？

すぐに試せます

任天堂DSでココロスキャンというゲームソフトを提供しております。こちらを使えば、誰でもすぐにSTを試してみることができます。

QUESTION.12
このシステムで「ウソ発見」はできますか？

できません。残念ながら今のところ、ウソ発見は科学ではありません

一般的な工学者からすると感情測定もウソ発見と同じように見られがちですが、生理・脳研究者が実証しているように、情動は情動物質としてのホルモンや、神経伝達物質や脳活動で物理確認をすることができます。しかしウソ発見の場合、いわゆるウソ物質というものがなく、言った本人の生体物理反応では確認できません。そのため、自動的に嘘を発見することは科学的とは言えません。

最新のfMRIを使った実験でも、未だに客観的で再現性のある科学事実として成功したという報告がありません。日本の法廷証拠としてもポリグラフ（嘘発見）は使われておりません。また、たとえウソを言っていても、当の本人がそれを信じてしまう現象があり、その線引きを明確にはできません。一方、行動と音声を直接関係付けるとしたところで、両者はあまりにかけ離れているため、途中に多くのバイアスが生じます。そのため複雑系や統計、確率モデルを用いてスーパーコンピュータで解析したとしても、判別は難しいといえます。

QUESTION.13
音声から個人を自動的に特定できますか？

誰もできていません。今でも人が聞いて判断しています

TVや映画でよくみられることから、声紋自動判定のような技術はもう一般的と思われています。しかし100名以上の音声から、音声再生なしで、音声波形や周波数などの分析結果のみを用いて個人を特定する技術は、いまだ確立していません。

日本以外の先進国でも、近年では「音声による自動個人判定」は、裁判の有力な証拠として説得力を持つことは難しい状況です。音声研究で世界的にも有名な科学警察研究所でも、いまだ研究段階です。これらは一般的な音声研究者なら、誰でも知っている事実です。

結局現在でも、人間が再生された音声を聞いて主観的に評価することや、音声波形の似ている箇所を指摘すること程度しか、音声による個人特定はできていません。

QUESTION.14
前の感情が今の感情に影響するの？　引きずられるの？

そういう場合もありますが、そうでない場合が多いです

もしも確実にAという感情の後にBという感情反応が来ると言い切るのであれば、全ての人間は同じ刺激に対して同じ反応を示すため、それが永遠に連鎖してしまいます。よって確実に影響する、ということはできません。

そのため、今の感情が前の感情に引っ張られようが、ホルモンの影響を受けようが、感情や情動の最終判断をする脳と直結する身体部位（声帯や神経伝達物質）から、リアルタイムに情動変化を分析する手法が妥当だと当社では考えます。

QUESTION.15
動物の感情はわかりますか？

わかりません

動物の感情をどのように確認したらよいのかわかりません。飼い主がペットの気持ちを行動から理解できるとして、システムの性能を飼い主が確認できるのなら、そもそもこのシステムは必要ないかもしれません。

QUESTION.16
STで人の微妙な感情の変化までとれますか？

微妙な感情の変化まで分析できます

カラーテレビ（色の三原則RGB）と同じように、STは代表的な気持ちを色と量で表示し、その中に含まれる微妙で複雑な気持ちを詳細に分析します。

主張が強くて、熱い気持ちをレッド（R）、単調で、静かな気持ちをグリーン（G)、冷たくて、寂しい気持ちをブルー（B）、明るくて、快活な気持ちをイエロー（Y）としております。我々は、これを気持ちのスペクトルという意味で、RGBYと表現しております。

QUESTION.17
面白ければそれでいいのでは？

そんなことはありません

たしかに、ビジネスでは正しいでしょう。そして、面白いものは頭の固い科学よりも人を幸せにする、そういう意味では大賛成です。

ただしウソ発見や、音声個人特定、血液型性格判定、一部の性格適性検査などを科学事実のように捉えられてしまうことはよくありません。警察、検察、司法、医療関係者や正規の研究者は、安易なTV放映などで、そうした間違った情報を信じた人たちに毎日悩まされております。性格判定で企業入社を断念した人にとっては笑い事ではなく不幸なことです。

現在の科学でも、人体の物理量の変化を確認することで、情動の検証はできています（ただし、100%ではありません）。しかし感情となると、主観の影響や不確実性が多くなり、科学的な検証が難しい状況です。そのため心理学、医学、認知科学の各方面から、現在も世界中の専門家、脳研究者が日夜研究に勤しんでおります。

子どもたちに正しい知識を持ってもらうためにも、商業主義的な表現と科学事実を明確に区別し、公共の場では特に「実証されていないことや非科学なことを科学と間違えさせる」ような表現に、我々は注意したいと思います。TV番組などで「真実のように」伝えられているウソ発見、音声個人特定、血液型性格判定、一部の性格適正検査などのような技術は、おもちゃとしては楽しいですが、科学的には実証されておりません。しかし今後このようなジャンルに、偏見を捨ててまじめに挑む研究者が現れ、これらを科学的に証明したときには、科学者としてその勇気を評価するべきだと考えます。

QUESTION.18
どうして感情の定量化が必要なの？

音声から簡単に脳や心・体の状態を分析して、苦しんでいる人を救いたいからです

しかに世界どこを見廻しても、情動、感情、心、脳、身体の関係を総合して定量的に把握した研究はありません。工学者は工学だけ、医療は自分の担当の臓器だけ、理学者は理学だけというように専門分野化が進んだ現代では、誰もそれをやろうとしませんでした。

脳や心の問題を科学する場合、主観を排除する意味でも、横断的研究や技術（センサ）が必要になります。そこで当社はそのセンサから始めて、今は脳とのコラボレーションに進んでいます。

日常生活で、いつでも携帯電話やゲーム機などで身体・脳の状態を分析できると、一気に生活が変わります。そして、健康になればそれだけ、国や家計に負担がかかりません。その実現には、できるだけ科学的な実証を繰り返し、技術の信頼性を高めていくことが必要です。そしてセンサが完全になれば、心のメカニズムも解明され、やがて人と同じように心や意思を持つロボットや、感性コンピュータのような新たなPCが認められてきます。これを日本が誇る鉄鋼・自動車の次の、独創的産業に発展させたいという、私ども起業来の夢があります。

QUESTION.19
STによる感情認識の処理は重いの？

認識辞書がいらないので軽量です。よって、処理速度も高速です

よい道具とは、どこでも、どんなときにでも、使いやすく、シンプルで、軽くて、高性能でなくてはいけないという信念から限界を求めて作りました。

QUESTION.20
STの感情識別率はどれくらい？

自動判定で、人と同程度以上です

当社のこれまでの研究成果では、おおよそ60-80%程度の精度で感情を認識できています。これは人の主観の限界値でこれ以上の評価は、脳計測などの別の手段が必要になり、高精度で高い一致率（間違い率0.1%）を「脳とST」の反応に見られました。また、防衛医科大学校との実験で東日本大震災での実地検証においても、血液検査や医師の診断と同等の識別性能を示しました。これにより海外の類似技術を含むすべての音声感情・心理認識分析技術の中で唯一有効性を科学証明されました。

QUESTION.21
STって信用できるの？

人の主観だけでなく、fMRI(脳計測)・血液検査・医師の診断も用いて実証しています

他社の感情認識実験では、発話直後の発話者の主観評価のみを正解として、人の識別限界基準以上の成果をだしているものもあります。しかし当社の研究では、STとの比較の基準となる本人主観自体が、時間の経過とともに変化することがわかっています。つまり人の主観自体が安定的ではなく、必ずしも信頼できないという問題があります。

そこで当社では独立行政法人情報通信研究機構より助成を受けて、発話時の脳活動をfMRIによって計測することで、人の主観以外の指標との比較を行いました。その結果、脳の情動活動とSTの感情識別結果が、0.1%以下の誤差確率で有意に関連していることが示されました。それらの成果は複数の国際学会で発表されており、STの開発者はその成果により工学博士を取得しています。

QUESTION.22
他社の製品との比較は？

当社の製品は、他社よりも多くのお客様に支持していただいています

日本ではすでに競合他社はなくなり、国外では中東地区の軍事技術を称した会社が3社存在しています。10年ほど前イスラエルの音声嘘発見ソフトなる商品も、その後、商品名・会社名を変えながらコールセンター用として展開していたようですが、現在1社も残っておりません。また3社ともに、技術を論文等で公表していないため、性能比較を行うことは困難です。ただ当時より多くのお客様において、当社と他3社を比較検討した結果として、当社の製品を採用していただいています。代表的な事例としまして、イスラエル商品と弊社の商品の双方を比較したシリコングラフィックス社は弊社の技術を採用、資本提携に至った経緯もあり、同様に軍用・医療用技術として性能比較した防衛医科大学校では、当社ST技術の有意性を高く評価し、共同研究にまで進み、東日本大震災での活用から2011年の論文発表に至りました。

QUESTION.23
STの学会評価はどうなの？

当社の製品は、他社よりも多くのお客様に支持していただいています

以下に学会でこれまでされた質問の例を示します

質疑1: 情動と感情を完全に定義できるのか？: それはとても難しい。生理反応に近い情動は別として、脳でもまだ、高次の感情については何もわかっていないに等しい。
質疑2: 感情はあまりにいい加減で、主観は同じ人でも一致しないし、環境に左右されやすい。これをどう考えるのか？: その通りである、だから2つの手法で確認している。1つは人の主観の一致しやすい音声（発話本人の発話直後・複数の第三者評価が一致したもの）を用いた学習と判定ロジックの構築、もう1つは脳や身体生理反応との比較による、真の情動としてのパラメタの精度向上である。
感情を扱うのはどの研究者も恐れる。あなたはどう扱うのか？: 私たちは特に、脳や生理の情報に注目し、その音声との関連を検討するアプローチをとった。脳のアミグダラなどの辺縁系や、フロンタルコーテクッスなどの大脳皮質系、下垂体系、小脳系、免疫系、遺伝子、身体反応、ホルモン等の生体化学物質などの影響を考慮して、その特徴が出る音声パラメタを研究している。
質疑4: とても懸命で西洋的にも受け入れられる研究姿勢ですね、安心した。しかし、脳は何もわからないのが現実であり、あなたはどうするのか何を使うのか？: 確かに現在、脳情動はブラックボックスであり、そのブラックボックス周辺を調査している状況である。ｆMRIやMEGを使うことが有効と考えるが、これだけで100%脳の状態を測定できるとは思っていない。そこで、脳以外の様々な生理学的計測手法に加え、行動科学的な側面での検証も含め、感情のメカニズム解明に近づこうとしている。
質疑5: これをどのような産業に使うのか？: コールセンターや医療に使う。特に精神系や心理系は、診断する臨床心理士や医師の主観により、病名がいくつも出てきてしまう現象が徐々に明らかになり、日本でも問題となっている。この問題は、脳を含む認知系や精神系の研究全体の信頼にもつながっている。心因性・神経性の判断には、多くの時間がかかる。臨床心理士や医師の整備、能力や質の問題だけではなく、主観を中心とする直感的診断に起因する問題である。つまり、レントゲンのような可視化技術やパラメタが確立していないという、一般的な科学分析手法の未整備が問題の主たる原因である。そこへ、MRIに続いて、手軽に情動変化を計測できるパラメタをもつ技術が登場する意義は大きい。
質疑6: 音声のF0以外のパラメタはあるのか？: 音声パラメタとして、200パラメタ程度は使っている。F0以外のものは、その多くは抑揚やイントネーションに関係してする。
質疑7: 感情はあまりにいい加減で、主観は同じ人でも一致しないし、環境に左右されやすい。これをどう証明するのか？: コールセンターの提供により、「払った」「払わない」「自殺した」「していない」など明確な行動科学ラベルがついた音声が入手できている。そこで音声と行動科学ラベルの関連を検討することでより確証的な判断ができると考えられる。また向精神薬を投与して、発話がどう変化するかをみる研究も始まっている。これにより、より厳密な意味での情動のコントロールが可能になると考える。
質疑8: STでは感情が発話毎に変化するが、実際の人でもこんなに感情のレスポンスは早いのか？: STは人の主観を基本として、パラメタとロジックルールを構築し、発話単位で分析する手法なのでそのような出力になる。真の感情がどこにあるのか？　という重大な基本問題が科学的に解決するまでは、音声における感情分析はこの手法が実用的である。たとえば、真の感情が生理反応であるとして、それが発話単位で変化するかどうかは断定できない。おそらく、発話単位ではないであろう。
質疑9: では、真の感情とは何か？: 私たちは、それは脳だと考えている。体の反応やホルモンなどの生体化学物質の反応だとしても、そして、それが認知影響を受けるものだとしても、会話としての最終出力は脳での処理だからである。しかし、これは会話における情動変化と感情の話である。しかし、脳の計測はそれほど簡単なものではない。脳全体に電極を刺すことは不可能であり、非侵襲での脳計測では完全な精度で確実な反応を捕捉することが困難である。よって脳情動という境界を設けて、その範囲での反応を研究対象とし、人の主観のメカニズムとの比較を脳実験で行うことにしている。
質疑10: 確率モデルやHMMは音声認識の常套手段であるが何故採用していないのか？: STは感情の生理研究に使われてきた経緯がある。そこで、生理反応との比較において、1対1での生理反応と音声パラメタとの厳密な比較が必要であった。確率モデルをその段階で採用することは、ただでさえ難しい感情研究に、不確定要素を余計に増やすことになるために、使用を避けた。当然SVMやNN、ベイズ推定でも実験を行ったが、どれも現状より満足な結果が得られなかった。また、HMM方式は認識辞書が必要になるが、「感情の認識辞書とは一体なんだ？」という根本問題に直面する。音声認識とは、言語という正解のある辞書が作れるため、HMMも有効であろう。しかし、人の言語はどんどん増える。それを全部辞書にすることは不可能である。もしそれができたとしても、辞書が膨大になれば、認識エラーも比例して増加する。この自己矛盾をHMM認識辞書は最初から抱えている。そこで、固定されたパラメタと人の主観を反映させた、ロジックルールを構築する手法から進めた。この手法は言語と違い、限られた主題ですむ感情測定に有効である。
質疑11: 音声だけが感情なのか？: 我々は音声だけを対象にしているが、決して音声だけですべての感情がわかると考えていない。たとえば、恐怖に凍りついたら声は出ない。急激なショック状態でも同様である。また生理研究では、免疫系・ホルモン系・遺伝子系・脳科学神経系など多くの分野で研究が始まっている。これらの複合的なセンサー技術の集合により、完全な感情研究の環境が整うであろう。しかし、音声は非常に古典的に科学証明された単純な構造を持つ。スピーカーから音楽や音声が聞こえることは、RGB原理でカラーテレビがカラーで見えている事実と同じに確かである。同じ色という主観を再現できた以上、完全解明された音声のメカニズムと感情という主観をテーマにすることは意味があると考える。
質疑12: 感情はどれくらいあるのか？: 我々の調査では、言語として意味合いが重複していない感情的表現は、223におよんでいる。そのリストから、生命的な根源（増殖・存続）を中心に据えた快不快の基本情動と、そこから派生する情動、情動的感情、気持ち（形容詞表現）、状態を医療研究などからリファレンスした、ホルモンや脳内伝達物質の関係、脳を中心とした構造などでマッピングした図を作成している。
質疑13: では、感情は言葉（主観のみ）なのか？それをセンサリングするのか？: とても難しい質問である。認知科学的な見解や哲学・心理学的な見解は、工学（科学）の場なので避ける。ここでは、人の主観によりラベリングされた表現として扱っている。その主観をラベルとしてのみ利用し、属性（ジャンル）を導いているだけである。ただし、すべての科学調査・研究は言語により論文になる。感情も言語表現できるので、現象や反応に対するラベルや属性表現として使っただけである。我々は工学としてセンサを作っている。そのセンサで何かを発見し、関係付けを行うのは科学者による行為である。しかし、すべての西洋科学の原則は、計測による観察である。よって、どのような歴史的大発見であっても、センサなくして何も始まらないのである。
質疑14: この技術の今後は？: 人は、脳の活動や脳の痛みを自覚できないが、STにより脳の情動活動を簡単にマイクから分析できれば「心の体温計」のような便利なセンサーが出来る。また、非常に再現性の高いパラメタロジックルール構造のSTによる、「脳の情動機能部位と直結する声帯パラメタと意図を反映する抑揚声道パラメタ」と「脳活動」との比較研究により「心のレントゲン」が出来上がる。これは、人の主観、患者の申告やアンケートしか頼りにできなかった、心理学や心療内科や精神医学にとって、物理量定量化の新時代を予感させる技術になる。これは、この分野がレントゲン出現以降の現代医療の信頼性に近づくことを意味する。

QUESTION.24
感情を分析するときは、どのような言葉を使ったかとあわせてどのような語調、音量だったかも合わせて評価されるのでしょうか？

語調は関係ありますが、言葉の内容については関係ありません

STでは、音声から抑揚と声帯（音源）の状態を解析し、情動を定量分析し、感情を推定しています。

QUESTION.25 集団的アプローチへの活用で何かイメージされているものはありますか？ またうつ状態であると判明した際に、医療以外での支援方法はどのようにしていますか？そこにこの技術は何か活用されていますか？

集団に対する状態のセンシングやケアに活用されています