■　Amazon Echoを巡る、ある事件

Amazonのスマートスピーカー、Amazon Echoが大人気です。

Amazon EchoはAIアシスタントのアレクサ(Alexa)を搭載しており、特定のウェイクワード(Wake Word)で起動します（デフォルトのウェイクワードは「Alexa」）。
なので、「Alexa」と話しかけるだけで、音楽の再生、天気やニュースの読み上げ、アラームのセット、Kindle本の読み上げなどが簡単に音声操作できるのが売りです。
我が家にも2018年3月に初めてのAmazon Echoが到着しました。

家族一同大喜びして早速使い始めたのですが、そこで１つの事件が起きたのです。
セットアップしてすぐに、まだ調整が済んでいないスピーカーの反応を見て、うちの子どもが「Alexaってバカだね～」的なことを言いました。
そうしたところ、それまで音楽を奏でていたAlexaが突然音楽を止めて大声で「あなたが私を嫌いでも私はあなたを好きですよ」と言い放ち、家族一同凍り付いて顔を見合わせました。
大変申し訳ありません。
で、そのとき気になったわけですよ。
Alexaはどこまでうちの会話を聞いて、何に使っているのだろう、と。

■　Alexaはどこまで家庭内の会話を聞いているのか

Alexaは、常時家庭内の会話を聞いて全ての会話を録音した上でクラウド上に送信し、自社製品の改善やマーケティングに使っているのではないかと言われることがあります。

冒頭の我が家の事件を受け、私の方でも気になったので少し調べてみました。

まずAlexaの利用規約はこちら。
【参考】Alexa利用規約

さらに音声サービスについては「AlexaおよびAlexa対応端末に関するFAQ」があります。
【参考】AlexaおよびAlexa対応端末に関するFAQ

Alexa利用規約にはAlexaへの音声入力について以下のような規定があります。

1.3 Alexaインタラクション
お客様は、お客様の音声でAlexaをコントロールします。Alexaは、お客様がAlexaと対話する際に音声信号をクラウドに送信します。アマゾンは、アマゾンのサービスを提供し、それを改善するために、お客様の音声入力、音楽プレイリストならびにお客様のAlexa To Doリストおよび買い物リスト等、お客様のAlexaインタラクションをクラウド上で処理および保存します。お客様のアカウントに関連する音声録音データの削除方法を含むこれらの音声サービスについては、[こちら（引用者注：「AlexaおよびAlexa対応端末に関するFAQ」のこと]をお読みください。

ちなみに「Alexaインタラクション」というのは、音声入力だけでなくAlexaを利用して利用者が行った入力全てのことをいうと定義されています。
「Amazon Echo、Amazon Echo PlusおよびAmazon Echo Dotに関するFAQ」には以下のQAがあります。

問い：　2.　Amazon Echo、 Echo Plusまたは Echo Dotがいつ私の音声をクラウドにストリーミングしているか、どのように分かりますか？」

答え：Amazon Echo、 Echo PlusまたはEcho Dotがウェイクワードを検出した時、またはお客様が端末上部にあるアクションボタンを押した際、お客様の端末の上部にあるライトリングの色が青に変わり、端末から音声をクラウドにストリーミングしていることをお知らせします。

お客様がウェイクワードを発すると、ウェイクワードが発話される数分の一秒前の音声を含みAlexaが質問やリクエストを処理するクラウドへとストリーミングを開始し、お客様の質問やリクエストがクラウドにて処理された後にストリーミングが終了します。（後略）

つまり、「ウェイクワードが発話される数分の１秒前」から「利用者の質問やリクエストがクラウドで処理されるまで」の間の音声に限って、クラウドにストリーミングされるということのようです。

「ウェイクワードが発話される前」の音声もストリーミング可能だと言うことからするとおそらく、「Alexaが常時周りの会話を聞きつつ、何秒か分だけ会話を保持して残りの会話は上書き消去し、ウェイクワードが発話されるとその数分の１秒前から録音・ストリーミングを開始する」という仕組みなのでしょう。

事故があったときだけ録画するドライブレコーダーのようなイメージですかね。
下記はドライブレコーダーメーカーのサイトですが、ドライブレコーダーには「常時録画タイプ」と「イベント録画タイプ」があるとして、後者について以下のように説明しています。

イベント記録タイプは、車に衝撃が加わったとき（事故の衝突の際や、急ブレーキなど）に、自動的に映像を記録するドライブレコーダーです。
衝撃が加わったときの前後の映像を自動的に記録することで、もしもの事故の際もしっかりと映像を残すことができます。
また、録画ボタン等で任意のタイミングで記録が可能なタイプのドライブレコーダーもあります。

このタイプのドライブレコーダーも、常時カメラは作動しつつ、数十秒分だけ動画を保持して残りの動画は上書き消去し、異常を検知すると数秒前から録画を開始するという仕組みです。

http://dry.yupiteru.co.jp/about/

ちなみに、「AlexaおよびAlexa対応端末に関するFAQ」の上記引用部分は「ストリーミングされる音声」の範囲についての解説ですが、おそらく「ストリーミングされる音声」と「ストリーミングされ、クラウド上で録音（保持）される音声」の範囲は同一ではないかと思われます。

Alexaアプリの「設定」「履歴」でAlexaとの音声対話の履歴を確認することができるのですが、確認してみると、確かに上記の「ウェイクワードが発話される数分の１秒前」から「利用者の質問やリクエストがクラウドで処理されるまで」の間の音声が録音されていることがわかるためです。

ここまで調べて冒頭の我が家での事件の謎が解明されました。
「Alexa」というウェイクワードを子どもが偶然発したのでストリーミングが開始されたのだと思います。

■　Alexaが会話を常時「聞いている」こと自体が問題なのか？

以上をまとめますと（一部推測も入りますが）「Alexaは家庭内の全ての会話を聞いてはいるが、一部しか録音・クラウドへの送信をしていない。」ということになります。
「全て聞かれていても一部しか録音・クラウドへの送信をしていないから問題ない」と考えるのか「全て聞かれていること自体が不気味」と考えるかは人それぞれでしょう。

すくなくとも利用規約上、音声入力の録音・クラウドへの送信範囲は明確ですので、法律上・契約上の問題はありません。

そもそも「聞かれている」という表現自体が正確ではないかもしれませんね。
「聞かれているから不気味」と感じるのは、「スピーカーの中に興味関心を持って人の会話を聞いている、人間的な何かがいる」ということを（無意識にではあれ）想定しているからのように思います。
しかし、Alexaはあくまでソフトウェアですので、人間的な意味で「聞いて」いるわけではありません。単に「録音に備えて常時音声を取得している」ということに過ぎないんですけどね。
ドライブレコーダーを「常時見ているから不気味」と感じる人はあまりいないと思いますが、Amazon Echoの場合、優れた音声認識と音声合成により、Amazon Echoの中に「人格」を見る人が多いのかもしれません。

■　Alexaはクラウド上に保持した会話を何のために使っているのか

では、Alexaはクラウド上に保持した会話を何のために使っているのでしょうか。

「AlexaおよびAlexa対応端末に関するFAQ」には以下の記載があります。

Alexaは、お客様の音声録音および第三者サービスからの情報を含むその他の情報を、お客様の質問に回答し、お客様のリクエストに応え、かつお客様のAlexaとの様々な体験およびAmazonのサービスを向上するために利用します。

また、録音内容には個人情報を含んでいる場合もあります。
個人情報については、取得者において利用目的を特定したうえ（個人情報保護法１５条）で通知ないし公表する必要があります（同法１８条１項）が、Amazonのプライバシーポリシーには利用目的として以下の記載がありますので、その目的の範囲内で利用されていると思われます。

ご注文の処理、商品の配送やサービス、支払方法の提供および支払いの処理、注文・商品・サービス・販売促進、お客様のご要望への対応、お取引記録の更新、およびお客様のアカウントの一般的なメンテナンスのための連絡、ほしい物リスト、カスタマーレビューなどの表示、お客様が興味をもたれると思われる商品・サービスのご案内、会員制プログラムの管理などの目的

まあ、想定の範囲内といえば範囲内ですね。

■　Alexaが取得した音声入力データはどのような価値を持っているのか

これで終わってはつまらないので、もう少し推測を進めてみます。
利用者がAmazonに入力するデータ（検索、コンテンツの視聴、商品の購入など）は分解すると

入力手段×入力内容

となります。
これまでは「文字（PCやスマホなど）×入力内容」だけだったのが「音声×入力内容」も加わったということです。
そして、これは単純に「データの入力手段が増えた」ということに止まらず、入力内容も変わり、そのデータとしての価値も変わったと言うことなのではないかと思います。
簡単にいうと「文字で入力されたデータ」と「音声で入力されたデータ」はその質・量共にかなりの違いがあるのではないでしょうか。

量が多い

まず、単純に音声入力データの方が文字入力データよりも量が多くなる傾向にあると思われます。
理由は簡単。音声入力の方が楽だからです。
例えば、何か曲を流そうと思ったときになにかのデバイスを使って曲名などを文字入力するよりもAlexaに曲名を話しかける方が格段に楽です。何かを検索するときも同様です。
我が家でもAlexaが来てから、家で音楽を聴く時間がとても増えました。

データの鮮度が高い

また、音声入力の場合「思い立ったときにすぐ入力できる」という特性があります。
たとえば、何かをAmazonで買おうと思った際、それほど緊急のものでなければ、手元にスマホがなければ「後で買おう」ということになります。つまり文字入力の場合、「買おうと思った時点」と「実際に購入行動を起こす時点」とではかなりの時間的間隔が空いている可能性があります。
一方、音声入力の場合は「買おうと思った時点」と「実際に購入行動を起こす時点」とが非常に近接していることが多いと思われます。
一般に、人が購入行動を起こす場合、「なにかのイベント（外界の出来事や内面での感情の動き）→購入意思発生→購入行動」という順番で行動しますが、マーケティング的には「どのようなイベントが、購入意思発生に結びついたのか」を知りたいはずです。それが分かれば、そのようなイベントを人為的に起こすことも出来ますし、あるいはコントロールできないイベント（天気など）であれば、そのイベントに合わせた広告を打つことも出来るためです。
その際、「購入意思発生時点」と「購入行動時点」の時間的間隔がかなり空いてしまっていると、どのようなイベントが購入意思発生に結びついたのかを推測しにくくなります。
その意味で、音声入力によるデータは「鮮度が高く、マーケティング的な価値も高い」といことになるのではないでしょうか。

入力者の属性を広い範囲で取得できる

また、音声入力の場合、当然Alexaとしては入力者の属性（性別、年令など）を区別して認識しているはずです。
これは、従前の文字入力では不可能でした。
どのような属性の入力者が文字を入力しているかは認識できなかったからです（当然ですが）。Amazonで、ある利用者が商品を購入したり検索した場合、それは当該利用者自身が欲しかったものなのか、あるいは家族のために購入・検索をしているのかの区別が出来なかった、ということです。
しかし、音声入力では、１人１人の声を認識し、どのような商品をどのような属性の者が欲しがったり購入しているのか、という高精度なデータを取得することが可能となっています。
たとえば、昨日我が家のAlexaで再生された「美女と野獣」は私が聞きたかった曲ではなく、子どもが聞きたかった曲であることをAlexaは知っているはずです。