Alexa Day 2018に参加しました。

今日から始めるAlexaデバイスのプロトタイプ開発

  • Developers.IOでのアイコンに好きなアニメ(多分ガ○ダム)に出てくる角が生えている。
  • 戯れているうちに、Echoに「口の訊き方にきをつけてもらおう(CV:榊○良子)」と喋って欲しいなという妄想が。

Alexaとは?

  • Amazon Echoの登場によって一気に知名度が上がった
  • 2017年11月にリクエストをしてもまだ招待が来ない人がいる

  • CESにおける存在感

    • CESは米国のIT・家電見本市(世界最大級)
  • CES 2017ではAlexaとのコラボレーションを意識したプロダクトが爆発的に増加

    • AppleやGoogleの音声認識システムを使うメーカーはごく一部
  • Alexaは関西弁も喋れる

  • Alexa対応製品、他の電機メーカーからも出ている

WWE?

  • ググってみると…プロレス?
  • World Wrestling Entertainmentがヒットする。
  • Alexaって名前のプロレスラーさんがいた。
  • 正解はWake Word Engineでした。

Audio Front End

  • 3つのインタラクションモデル

    • タッチ操作
    • ハンズフリー
    • far field(遠隔ソリューション)
  • オーディオアルゴリズム、マイクの配置、マイクの数

    • オーディオアルゴリズムは、音響やってる方には常識?
    • 3つの組み合わせによって精度が変わってくる
  • ノイズ軽減する信号処理の一種

  • オートゲインコントロール

    • オーディオ入力のリニア処理/ノンリニア処理
  • S/N比は聞き取りやすさ

オートゲインコントロール

  • 小さい音は問題ない
  • 大きな音(ガラスの割れる音など、うるさいもの)は増幅されると不快

  • 大きな音は信号を歪ませて制限

  • リニア処理は一定

  • ノンリニア処理では、大きな音は増幅しすぎないように歪ませる

  • Alexaの場合はノンリニア処理をすべきでない

    • ノンリニア処理だとデバイスの音声認識精度が低下するから

アコースティックエコーキャンセル

  • エコーといえば、やまびこ。
  • 山彦は山の神、木霊は樹木の霊、エコーは森の精霊が発信元ということらしい。

  • テレビ会議をイメージ

    • 自分の声が、相手のスピーカーから聞こえたものが、相手のスピーカーが拾って聞こえてしまう
  • Alexaデバイスの場合、音楽再生しているときに拾ってしまう。

  • DSPというプロセッサがエコーを検知したら、エコーをカットする

    • ユーザーの音声だけを拾う
    • 自分の声が聞こえてくるまで時差がある
    • DSP = Digital Signal Processor

ビームフォーミング

  • 音源を特定する

    • 音源が到達する最初のスピーカーと、最後のスピーカーとでズレがある。
  • Echo dotは卓上に設置がベストの予感

    • dotは、ななめ15度上方あたりから話しかけるのが適切。
  • デバイスによってマイクの配置はそれぞれ。

  • マイクが多いタイプは精度が高いが漸減

  • SN比が高ければ、マイクが多くなくても問題ない

AVS開発キット

  • 上記を踏まえてデバイスつくるのか?

    • 速く検証、サービス提供したい。
    • そんな時のためのAVS開発キット
    • 音響の専門家じゃなくても、開発を短縮できるキットの数々
  • デバイスのキットがある。

    • 招待制のデバイスもある。
  • 最適なマイク配列は、ラズパイ

    • 結構簡単。ラズパイのセットを購入すると良さそう。
    • rpi-updateかけると罠、apt-getしよう。
    • 開発キットはほとんど海外から輸入。
  • 利用シーンに応じたデバイスを考慮する必要もある

  • AVS開発キットで開発コストを圧縮!

Alexaはどこにでも。AWSが開くAlexa Enabledなライフスタイル

  • 所有しているデバイスありすぎてどれが返事するかわからない

  • SOUND ONLYといえば…!ゼーレ!!w

  • デバイスを簡単につくれる

    • Alexa SKILLS Kitはソフトウェア部分。
    • Alexa Voice Serviceはデバイス寄りの部分。
  • デバイスを作ろう

  • なぜAVS Device SDKを使うのか?

    • デバイス側でコントロールが必要な部分がある
  • デバイスが考えること。

    • 既存のものを使うことで大分減らせる
  • Alexa enabled デバイスはチャンス

    • Amazon.comで、2018/2/5時点で、色違いの製品を含めて209のデバイスしかない
  • Alexa Enabledデバイスにはスピーカー、時計が多い

    • Alexaスキルは3万以上あるので群雄割拠
  • デバイスはまだまだチャンスが有るのでは

    • レギュレーションが厳しいのもある

実際に販売されているAlexa enabled device

  • ボイスコントロール照明

    • 照明にAlexa入れたで
    • おしゃれな空間にEcho dotはいらん
  • 実験的な色んなデバイスが出ている

  • 友達ひとり増やしたい人どうですか?

VUIとデバイス

  • 必要な情報量を考える

    • y = 20x
    • 1インテントに対して、想定する発話の推奨数
  • 長い会話は逆に疲れる

    • そんなに複雑なことはできない
  • Capital Oneという銀行系のスキルが有る

    • 20万個の会話
  • スターバックススキル

    • よく頼むものをもう1回予約することだけができる
    • シンプルにするのがいい。
  • 利用シーンが限定的なところにこそボイスコントロールが活きる。

    • 想定するシーンが限定的であればあるほど発話もシンプルに。

Alexa enabled Deviceで変わる未来

  • TVの電源を入れる時に、テレビに直接言うことで実現できる

    • SONYのBraviaはAlexa enabledになりそう
  • BMW, Toyota, Ford等の車

    • 運転中は手がハンドルに取られる場面なので適していそう。

“アレクサ、パルコをひらいて” ~ショッピングセンターのAlexa活用のねらい~

パルコはAWSをどこで使っているのか?

  • Webサイト
  • スマートフォンアプリ
  • デジタルサイネージ供給
  • Free Wi-Fiのログデータ
  • センサーデータの活用
  • アプリデータ分析でマーケティング

パルコについて

  • パルコが直接商品を売るのではなく、パルコのビルに入居したテナントさんが商品を売る。

  • 1969年からパルコとして営業開始。

  • 三宮にも今秋パルコが!

  • 渋谷パルコ来年復活します!!

    • 建て替え工事を始めたら、渋谷店はなくなったと思われてしまうことが。
    • 今は建て替え工事中の壁面で『AKIRA』コラボ(舞台が2019年の東京なので)やってる。
  • パルコはAmazon Echo発売時にスキルを同時にリリース

  • 池袋パルコの店舗案内係スキル

    • パルコの店頭に設置することを前提に開発を行なった
    • 自宅前提の開発が多かったのでは

なぜパルコに必要なの?

  • 接客を「拡張」する
  • B(パルコ) to C(お客様)の側面ではコミュニケーションの手段が変化
  • B(パルコ) to B(テナント)では人手不足、業務効率化

  • スマートフォンの登場

    • いつでもどこでも、気軽に情報に触れられる
    • パルコの外でもお客さんと接するチャンス
  • 労働人口の減少が接客力の低下につながる

    • 経産省のデータ
    • 求人率の高い業種
    • 労働意欲と労働生産性のマトリックス、、生産性は横ばい、または下落
  • 24時間PARCOという目標

    • お客さんがPARCOに来る前、来た後にも接客、コミュニケーションが出来るように。

仙台PARCOでの1ヶ月の実験

  • Pepperくんを導入、多言語対応

    • Pepperくんはユーザーさんと対話、AWS経由で情報をナビー(実際にお店まで動いてお客様を誘導するロボット)に伝達
  • ロボットは人よりも接客が得意かも?

    • インフォメーションカウンター接客・ロボット接客の1ヶ月の接客件数を比較した
    • 人は134件, ロボットは403件
    • インフォメーションカウンターに行くのはハードルが高い
    • 接客ロスが多かった
    • フロアごとに有人の接客を追加するのは厳しい
  • お客様が何を聞きたかったのか?がすべてデータを記録できる

    • 今まではスタッフが手作業で集計・管理していた
  • Alexaも会話ログが取れたらもっと良いな…

  • アンドロイドを導入

    • 棚卸しも手伝ってもらおう
    • 目の前に立ちはだかるコストの壁
    • Pepperくんはコストは安い方だけど…
  • 去年のAWS Summitの頃、AWSの方と相談してみた。

    • 本国でも不特定多数の人と話す事例はなかったらしい
    • クラスメソッドさんにも相談。

やりたいことがたくさんある。

  • テナント従業員さんの入店時のパルコのオリエンテーション研修は好きなタイミングで重厚出来るようオンライン化を進めている

    • マニュアルを必要としないサービスを提供できないか?
  • 店員さんが困った時の助け舟を出す、Alexaを作ることができないか?

    • パルコ自体の知識は機械が記録しておいて店員さんが学習する必要をなくせないか?
    • テナント従業員さんの入れ替わりが激しい

初めてのスキル開発。ここに苦労した。(全て実話)

VUIの設計

  • 実際のお問い合わせ記録があるので、よくある質問の元データがあった。
    • 600種類を越えるバリエーションの質問
  • Special Thanks to classmethodさん

Alexaがショップ名を上手く発話してくれない

  • 店名の難易度が高い

    • 200店舗くらいある
  • 発音を人力で修正

ユーザーによって揺らぎのある言葉が存在する

  • 店名も略称で呼び出す可能性がある(タワレコ、アローズなど)

  • ゆらぎのありそうな言葉をカスタムスロットにひたすら辞書登録

  • Build in Slotは現状英語しかなかった。日本語なし。

家庭ではなく、公共空間への設置を前提として設計が必要

  • アメリカ本国でもあまり事例がない…
  • 盗難問題
  • 盗難防止を施した専用什器を開発予定

雑音の中で正常に動作するのか?

  • SCビジネスフェア(ショッピングセンター業界の展示会)では大丈夫だった。
  • 店頭にはEcho dotはどうか。

他のスキルを起動されてしまう恐れ

  • いたずらで別のスキル起動されちゃうかもしれない…
  • Amazon Echoでは制御することはできない

設置場所(フロア)によって案内の内容が異なる

  • 一番近いトイレなど、設置場所によって答えの出し分けをしないといけない
    • 端末設定の住所で切り替える

ショップが入れ替わった時のメンテナンス

  • 定期的にリニューアルがあるのでショップがいれかわる
  • WebサイトはCMSでショップを管理している

  • カスタムスロットのデータを更新することで、Amazonの審査無しでメンテナンスできるように。

  • Amazonからまだ店頭にEchoを置いていいよ、のGOが出ていない

    • Amazon Echoの販売を招待制でやっている間はちょっと控えてほしいらしい
  • スマートフォンの限界がある

    • ユーザーさんが持ってるか持ってないか、使えるか使えないか、が制限されてしまう
    • 音声を発せるだけでサービスを受けられる

ハードウェアビジネス側から見た音声認識家電の現状とこれから

アンケート

  • Echo持ってる方?

    • 80%くらい手が上がる
  • Hue持ってる方?

    • 10%くらい手が上がる
    • 「(率が高くて)異常値ですよ!!」
  • ここ数年で洗面台を買い替えた方?

    • ほとんど手が上がらない

洗面台

  • どこの家にもありますよね?みんな使いますよね?

    • 毎日誰もがそこで時間を使う
    • でも誰も買い替えてない、ビジネスチャンス!!
  • CESでスマート洗面台がブーム

    • フランスの会社でスマートミラーが。
    • 脱衣所で音声コントロール
    • 必要な情報が表示されるなどの機能。

家電

  • 買い替えのタイミングはまだ一番大切
  • ボイスコントロールは購入を牽引できる要素

  • 洗面台はどういうきっかけで買い換えられるのか?

    • 普通、壊れるか汚れるしないと替えないよね
  • 普通、水回りの商品(洗面台、トイレ、etc)で違いに気づかない。

    • でも友達の家で実際に見てみたら、これいいかも?ってなるかも。
  • 2018, 2019頃に音声認識がくるのでは。

  • スマート便器、スマート棚、スマートブラインドとか。

  • 建材とかにボイスコントロールが入ったら面白いのではと思っている。

  • 車に比べると、家電のサイクルは速い

    • 車は企画から発売まで3年くらいかかる

最近の傾向

  • 2016年頃はスマートフォンが主役で、スマートフォンを介して家電を操作する
  • 2018年は操作する家電自体がボイスコントロールできる

なぜASK対応家電が増えたのか?

  • Amazonが開発できるキットを開放した。
  • 従来型家電 → スマート家電 → ASK家電(Alexa家電)という流れで家電は移行している。
  • スマート家電に移行する時に自社アプリにつなぎこんだ。
    • 従来型家電からスマート家電へ移行するときの開発コストが最も重たかった。
  • Alexa家電は移行する時に、自社アプリにつなぎこんでいた部分をAlexaのAPIに切り替えるだけだった。
  • つなぎこむ先が変わっただけなので、開発コストはあまり掛からずにユーザー体験が変わった。

  • M0, M3, F4, ARMコア内蔵低価格Wi-Fiモジュールの普及(16, 17年頃)

  • 今までHTTPで会話することもできなかった(扇風機)
  • ジェネリック家電ODM(アイリスオーヤマみたいな)ベンダの台頭
  • シャオミーはODMベンダ、未来のアイリスオーヤマ
  • ビビってた大手も徐々に腰を上げる

意外と大手企業は細かい部分にビビる

  • iOS、バージョンいくつまでサポートする?
  • 経由サーバの維持費は…?セキュリティ面も見ないと…
  • サポートを切らなければいけない時が来ることは、世の中の流れだとユーザーに理解してもらう必要がある

  • Alexaが喋って欲しくないことを喋ったら…?

    • Amazonの責任にできる。
    • 責任を分割できる。
  • AmazonがAlexaを開放したのはエポックメイキング

意外なところにビジネスチャンスがあるかもしれない。

  • 『そんなもんスマートにせんでも(笑)』なモノとか。
  • やってみたら意外とありかも…?ってなる。
  • スマホでポチポチするより、楽ならばありなのではないか。
  • そんなもんせんでも…と思うようなものが今後来るんじゃないかなという私見。

  • ワインラックまで音声コントロールになっちゃうかも?

    • 今聞いてる曲にあわせた、ワインをおすすめしてくれちゃう。
  • Alexa対応鞍というものもある。

  • AVS家電は面倒…

    • CESでもスタートアップは少ない
    • 低レイヤーの部分が大変
    • 喋らせるので、結構音質も重要

Alexa連携デバイスクラウドを構成するAWSソリューション

  • IoT特化チームに所属
  • 娘さんがAlexaを目覚ましとして使っている

デバイスクラウドとは?

  • スマートホームスキルAPI

  • Hue等の方はスマートホームスキルAPI

  • Alexaと連携する家電を作る時にどんなシステムが必要なの?

  • スキル名を言う必要がない、音声対話モデルはあらかじめ定義されたもの

  • デバイスクラウドにもとめられる要件

    • 大まかに分けると4つになる
    • アカウント管理、デバイス管理、デバイス制御、エッジ処理

デバイスクラウドを構成するキーとなるサービス

  • デバイス側から、データ送信先まで複数のレイヤーをカバー

AWS IoT Core

  • ルンバ、AiboがIoT Coreを使っている
  • WebSocket

    • デバイスへのデータの送受信ができる
  • 上がってきたデータをAWSのデータを分析することもできる

  • Device Shadowでデバイスの状態を送信させておくことができる

    • アプリ側が定期的にステータスを送信
    • アプリケーション側からステータスを変更するリクエスト
    • delta(差分)を通知する
    • アップデートされたらdeltaは消える

Greengrass

  • クラウド(AWS IoT)の機能をローカルで使用できる
  • 物理的法則
    • ネットワークを介すので速度が欲しい
  • 経済的法則
    • 全部をクラウドに投げるのはネットワークコストが…
  • 法律

    • ヨーロッパで個人情報の取扱が厳しい
    • プライベートな情報はカット
  • AWSが自分たちの管理していないハードウェアにサービスを提供するのは初めて

    • そして、パッケージ化(ソースを公開していない見えない状態)で提供するのは初めて
  • Local Actionsは、Lambdaをローカルで動かすことも出来る

FreeRTOS

  • 小型で低消費電力のエッジ
  • AWSのUSのメンバーが推してるサービス

AWS IoT Device Management

  • ターゲットを柔軟に選択できる
  • Continuousは決まったイベント(新規設置時)にこの設定ファイルを送りたい、なんてことができる

AWS IoTのセキュリティ

  • IoTデバイスに証明書を埋め込む

  • TLSを使った相互認証

  • IoTポリシー(IAMポリシーと同様)がある

  • SONYのスマートホームも使ってる

Cognito AWS IoTを使ったアカウント管理

  • Cognitoで認証と認可
  • デバイスとモバイルアプリのペアリングに関しては、ケースバイケース。
  • デバイス登録, Dynamoに登録

エッジ処理とは?

  • 4つの処理
  • マネージドの組み合わせが可能
  • Greengrassのエッジ処理は課題はまだまだある

キーについて

  • IAMとDeviceのポリシーのキーの考えの違い
  • IAMのユーザー情報埋め込みはアンチパターン
  • デバイスの場合は、耐タンパー性のチップを使うことを想定
  • デバイスごとに違う秘密鍵を推奨
  • デバイスの秘密鍵は上限なし

How do we connect VUI to the real services using serverless

  • サーバーレスとVUIの関係について
  • VUIとLambdaでどう作るのが良いのか
  • VUIデザイン
  • サーバーレス

  • デモ・実装で役立つ対話モデルでの実装方法の説明

設計について

  • Amazon公式で音声デザインガイド
  • ひとつのスキルで色々なことをやろうとするインテントの精度がいまいちになりがち
  • 台本の作成
    • 面倒くさいけど、やっておくとあとから迷子にならない
  • 対話フローの作成

    • これもLambda作成時に迷子にならない
  • われわれがつくりたいのは、IVR(自動応答のシステム)ではなく、言葉ではなく、意味・文脈を理解するアシスタント

開発について

  • ベータ版だけど、Skill Builder使うのが便利
  • サンプル発話で動詞の「ゆれ」を吸収する
  • チャットボットとは違う
  • シノニム張る作業はいつまでもできないので、いつかAmazonがやってくれるんじゃないかな

  • いつかWebアプリ、業務システムまるごと再現できるようになる

  • バックエンドを実装する以前に、対話モデルや会話体験を設計して作り込む必要

  • VUX(Voice User eXperience)デザイナーがうまれる

    • かじればみんなもなれる
    • 乗りましょうこのビッグウェーブに!
  • LambdaがAlexaカスタムスキルのスタンダード

AWS Lambda

  • 2014年末に登場
  • パラダイムシフト
  • サーバーが要らないのではなく、開発者がサーバーについて考えなくても良くなる
  • Functions as a Serviceの台頭

サーバーレスについて

  • Serverless Confに行って衝撃を受けた
  • 行った日に、ライセンスして日本で開催させて!と言って実行した
  • サーバーレスで開発して効率を高めたい

  • サーバーレスは制約がある

  • つらいところを解決するSaasやフレームワーク

まかせっきりでよい?

  • プロダクトの最終責任は開発者自身にある
  • アウトソース先の技術や依存関係を理解する

サーバーレスが適しているもの

  • Webアプリケーション
  • SPA, CSVアップロード/ダウンロード
  • CSVを扱うと、メモリが肥大化する
  • S3に置いて、処理を実行する
  • REST API
    • API Gatewayを使えば簡単
  • Serverless CMS

「エコちっち」のデモ

  • ステートが重要になる
  • Lambdaが初期化されると「たまご」からスタートしてしまう
    • もっと長生きさせたいときはDynamoDBで状態を管理する

「エコちっち」を作ってみてつらかったところ

  • エコちっちの状態について「教えて」という1つのインテントに対して、スロット別にコマンドがある。

    • スロット別のコマンド制御
  • 言葉の揺らぎを吸収できない…

  • シノニムを全部caseに書く
  • ステートを制するものが対話モデルを制す!

雑感

  • AlexaのようなVUIの開発は、従来のモニターの中(パソコン、スマートフォン)で操作するソフトウェアの開発と変わってくる点が多そうだと感じました。

    • 手で操作するものから、声で操作するというものに変わるということで、考え方が変わりそうです。
    • 現状は、手で操作するより声で伝えたほうが楽、と思える場面がフィットするのでしょうか。
  • やはりVUIはどんな利用シーンを想定するか、がキモのようにも思います。

    • パルコさんのように実際にどんなシーンを想定して開発した、という話題はとても興味深かったです。
  • 今まで以上にデバイスの考慮(スピーカーの数や位置)が必要になってくるとも感じました。

    • 想定する利用シーンに合うデバイスを選ぶ必要もありそうです。
  • 自分はPhilips Hueを持っているんですが、意外と持っている人が少なくてびっくりしました。

  • 「エコちっち」のネーミングと音楽が面白かったです(笑)

  • 自分もお試しでスキルを作ってみようと思います。

B!