Pinterestがディープラーニングを使ってより関連の高い情報をユーザに提供できるように












http://venturebeat.com/2017/01/12/pinterest-starts-using-deep-learning-to-recommend-related-pins/

Pinterestはピンボード風の写真共有ウェブサイトです。ユーザーはイベント、興味のあること、趣味などテーマ別の画像コレクションを作成し管理することができます。
PinterestにもAmazonのように関連する情報をユーザーに提供するサジェスチョン機能があるのですが、このたびPinterestはサジェスチョン機能の精度を上げるためディープラーニングを使ったAIを構築し、従来よりも5%の精度の改善が得られたそうです。
https://engineering.pinterest.com/blog/applying-deep-learning-related-pins

Pinterestが行っているサジェスチョン機能とは以下のようなもので、ユーザーが1枚の写真を自分のお気に入りとして保存とすると(Pinterestではピンと呼ぶ)、関連する画像情報を提供してくれます。

従来のサジェスチョン機能は画像コレクション(Pinterestではボードと呼ぶ)の共起情報を使っていました。この方法は、不特定多数のユーザがピンXをN個のボードにばらばらにグルーピングしてしまうと、ピンXに関連する画像情報はN個すべてのボードから生成されていました。また、以下の点についても問題がありました。
・Board segmentation
あるユーザーがワイン関連のアイデアをワインボードに保存し、またあるユーザーはそのワインを使ったカクテルを別々のカクテルボードに保存したとき情報にギャップが発生し、従来手法はワインに関連する飲み物を関連情報として生成していました。
・Board granularity
ボードは通常、トピックに基づいて作成するため粒度が問題となります。例えば、以下の例では寄り添うライオンの夫婦をピンとして、"動物"と"野生動物"という2つのボードに保存した結果、関連情報として表示される画像は寄り添うライオンの画像ではなく、すべての野生動物の画像が表示されるという結果となってしまいます。

・Board drifting
ボードのトピックは興味が進展するにつれて変化する傾向にあります。例えば、初めは"健康"のトピックとしてフィットネスのアイデアをまとめだしても、最終的には"レシピ"のような他のものに変化する可能性があります。

以上のようにボードの共起情報を用いる方法はピンのコンテキスト情報を失う可能性があるので、Pinterestの技術者は新たな技術を開発する必要がありました。
そこでPinterestの技術者はWord2Vecからインスパイアを得て、ピンのコンテキスト情報を失わない新たな手法としてPin2Vecを開発しました。

Pin2Vecのアルゴリズムについては省略しますが、冒頭で述べた5%の精度改善は以下のような結果として現れ、見事に寄り添うライオンの画像が関連画像として抽出されているのが分かります。

ただし、Pinterestによればエンゲージメントデータを扱ったピンはロングテールの性質があり、さらにスパース性を持つため、ボードの共起情報を使った従来手法の方が向いているそうです。そのため、従来手法をすべてPin2Vecに置き換えるのではなく、今後は2つの手法をつかってサジェスチョン機能を提供するようです。

0 件のコメント :

コメントを投稿