こんにちは、ウェブアプリケーションエンジニアのid:syou6162です。秋まっさかり、読書の秋/論文読み会の秋ですね。はてな社内で国際会議論文読み会を開催したので、今回は読み会で取り上げた論文について簡単に紹介していきたいと思います。異常検知、情報検索、自然言語処理といった多様な分野の論文が登場し、読み会も盛り上がりました。なお、論文PDFは各学会ページまたは著者のWebサイトで公開されているものを参照しています。
- Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection
- Change Detection using Directional Statistics
- Linguistically Regularized LSTM for Sentiment Classification
- BitFunnel: Revisiting Signatures for Search
- まとめ・感想
Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection
- 著者: Tsuyoshi Ide(IBM Research), Ankush Khandelwal, Jayant Kalagnanam
- 紹介者: id:syou6162
- 論文PDF: http://ide-research.net/papers/2016_ICDM_Ide.pdf
- 背景:
- 大量のデータ、高次元のデータがセンサーデータなどでやってくるようになったので、外れ値やおかしな動きをしている変数を自動で見つけたい
- この論文で解きたい問題:
- システムが複数の状態を持つ(例: 昼間と夜間、平日と休日、歩いてるとき/走ってるとき/乗り物に乗っているとき)場合にもどの変数の動きがおかしいか検知できるようにしたい
- 解いている方法:
- 既存のGaussian Markov Random Fieldを混合モデルへと拡張、システムが複数の状態を持つことを許した
- 実データにつきものなノイズに対しても頑健に動くように、スパース性をうまく取り込んでいる
- 精度行列の事前分布にラプラス分布を導入
- 混合係数の推定に関連度自動推定を導入、不必要なクラスタへの重みを0になりやすくする
- 解いた結果:
- 人口データと実データ(offshore iol production)で実験
- 混合数はデータに応じて学習できていた
- 既存のPCA、auto-encoderなどよりも高い性能を示した
- 所感:
- Gaussian Markov random fieldの素直な混合分布への拡張で分かりやすかった
- 2つのステップそれぞれで変分ベイズをやる必要があり、実装は少し頑張る必要がある
- 外れ値検知をするだけでなく、外れ値解析も盛んになってきつつあるので、この方法の重要度は増していきそう
- より詳細なことは、個人ブログに記載しています
Change Detection using Directional Statistics
- 著者: Tsuyoshi Ide(IBM Research), Dzung Phan, Jayant Kalagnanam
- 紹介者: id:syou6162
- 論文PDF: http://ide-research.net/papers/2016_IJCAI_Ide_corrected.pdf
- 背景:
- センサーデータなどの普及により多変量の時系列データが容易に入手可能になっている
- そのデータに対する傾向が変わったことを自動で検知するために、変化点検出が強く望まれている
- この論文で解きたい問題:
- 実データはノイズも多く、変数同士の相関もあり、取り扱いが難しい
- システムはいくつかのパターンを持つことが多いので、それをモデルで取り扱えるようにしたい
- 解いている方法:
- ノイズはいくつかの変数に同時に乗ることも多く、ノルム自体にはあまり意味がなく、ベクトルの方向の変化が意味を持つ
- 方向データの取り扱いに長けたvon Mises-Fisher分布(超球上の確率分布)を中心にモデル化
- 実データはいくつかの代表的なパターンがあるため、m個のvon Mises-Fisher分布のパラメータを推定する。異なるパターンを推定したいので、それぞれの平均方向ベクトルが直交するという制約を導入する
- 学習データとテストデータの変化の度合いを表現するためにKLダイバージェンスを利用
- 解いた結果:
- 人口データと実データ(Failure detection of ore belt conveyors)で実験
- 事例毎の重みの項を導入することで、ノイズである事例は自動的に除去する効果がうまく働いた
- 既存のPCAはStationary subspace analysisを使った方法よりも高い性能を示した
- 所感:
- ノイズの乗ったデータの除去や方向データにいくつかのパターンを許すような現実的な設定を考慮しつつも、導出された結果が美しく読んでいて楽しくなった
- 一方で、学習データのパターン数m、テストデータのパターン数rが精度に大きく効きそうで、チューニングは難しそうに感じた
- より詳細なことは、個人ブログに記載しています
Linguistically Regularized LSTM for Sentiment Classification
- 著者: Qiao Qian (1State Key Laboratory of Intelligent Technology and Systems), Minlie Huang, Jinhao Lei, Xiaoyan Zhu
- 紹介者: id:skozawa
- 論文PDF: https://www.aclweb.org/anthology/P/P17/P17-1154.pdf
- 背景:
- Tree-LSTM など、構文情報を利用したモデルが感情分析で成功している
- フレーズレベルのアノテーションが必要で、コストが高い
- この論文で解きたい問題:
- 文レベルのアノテーションのみで、フレーズレベルのモデルと同等の性能のモデルを作る
- ニューラルモデルで言語知識を活用する
- 解いている方法:
- Bidirectional LSTM をベースに、4つのRegularizerを用意
- Non-Sentiment Regularizer
- Sentiment Regularizer
- Negation Regularizer
- Intensity Regularizer
- 感情語、否定語、強意語、その他に応じたRegularizerを適用することで、出力する分布を調整
- Bidirectional LSTM をベースに、4つのRegularizerを用意
- 解いた結果:
- 言語知識を使うことで性能が向上
- フレーズレベルのモデルと同等の性能がでた
- 所感:
- 特徴量がコントロールしにくいニューラルモデルに対して、ある程度明示的に特徴量を与えられるのは、これまでの知見・資源を活かすという意味でも、実用時の調整を容易にするという意味でもよさそう
BitFunnel: Revisiting Signatures for Search
- 著者: Bob Goodwin(Microsoft), Michael Hopcroft, Dan Luu, Alex Clemmer, Mihaela Curmei, Sameh Elnikety, Yuxiong He
- 紹介者: id:takuya-a
- 論文: https://dl.acm.org/citation.cfm?doid=3077136.3080789
- PDF はこのリンク先の ACM Digital Library からダウンロードできます
- YouTube
- BitFunnel - GitHub
- BitFunnel 公式サイト(開発ブログなど)
- 背景:
- シグネチャファイルという(転置インデックスではない)方式での検索は、false positive が発生することや、速度や空間効率の面で課題があり、実用的ではないと考えられていた
- この論文で解きたい問題:
- 検索エンジン (Bing) の QPS (query per second) を向上させる
- サーバの運用コストを下げる
- 解いている方法:
- シグネチャファイルによる検索アルゴリズムにいくつかの改良を加えた
- 数理モデルから導出したパラメータ最適化により false positive の発生を一定以下にコントロールする
- false positive は別にあるランキングシステム (the oracle) により落とせる(詳しくは論文には書かれていない)
- 解いた結果:
- 転置インデックス方式での state-of-the-art の実装 (PEF; Partitioned Elias-Fano) よりも高い QPS
- 文書長が長い (2,048 - 4,095 ターム) 文書集合に対しては 8 倍以上の QPS
- 文書長が短い文書集合でも QPS では勝っている
- 空間効率(文書あたりのビット数)は PEF より低くなる
- システム効率 DQ (QPS / 文書あたりのビット数) を考えると、文書長がある程度長い場合 (256 ターム以上) には PEF を上回る
- 速度と空間効率はトレードオフ
- false positive は 1.62% ~ 4.32%
- 転置インデックス方式での state-of-the-art の実装 (PEF; Partitioned Elias-Fano) よりも高い QPS
- 所感:
- これまで技術的な課題があって使われてこなかった古典的な手法を、様々なアルゴリズムを駆使してプロダクションまでもっていったのがすごい
- 機械学習を使っているシステムとは分離し、疎結合なアーキテクチャにしている点が興味深い
- 検索エンジン側で false positive が許容できるというメリットもある
まとめ・感想
前回に引き続き論文読み会を行ないましたが、トップカンファレンスの論文ということもあり、特に読み応えがあるものが多かったです。読み会の中で4つの国際会議が登場しましたが、一人ではなかなかカバーすることが難しいので、社内でも組織的に今後も読み会を行なっていこうと思います。