コミュニティ参加型の飲食店の評点投稿webサイトにおけるやらせ問題について
万が一にも訴訟に巻き込まれないように持って回ったタイトルになってしまった... 夕べログ(ゆうべろぐ)に似てたり似てなかったりする某webサイトを巡る騒動の話ね.
G社の(今はどれだけ使ってるのかよく知らない)PageRankの類推でちょろっと考えた範囲では,こんな感じでいいんじゃないかなー
評者 i による店 j の評点を (非負実数)と置く.これはデータとして与えられる数値である.評者 i は各々固有の信頼度 (authority) を持つ.これは本稿の計算で求めたい値だが,とりあえず初期値として 1 を選んでおく.これを重みとして各店 j に対し評点の重み付き平均 と標準偏差 を求める:
これら2つは評点の分布に関する最も基礎的な統計量である.これらを元に各評者の信頼度を更新しよう.そのために各評点データが分布にどれだけ沿うものか,または外れているものか,を示す量を導入しよう.呼び名は何でもよいがとりあえず "eccentricity" とし,ありがちだが以下のように定義する:
なお評者 i が店 j に評点を与えておらず評点 が欠損値 N.A. ならば = N.A. である.
信頼度 の更新は,これら "eccentricity" (のうち値をもつもの)の関数として計算すればよかろう.そのための関数形には様々なものが考えられるが,とりあえず以下の要請を満たしてほしい気がする:
- 各 に対し連続な狭義単調減少関数であること
- かつ
- 全ての引数に関し対称であること: =
- (各引数の取り得る範囲は なのに対し)値域は [0, 1] であること
ということでとりあえず幾何平均ベースで
と選ぼう*1.幾何平均だとさっきの "eccentricity" に現れた絶対値の処理を一緒にまとめられる(自乗として処理できる)おまけ付き!
ここまでをまとめると,与えられた行列 () に対し以下の方程式系を満たす固有ベクトル? () を求めるという問題に帰着する:
すげー酷い非線形になった... 逐次計算で収束するとうれしいけど,この式見ると全然その保証が無いなぁ.
TODO: SOPA騒動が収まったらenwpから重み付き標準偏差の式をコピってきてTeX打ちすること.
*1:うっ... のときに条件を満たさないような...