SBM研究会の感想+私のSBMデータを利用したシステムについて

SBM研究会行って来ましたー!!


私はSBMのデータを利用して、Webページの推薦やコンテンツ分類の研究を行っているので、正直今日のSBM研究会は非常に期待していたイベントでした。
しかしながら、内容はそれ以上に有意義なものでした。第二回もぜひぜひ参加したいと思いました!!


最初の横田さんのプレゼンでは、SBMの現状とこれからについて貴重な意見が聞けました。
現在のSBMユーザがインターネットユーザ全体の7%らしいです。これは、思っていたより多かったのでこれはうれしい誤算
でした。しかし、今後のSBMの方向性として、SBMユーザは増えず、現状の7%程度のパイを各SBMサービスが取り合う形になるという考えを聞き少し残念に思いました。
確かに私も、del.icio.usはてブをはじめとした各種SBMサービスが、現状の形のままではSBMユーザの増加は見込めないと考えています。しかし、今後UI面の劇的な改良やブクマを公開することへの抵抗感をなくしていくような方向へのシフトが見込めれば、SBMユーザの増加が見込めるのではないかとも考えています。理想論を述べると、IEなどのブラウザにデフォルトとして、SBM機能が埋め込まれると良いと思います。そして、ユーザがブクマを公開するかどうか以下の3つの選択肢の中から選べると良いと思います。

・ブクマ情報を完全に公開
・ブクマ情報をマイクロソフトのみに公開し、推薦や似ている人発見などのサービスは利用可能
・ブクマを完全非公開

現状、大半のインターネットユーザはIEを利用しており、そのIEにデフォルトで搭載されている機能なら、皆がSBMの存在を知ることになるし、デフォルトである機能なら使ってみようという人も大幅に増加するのではないかなどと考えたりしています。
まあ、そんな夢物語をここで語っても、マイクロソフトがそんなことをやるとは到底思えないですけどね。。。


2番目の東工大の宮田さんと佐々木さんによるSBMデータを用いたwebコンテンツ推薦の話は、私もwebコンテンツの推薦をやっているので、非常に勉強になりました。特に、SBM研究のトレンドの話や有名な論文紹介の話が面白かったです。また、この研究はアイデアも面白く、(完全に理解できたわけではありませんが)アルゴリズムもすばらしく研究としては非常に良い研究だと思いました。
ただ、私はwebコンテンツの推薦というのは、インターネットのコアなユーザよりもむしろ、検索リテラシーの低いライトなユーザにこそ必要なものだと考えています。なぜなら、検索リテラシーが低いからこそwebコンテンツの発見ができず、推薦がより有用だと考えるからです。しかしながら、現状SBMユーザの大半はインターネットのコアなユーザであるため、ライトなユーザ向けの推薦は難しいでしょう。そこら辺に、SBMを用いたwebコンテンツの推薦の限界を感じたりしています。さらに、現状のSBMによる推薦の研究は、計算時間を始めとしたUI面に非常に問題があると考えています。

SBMデータを用いたwebコンテンツ推薦の研究を自分でもやっているにも関わらず、こんなネガティブなことばかり書いて申し訳ないですが、これが現状だと思っています。


実は私もSBMデータを用いた推薦するシステムを試作済みで、はてブからテスト的に20万レコードほどデータを収集し、DB(MySQL)に登録しております。これは、アルゴリズム的にも佐々木さんのようにすばらしいアルゴリズムを用いておらず、もっと単純で計算量の少ないものを利用しているのですが、webページの推薦に5〜10秒程度かかってしまっています。正直、20万レコードじゃあwebコンテンツ推薦には、非実用的だと思っていて、実際はその100倍の2000万レコードぐらいは欲しいと考えています。そう考えると、DB検索時間及び計算時間が恐ろしいことになることは容易に想像がつきます。


そういった理由から、最近はSBMデータを用いたコンテンツ分類の方が面白いのではないかと考えていたりします。コンテンツ分類なら、検索リテラシーの低い、インターネットのライトなユーザにも有用ですし、GoogleやYahoo検索とは異なった視点からのwebコンテンツ発見の支援ができると思っています。
実はこれも試作済みで、データがまだ20万レコードしかないので、一部の分野に限られていますが、なかなか面白いようにコンテンツ分類ができていると自分では評価しています。


データ収集やUI周りの整備など、まだまだやりたいことがたくさんあるので、完成には後1〜2ヶ月ぐらいかかってしまうかもしれませんが、完成したらこちらのはてダで公開します。コンテンツ分類だけでなく、推薦の方もなんとかUI周りを整備して公開したいと思いますので、興味のある方は、ぜひ利用してみて下さい。