情報を活用するにあたっては、その正確性の保証が問題となります。
従来のメディアの世界では、その権威レベルによる挌付があります。NHK,全国紙、週刊誌、タブロイド紙、といった順位です。誰が報道したかによって、その情報の信ぴょう性を判断します。
ただこれらの権威に対しては、情報統制、コントロールの側面も指摘されています。
中国における情報統制などはその事例です。
権威への依存は大きなリスクを伴います。
権威に依存しない情報制度の評価は、関連するたくさんの情報を収集、整理して多面的に正しい情報を推測していく方式です。
Googleが実践している、キーワード検索における表示順位の決定方式もこの適用です。
キーワードとの親和性を、出現頻度、HPの更新度、他とのリンクの豊富さなどを総合的に定量化して評価しています。
SEOということで、上位表示を目的化した活動も出現していますが、これもある意味でのアクティビティとして評価できるかもしれません。
一方で、過度のSEO対策については個別に検出し、除外するという処置をとっていることは、ある許容範囲を超えた、対策を悪と判断していることを示しています。
公開されていませんが、同じくいくつかの尺度で、一種の偽装を検出していると想定されます。
やはり、たくさんの情報からの近似です。
会社情報、企業情報については、まず電話帳が網羅性、正確性で権威を持っています。
ただそこから得られる情報が極めて限られています。
どんな会社かを知りたいときに、いくつかの情報源があります。
上場企業は会社四季報です。一定の統制による正確性が保証された、有価証券報告書が源です。
大多数の非上場企業については帝国データバンク、東京商工リサーチに代表される、専門調査会社の情報が提供されています。
正確性については、一定の評価が確立していますが、情報品質を維持する専門調査員の訪問調査という方式をとると、コスト、情報鮮度の改善には限界があります。
商工会議所、商工会、楽天出展社、ハローワーク登録など、公開されている会員名簿も存在します。
この情報は会社からの申告情報となっているため、信憑性の保証がありません。
会社INDeXは、それぞれの会社がHPで公開している情報を収集しています。
この内容の正確性についての、保証が取れているわけではありません。
この課題については、数日単位での巡回と更新情報の取得を繰り返していくことで、指標を作っていきます。
更新されないHP/リンク先が存在しない、などネガティブな要件、
リリース、What’s Newの頻繁な掲載などのアクティビティを多面評価します。
以上
1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界。
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない。
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ。
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介