会社INDeXの企画が実行に移るには、Googleの存在が不可欠です。
Googleが開発した検索アプリケーションを、無償公開したことで、その適用方法を工夫することで、膨大な情報へのアクセスとその解析が可能となっています。
蓄積情報の検索配信について、導入を準備しているのが、SolrとHadoopです。
どちらもオープンソース、フリーで提供されており、利用にあたって直接的なコストは発生しません。
その概要を紹介します。詳細は別途資料にアクセスしてください。
1.Solr:以下はウィキペディアからの引用です。
全文検索エンジンライブラリLuceneをベースに、管理画面やキャッシュ機構を取り入れたアプリケーション。
機能上の特徴は、検索結果にファセットと呼ばれる検索結果を特定の軸でクラスタリング、それぞれの件数情報を付加することができること。商用の検索エンジンでもこの機能があるものは少ない。
構造上の特徴は、内部はいくつかのコンポーネントに分かれ、各所にプラグイン機構を持っているため拡張性に優れる、また、さまざまなキャッシュを持つことからより多くの検索クエリを捌けるようになっていること。
20万社/45万事業所のHP情報を蓄積し、HPに記述された文字列から対象を抽出します。
上記[クラスタリング]の軸として業種を設定することで、使い勝手の向上を狙います。
2.Hadoop:同じくウィキペディアから引用です。
Apache Hadoopは大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている。[1]Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。
20万社のHPを常時監視し、リリースなどの更新が発生した時、瞬時にその情報を取得します。
取得情報の解析分類、関連サイトへの配信を準リアルタイムに行いニュースサイトとしての価値を高めます。その技術基盤として期待しています。
以上
1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界。
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない。
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ。
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介