現在対象とするHPの会社情報は、日本国内に限られている。
海外、世界への展開に際しては、以下の課題を解決する必要がある。
1.対象とする地域、国でのURL情報の取得。
会社HPから情報を収集するためには、会社のURLを取得する必要がある。
日本の20万社のURL取得ステップと類似の抽出作業が発生する。
2.情報の正規化・抽出アルゴリズムの開発
海外のHPにおいても、コンテンツの意味を示すXMLでの記述はなされていないため、URLによって取得する情報から、社名、住所、従業員、連絡先といった基本属性を抽出するアルゴリズムを開発することとなる。
目視では瞬時に理解できることを、HTMLのテキスト列からパターン化する。
3.翻訳
海外の情報を扱うに当たっては、国際的な取引への用途が想定され、翻訳の課題が存在する。
いずれも現時点では全く対象としていないが、世界経済の連鎖が複雑化する中、国際展開の需要は高まってくると想定する。
企業情報の領域では、世界最大の企業情報会社ダンアンドブラッドストリートが世界統一の基準で、企業情報を現地語、英語を含めて提供している。
翻訳問題などは一定の解決策がとられている。
かんたんではないが、解決できる課題である。
何かの機会に、海外からのオファーがあった時点で、具体的な検討を行いたい。
1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界。
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない。
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ。
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介