HPからの情報収集技術について

HPからの情報収集について

当社の提供するコンテンツは、20万社がそれぞれのホームページ(以下HPと記します)に掲載する情報から収集しています。
これは、現時点ではデータベース構築の一般的手法とはなっていないため、「HPからの情報収集とは何か」当社の考えを記述します。

個別技術、関連情報についての説明を目的としていません。
独自の解釈理解によるものであり、その説明、評価について客観性を欠く記述が入っています。

無料体験を案内中です。メルアド、名前の登録で、体験サイトのURL,ID,パスワードをメール送信します。


1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介

技術変化、世間のビジネス慣習の変化によって内容を更新していく予定です。

無料体験を案内中です。メルアド、名前の登録で、体験サイトのURL,ID,パスワードをメール送信します。