4.HPから情報抽出

4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ。

HPからの情報抽出は、コンテンツを蓄積、提供する、株式会社知紡によって行われています。
1年の準備期間、1年の試行を経て、実用化レベルに達しました。
それ以前の、調査会社の情報配信、コンテンツ編集業務受託を含めて10年以上の経験、ノウハウの集大成です。

HPには、ほぼもれなくそれぞれの会社情報が掲載されています。
これを収集すると、会社情報に関するデータベースを容易に構築でそうです。
この困難さは、現在のHPを記述する言語が、HTMLという文字の大きさ、色、など表現に関する情報は直前にあるタグ記記述しますが、その意味を記述しないところにあります。
会社名を会社概要ページに記述するとき、タグには以下のように記述されています。
この文字列からは、会社名の記述と判断できません。
株主や親会社の会社名かもしれません。

これには解決策があります。XMLという記述言語になれば、タグに表現するコンテンツの項目名などを記述するので、システムが識別できます。
上場企業の有価証券報告書などは、XBRLとしてすでにXMLに移行しています。
個別のHPでの記述もXMLに移行すれば、困難さはありません。
Googleがすべての企業情報を提供できるでしょう。

HTMLの壁によって、直接収集はなされてきませんでした。一部、低賃金労働力の活用を施行した
グループは『カットアンドペースト』によるデータベース構築を施行しました。
目視が入ると一目で、会社名、従業員、株主の識別ができます。
ドラッグ、コピー、ペーストです。しかしこれでは、情報更新に対応できません。

もう一つのアプローチは、登録シートを掲載して、入力・登録を促す方式です。
世界的には、最大手のダンアンドブラッドストリートが発行する企業コード「DANS:ダンズ」が与信基準として認知され、新設企業も自ら登録、取得しています。
日本では、入札条件となることもなく、普及には至っていません。

HTMLの解釈をおこなうことが必須でした。

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介