2.特定サイト情報の制約

2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界。

法人に関する情報を、最も多く掲載しているのは電話帳です。
電電公社からNTTへと経営主体は変化していますが、会社として活動する上で、電話は不可欠でした。法人登記とともに、電話の申し込みが行われて、電話設置とともに事業活動開始です。
新規店舗、営業所の開設も同じです。
電話番号の取得、電話帳への記載は必須条件でした。
これを地域別、業種別に整理網羅した電話帳は法人セールスにとって貴重なリストとして機能します。
営業会社は、電話帳をテレアポ、電話営業をリストとして活用してきました。

デジタル化の進展で変化があります。
電話帳データもデジタル化され、NTTからも商品として販売が開始されました。
データ量が数百万件と当時の通信環境では、膨大であり媒体としてCDROMが選択されています。
電話帳として紙媒体では公開されている情報ですから、あえてNTTの高価な情報ではなくて、工夫して入力することも考えます。
ダイケイが個人版を含めて全件を入力し、CDROMリーダのメーカーであった日立と協力して、百貨店のハウスカード一時与信として市場開拓を行っています。
NTTとの間で、情報についての権利関係の訴訟が発生しています。
NTTが分類するタウンページ、法人版電話帳については法人に関する情報は、登録者が告知意図を持っていることから秘匿性はなく、NTTが固有に付加した、電話帳のレイアウト、業種分類にNTTの著作権を認めるという結果に落ち着いています。

ネットワークに中心が移り、iタウンページ、ライセンス先での公開が進んでいます。
しかし、当然ですが、このコンテンツ、収録した会社情報には制約があります。
電話の申し込み時の情報です。移転に当たっては、場変の情報で更新されますが、企業活動に関する情報は一切付加されません。
一部の試行はなされているようですが、900万件といわれる法人番号から本社分の抽出も困難です。
網羅されてはいるが、必要なデータを抽出するには使い勝手がよくありません。

網羅性では劣っても、より目的に即した抽出ができる会社情報が求められています。

                           以上:電話帳情報の限界です。
1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介