技術基盤内訳

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。

 インターネットの利用はその歴史で伝えられるとおり、学術ネットワークが民間に開放されて、テキストベースのコマンドインターフェースが、ネットスケープなどのブラウザ(HP閲覧ソフト)によって、拡大しています。
世界中で、HPが作成され、どんどん増殖しましたが、そのコンテンツ(情報の中身)について評価・基準が設定されていたわけでなく、というよりも特定の評価・基準を排したことを特徴として急速な普及が実現しています。
これは『インターネットはからっぽの洞窟』という評価につながりますが、その意味するところは『玉石混交』です。

玉と石を分離も含めて、検索エンジンが登場しました。
当初Yahooが登録を受け付けて、独自というある権威によって振り分けたのに対して、Googleは登録という作業を排し、存在するすべての情報の収集を目指しました。
勝手に作って、勝手に公開しているHPを勝手に巡回して集めてしまう。

Googleは起業の基本が情報の収集です。

全世界で作成される膨大な情報を、収集し、特定のシステム化された基準で、キーワードで検索させるサービスです。
他の情報サービス同様、検索機能の利用者に対する広告掲載が収益モデルです。

ご存じのとおり大成功ですが、コンテンツへのこだわりが強く、情報の収集のために開発したエンジン、ソフトウェアを無償サービス、オープンソースとして公開しました。

Googleが開いた、HPからの情報収集の世界にだれでも入れる環境が整いました。

数十年前ですが、IBM事件というIBMの基本ソフトの知的所有権に関する国際紛争、といっても日本とアメリカです、が起きました。
IBM互換機を日立、富士通が開発したことへのアメリカとIBMの抵抗でした。
ソフトウェアの知的所有権の侵害をしない証明として、外部仕様書の作成、内部仕様書、ソースコード製作と工程が分離され、相互間の情報交換が禁止されていました。
類似機能開発に、日立、富士通は膨大な人的投資余儀なくされました。

時代背景も異なり、経営者の感性も違っているということだと思います。逆流はなさそうです。

以下継続します。
無料体験を案内中です。メルアド、名前の登録で、体験サイトのURL,ID,パスワードをメール送信します。



1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介




2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界。

法人に関する情報を、最も多く掲載しているのは電話帳です。
電電公社からNTTへと経営主体は変化していますが、会社として活動する上で、電話は不可欠でした。法人登記とともに、電話の申し込みが行われて、電話設置とともに事業活動開始です。
新規店舗、営業所の開設も同じです。
電話番号の取得、電話帳への記載は必須条件でした。
これを地域別、業種別に整理網羅した電話帳は法人セールスにとって貴重なリストとして機能します。
営業会社は、電話帳をテレアポ、電話営業をリストとして活用してきました。

デジタル化の進展で変化があります。
電話帳データもデジタル化され、NTTからも商品として販売が開始されました。
データ量が数百万件と当時の通信環境では、膨大であり媒体としてCDROMが選択されています。
電話帳として紙媒体では公開されている情報ですから、あえてNTTの高価な情報ではなくて、工夫して入力することも考えます。
ダイケイが個人版を含めて全件を入力し、CDROMリーダのメーカーであった日立と協力して、百貨店のハウスカード一時与信として市場開拓を行っています。
NTTとの間で、情報についての権利関係の訴訟が発生しています。
NTTが分類するタウンページ、法人版電話帳については法人に関する情報は、登録者が告知意図を持っていることから秘匿性はなく、NTTが固有に付加した、電話帳のレイアウト、業種分類にNTTの著作権を認めるという結果に落ち着いています。

ネットワークに中心が移り、iタウンページ、ライセンス先での公開が進んでいます。
しかし、当然ですが、このコンテンツ、収録した会社情報には制約があります。
電話の申し込み時の情報です。移転に当たっては、場変の情報で更新されますが、企業活動に関する情報は一切付加されません。
一部の試行はなされているようですが、900万件といわれる法人番号から本社分の抽出も困難です。
網羅されてはいるが、必要なデータを抽出するには使い勝手がよくありません。

網羅性では劣っても、より目的に即した抽出ができる会社情報が求められています。

                           以上:電話帳情報の限界です。
1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介


3 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない。

会社の情報についてコメントするとき、調査会社の情報価値の評価は必須です。
興信所から、調査会社と名称は変化しましたが、専門知識を持った調査員による対面調査と周辺裏付け調査の本質は不変です。この情報『深度』には到底かないません。

ただ、調査会社が対象とする情報件数・更新頻度には制約があります。
国内の代表的な調査会社、帝国データバンク、東京商工リサーチは150万件超の企業情報を提供しています。調査方法は対面調査と、周辺情報の裏付けです。
専門調査員のコメントと、与信状況を定量化した評価点が付与されています。
この評価点は、大手企業の、取引基準としてデファクトスタンダードとして活用されています。
この調査深度を維持するには処理件数に制約があります。それぞれ数千名の調査員が従事していると想定されますが、150万社を対象としては、基本年次更新、とくに調査依頼がる会社については都度更新となります。
やむを得ないと思います。

もうひとつ、こちらがより重要ですが、調査コストと、それによる情報価格の問題です。
いくつかの価格ランクの設定がありますが、1000円/件以上です。
既存顧客の与信調査、新規取引開始時の確認といった用途では必要経費として考えられますが、新規顧客開拓に際して、営業リストとして使うには無理があります。

新規市場獲得を狙って、調査コストは発生済みとして、蓄積済データ販売と視点の転換もあり得ますが、金融機関、大手既存企業の高価な価格に見合った情報価値を認めている既存市場との両立という難しい課題があります。

インターネット情報との補完関係を追求します。(まだ相手にされる状態でありませんが)

                             以上、調査会社についてでした。

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介


4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ。

HPからの情報抽出は、コンテンツを蓄積、提供する、株式会社知紡によって行われています。
1年の準備期間、1年の試行を経て、実用化レベルに達しました。
それ以前の、調査会社の情報配信、コンテンツ編集業務受託を含めて10年以上の経験、ノウハウの集大成です。

HPには、ほぼもれなくそれぞれの会社情報が掲載されています。
これを収集すると、会社情報に関するデータベースを容易に構築でそうです。
この困難さは、現在のHPを記述する言語が、HTMLという文字の大きさ、色、など表現に関する情報は直前にあるタグ記記述しますが、その意味を記述しないところにあります。
会社名を会社概要ページに記述するとき、タグには以下のように記述されています。
この文字列からは、会社名の記述と判断できません。
株主や親会社の会社名かもしれません。

これには解決策があります。XMLという記述言語になれば、タグに表現するコンテンツの項目名などを記述するので、システムが識別できます。
上場企業の有価証券報告書などは、XBRLとしてすでにXMLに移行しています。
個別のHPでの記述もXMLに移行すれば、困難さはありません。
Googleがすべての企業情報を提供できるでしょう。

HTMLの壁によって、直接収集はなされてきませんでした。一部、低賃金労働力の活用を施行した
グループは『カットアンドペースト』によるデータベース構築を施行しました。
目視が入ると一目で、会社名、従業員、株主の識別ができます。
ドラッグ、コピー、ペーストです。しかしこれでは、情報更新に対応できません。

もう一つのアプローチは、登録シートを掲載して、入力・登録を促す方式です。
世界的には、最大手のダンアンドブラッドストリートが発行する企業コード「DANS:ダンズ」が与信基準として認知され、新設企業も自ら登録、取得しています。
日本では、入札条件となることもなく、普及には至っていません。

HTMLの解釈をおこなうことが必須でした。

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介


5.ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。

 技術革新は、実現機能の拡大とともに、その利用コスト低減として世の中に大きなインパクトを与えます。デジタルデータの領域では、累積、蓄積する情報の増大と、蓄積コスト、その利用価値のバランスがいつも課題となってきました。

情報システム停止のリスクまで懸念された、2000年問題は、過去の情報蓄積のストレージコストが
高かったために、西暦年数上二桁、「19」を省略したことが発端です。
ほぼすべてのシステムが日付は、2ケタの省略でした。
この節約によって、膨大な2000年問題対策費用が投下され、今があります。

ストレージ価格の低下は際立っています。
ショップでも1テラバイトディスクが6000円で販売されています。
15年前、64ビットOSがDECから提供された時、1テラバイトのアクセスが可能となりましたが、ディスク設置スペースは教室くらい必要で、価格は数億円ということでした。
OSの64ビット化で、技術的にアクセス可能ということと、その環境を利用できるということにはギャップがありました。
今は完全に解消です。

現時点、当社の対象とする情報は文字情報が中心です。
対象とするHPが20万社から100万社に増加し、各社から1MBの情報を取得しても1テラバイトです。
15年間で数億円から、単純比較ではありませんが、1万円への価格変化です。

情報蓄積コストが、蓄積装置価格の低下で、無視できると収集作業の自動化、収集サイクルを早めて、情報鮮度を上げることが可能です。
膨大なデータをとにかく収集しておいて、必要な情報を抽出する工程が可能となります。

現在、会社INDeXのクローリング(ロボットによる巡回収集)は数日の間隔で行っていますが、
情報更新を準リアルタイムに近づけることも可能です。

                               以上

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介


6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。

情報を活用するにあたっては、その正確性の保証が問題となります。
従来のメディアの世界では、その権威レベルによる挌付があります。NHK,全国紙、週刊誌、タブロイド紙、といった順位です。誰が報道したかによって、その情報の信ぴょう性を判断します。

ただこれらの権威に対しては、情報統制、コントロールの側面も指摘されています。
中国における情報統制などはその事例です。
権威への依存は大きなリスクを伴います。

権威に依存しない情報制度の評価は、関連するたくさんの情報を収集、整理して多面的に正しい情報を推測していく方式です。

Googleが実践している、キーワード検索における表示順位の決定方式もこの適用です。
キーワードとの親和性を、出現頻度、HPの更新度、他とのリンクの豊富さなどを総合的に定量化して評価しています。
SEOということで、上位表示を目的化した活動も出現していますが、これもある意味でのアクティビティとして評価できるかもしれません。

一方で、過度のSEO対策については個別に検出し、除外するという処置をとっていることは、ある許容範囲を超えた、対策を悪と判断していることを示しています。
公開されていませんが、同じくいくつかの尺度で、一種の偽装を検出していると想定されます。
やはり、たくさんの情報からの近似です。

会社情報、企業情報については、まず電話帳が網羅性、正確性で権威を持っています。
ただそこから得られる情報が極めて限られています。
どんな会社かを知りたいときに、いくつかの情報源があります。
上場企業は会社四季報です。一定の統制による正確性が保証された、有価証券報告書が源です。
大多数の非上場企業については帝国データバンク、東京商工リサーチに代表される、専門調査会社の情報が提供されています。
正確性については、一定の評価が確立していますが、情報品質を維持する専門調査員の訪問調査という方式をとると、コスト、情報鮮度の改善には限界があります。

商工会議所、商工会、楽天出展社、ハローワーク登録など、公開されている会員名簿も存在します。
この情報は会社からの申告情報となっているため、信憑性の保証がありません。

会社INDeXは、それぞれの会社がHPで公開している情報を収集しています。
この内容の正確性についての、保証が取れているわけではありません。
この課題については、数日単位での巡回と更新情報の取得を繰り返していくことで、指標を作っていきます。
更新されないHP/リンク先が存在しない、などネガティブな要件、
リリース、What’s Newの頻繁な掲載などのアクティビティを多面評価します。

以上

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介


8. 世界への飛躍:海外展開への可能性

現在対象とするHPの会社情報は、日本国内に限られている。
海外、世界への展開に際しては、以下の課題を解決する必要がある。

1.対象とする地域、国でのURL情報の取得。
 会社HPから情報を収集するためには、会社のURLを取得する必要がある。
 日本の20万社のURL取得ステップと類似の抽出作業が発生する。
2.情報の正規化・抽出アルゴリズムの開発
 海外のHPにおいても、コンテンツの意味を示すXMLでの記述はなされていないため、URLによって取得する情報から、社名、住所、従業員、連絡先といった基本属性を抽出するアルゴリズムを開発することとなる。
目視では瞬時に理解できることを、HTMLのテキスト列からパターン化する。
3.翻訳
 海外の情報を扱うに当たっては、国際的な取引への用途が想定され、翻訳の課題が存在する。

いずれも現時点では全く対象としていないが、世界経済の連鎖が複雑化する中、国際展開の需要は高まってくると想定する。
企業情報の領域では、世界最大の企業情報会社ダンアンドブラッドストリートが世界統一の基準で、企業情報を現地語、英語を含めて提供している。
翻訳問題などは一定の解決策がとられている。
かんたんではないが、解決できる課題である。

何かの機会に、海外からのオファーがあった時点で、具体的な検討を行いたい。

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介


7.増大、迅速化するHPでの情報公開:現在から将来の見通し

HPは当初、会社の広告的な機能で認知され、デザイン的な要素での差別化が行われてきた。
インターネットの利用が業務に浸透することにより、情報の開示、告知機能へと拡張されている。
法令に定める公告も、従来は官報によっていたが、電子公告が認められ、インターネットによる告知がより一般化している。

会社間の取引も、従来の系列取引のような、閉鎖的な取引関係ではなくて、電子取引(Eコマース)を含む、よりオープンな環境へと移行している。
長い年数の取引関係ではお互いの情報を調べる必要性も発生しないが、新規取引にあたっては、お互いの情報を取得分析する必要が発生する。

現在も与信を含めて、取引開始にあたっては、調査会社への委託、調査データ購入が一般的であるが、
取引開始以前の段階、営業リスト段階での情報識別には1000円/件以上のコスト負担には耐えられない。
より簡便な、Googleでの社名検索から、HPの目視確認がほとんどの会社で行われている。

HPは相互に参照することになるので、最新情報での更新がなされること。
会社の活動を、できるだけ正しく、迅速に伝えることへ注意が払われている。

ニュースリリースの、メディアへの露出を狙って、リリース配信代行会社のサービスを利用することが多かったが、HP上でのリリース、What’s Newなどの記事、コンテンツの掲載、更新サイクルが短くなっています。
自社HPを広告ではなくて、自社の情報告知媒体として活用する段階に入っていると判断できる。

HPによるニュース開示はXXX件あり、リリース配信件数YYYよりの圧倒的に多くの情報が開示されている。
この傾向は、加速しており、HPは情報収集の最適な媒体であると考えられる。

個別企業が、広く自社ニュースを告知する手段を持たなかったとき、メディアがその機能を独占してきた。それは、「良識」「情報価値評価」「知らしめる」という行為で、情報操作を許すことにもつながってきた。
今、メディアに依存しない告知手段をHPとして有しており、この情報流通は重要であると考える。

会社INDeXはその情報をHPから収集したデータベースである。
情報の更新サイクルの短期化、開示情報の多様化に対応して、収集、提供サイクル、方式を変化させながら、有用なデータの提供に努めます。

                                     以上

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介


9.情報基盤としてのSorl/Hadoop:利用しているオープンソースツール、ソフトウェアの紹介

会社INDeXの企画が実行に移るには、Googleの存在が不可欠です。
Googleが開発した検索アプリケーションを、無償公開したことで、その適用方法を工夫することで、膨大な情報へのアクセスとその解析が可能となっています。

蓄積情報の検索配信について、導入を準備しているのが、SolrとHadoopです。
どちらもオープンソース、フリーで提供されており、利用にあたって直接的なコストは発生しません。
その概要を紹介します。詳細は別途資料にアクセスしてください。

1.Solr:以下はウィキペディアからの引用です。
全文検索エンジンライブラリLuceneをベースに、管理画面やキャッシュ機構を取り入れたアプリケーション。
機能上の特徴は、検索結果にファセットと呼ばれる検索結果を特定の軸でクラスタリング、それぞれの件数情報を付加することができること。商用の検索エンジンでもこの機能があるものは少ない。
構造上の特徴は、内部はいくつかのコンポーネントに分かれ、各所にプラグイン機構を持っているため拡張性に優れる、また、さまざまなキャッシュを持つことからより多くの検索クエリを捌けるようになっていること。

20万社/45万事業所のHP情報を蓄積し、HPに記述された文字列から対象を抽出します。
上記[クラスタリング]の軸として業種を設定することで、使い勝手の向上を狙います。


2.Hadoop:同じくウィキペディアから引用です。
Apache Hadoopは大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている。[1]Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。

20万社のHPを常時監視し、リリースなどの更新が発生した時、瞬時にその情報を取得します。
取得情報の解析分類、関連サイトへの配信を準リアルタイムに行いニュースサイトとしての価値を高めます。その技術基盤として期待しています。

                                  以上

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介