仙台,弁護士,小松亀一,法律事務所,宮城県,交通事故,債務整理,離婚,相続

旧TOPホーム > 桐・IT等 > 桐HPB1 >    

桐HPBによるweb上大量データ検索システム2

平成18年 7月 4日(火):初稿
○毎月1号発行される仙台弁護士会会報平成6年から平成17年まで12年間分合計144号分データをwebに掲載してNamazuによる検索を可能にするシステムの構築を【多遊】さんにお願いしておりましたが、見事に実現して頂きました。

○この仙台弁護士会会報処理システムは精緻を極めており、私のレベルではその構造を理解するには全く時間が足りません。会報1号分のデータは平均してA4版が10頁以上あり、掲載記事数も平均して10件以上あるところ、これをwebに掲載する手順は、ごく大雑把な理解ですが、次のようなものと思われます。

○先ず統一されていない各号毎に作られているフォルダ名とフォルダ内の各記事を構成する各テキストファイル名統一から始まります。フォルダとしては特集号やら合併号などがあり、各記事を構成するテキストファイル名を一定の基準で統一表記することを桐で行います。

○フォルダ名と各テキストファイル名を統一後、各テキストファイルのデータを桐に読み込みますが、桐には一レコード4000字以内の制限があり、概ね3000文字を超えるデータは2レコード以上に分けて読み込みます。この4000字制限が大量テキストデータ処理の場合の桐の最大の難点ですが、【多遊】さんはこれを難なくクリアされています。私のレベルでは到底不可能な技術でそのイベント構造をじっくり勉強しなければなりません。

○次にこうして桐に読み込んだデータを桐の印字コマンドを使用してhtmlファイルに変換します。このとき桐のレコード制限のためにいったん分離して2レコード以上にまたがって読み込んだデータはhtmlファイル化するときに一htmlファイルのデータとして結合させる処理もなされています。この辺の仕組みも私のレベルでは解明に時間がかかります。

○今回は桐の2020レコードから1641個のhtmlファイルが自動的に作成されました。その時間は処理するパソコンのCPU性能によりますが、僅か数分で可能です。これを手作業でやるとした気の遠くなるような時間がかかり到底やる気になりません。

○仙台弁護士会会報は、既に公開されているものですが、そのwebでの検索システム利用者は仙台弁護士会会員に限定することにしており、今回の試作品も非公開でロボット検索にかからないようにしておく必要がありましたが、【多遊】さんにこの処理をお願いすることを忘れていました。

○ロボット検索にかからせないためには、1641個のhtmlファイル全てに<meta name="ROBOTS" content="NOINDEX,NOFOLLOW">を入れておく必要があります。これを一ファイルずつ入れていくことは到底不可能ですが、桐システムの場合、イベントにこのタグを書き入れて1641個のhtmlファイルを数分間で一気に書き換えることが可能です。桐による大量データ処理の醍醐味であり、この優れたシステムを少しずつでも勉強していきたいと思っております。
以上:1,224文字

タイトル
お名前
email
ご感想
ご確認 上記内容で送信する(要チェック
※大変恐縮ながら具体的事件のメール相談は実施しておりません。

 


旧TOPホーム > 桐・IT等 > 桐HPB1 > 桐HPBによるweb上大量データ検索システム2