電子計測
2001.7.6の復習課題に関するヒント
(2001.7.11更新)
次にタグのスペース置き換えについては、ページのタグの中を良く見てどのような
文字が使われているかを確認し、その正規表現を考える。0-9までの数字、アルファ
ベットの大文字小文字は当然として、それ以外の記号やスペースをどう表現するか
が問題である。また、それらのどれかを含むと言う意味を持つ [ ] で括
ることになる。また、それの任意回数の繰り返しである。
以下に注意点を列挙する。
課題
このページのHTML言語で書かれたソース(元のファイルのこと)は、ブラウザの「表
示」メニューから「ページのソース」を選択することで見ることができる。そのソー
スファイルをtask.htmlとして保存し、教科書のp.260にあるようにスクリプトによっ
てHTMLのタグを全てスペースに置き換えてtask.txtというファイルに保存する作業を行う。また、ヘッダ部分は全て削
除するものとする。そのスクリプトおよび実行コマンドをメールの本文に書いて提出すること。
ヒント
適当なエディタを開いておいて、Netscapeで表示されているソースの全範囲をマウ
スでドラッグした後、エディタ上でマウスの中ボタンをクリックすることによりペー
スト(張り付け)できる。そうしたら、そのファイルをtask.htmlと名前をつけて保
存する。
webページは通常のテキストにタグと呼ばれる制御文字を埋め込んで、ページ表現
ができるようになっている。そのタグは<と>に囲まれた英数字記号という形
式である。今回取り除くのはその部分である。
ヘッダとはページを表示する際には画面に現れない領域のことである。唯一、ペー
ジのタイトルとしてウィンドウのバーに現れているものがあるが、それ以外は表示
されない。タグとしては<head>と</head>に囲まれた範囲であり、本
日の課題ではその部分全てをまず削除した後に通常のタグをスペースに置き換える
手順となる。ただし、sedは行単位の作業しか行えないので、<head>から
</head>までの部分の改行を取り除いておいて、1行として扱えるようにする
か、もしくは、特定の文字列で始まる行から別の文字列で始まる行までを削除する
か、何らかの工夫をしない
といけない。
ヘッダを削除して、タグを削除することになるので、スクリプトの行数は2行であ
る。
文字列の削除や置換の指定は正規表現を使用する。ヘッダ部分は上に挙げたタグの
範囲内全てを削除するだけなので、任意の文字の任意回数の繰り返し、で表現され
る。( .* )それを無文字列に置換することが削除の意味である。
課題ページに戻る