えぐち@エスアンドイー です。

>>> In message [ruby-dev:8389] Re: Regexp <=>
    On Sat, 20 Nov 1999 06:35:38 +0900, Shin-ichiro Hara <sinara / blade.nagaokaut.ac.jp> said:

原> 原です。
原> 
原> In message "[ruby-dev:8383] Re: Regexp <=>"
原>     on 99/11/19, EGUCHI Osamu <eguchi / shizuokanet.ne.jp> writes:
原> |
原> |えぐち@エスアンドイー です。
	...
原> |	/abc/ | /xyz/ => /abc|xyz/
原> |
原> |が出来る Regex#| とかあれば、無理に一個の正規表現リテラルに
原> |表現する必要がなくって、スクリプトを書く時に楽かなと思います。
原> |#正規表現の最適化出来そうだし。。。
原> 
原> 前にも議論があったのですが、正規表現の演算を考える時はまず、それが正規[ruby-dev:1011] あたりから始まるスレッドですね。

  Date: Wed, 10 Dec 97 12:00:03 +0900
  From: Kazuhisa Yanagawa <katze / yuba.is.uec.ac.jp>
  Subject: [ruby-dev:1011] Re: ruby 1.1b1 released 
  Message-Id: <199712100308.MAA12530 / tan.yuba.is.uec.ac.jp>

原> 表現の文字列への適合の話か純粋に正規表現の内部の話か、区別しておかない
原> といけないですね。例えば /./ を前者でいうと任意の一文字以上の文字列で
原> すが、後者では単に任意の一文字です。演算なら
原> 前者で言えば
原> 
原>   /a/ & /b/ => a も b もマッチする => /a.*b|b.*a/
原>   !/a/      => a にマッチしない    => /^[^a]*$/
原> 
原> であるし、後者で言えば(ちょっといいかげんだけど)
原> 
原>   /a/ & /b/ => a であり b である一文字 => 空 => /[^\x00-\xff]/
原>   !/a/      => a 一文字でない任意の文字列  => /|[^a]|..+/
原> 
原> みたいなものですから、大きな違いです。

確かに、この違いは大きいですね。
これって、両方が必要ってことかも知れませんね。
/a/ と /b/ で考えると、

   /a/ & /b/ => /a.*b|b.*a/

が直観的に妥当に思えますが、/[a-j]/, /[c-z]/

   /[a-j]/ & /[c-z]/ => /[c-j]/

の様に考えてしまいます。
両方の動作が、同様に望まれるとしたら、ビット演算子(|,&,~)と
算術演算子(+,*,-@)で使い分けるなどで共存は出来ると思います。

原> で、/(a+)b\1/ などの参照つきの表現を考えるとそもそもいわゆる正則集合で
原> はないので、色々な演算についても閉じていないでしょう。上のどちらの立場
原> を取っても。正規形も存在しないのでは?

なるほど、素朴な場合はいいけど参照など入り組んだら、厄介ですね。

正規表現同士の比較のための「正規表現の正規化」に限って言えば、

 + [X-Y] などの1文字の列挙はアルファベット順に整列し重複は併合
 + OR は小さい順に整列し重複は併合

の方法で、表現を変形したあと、
構文要素単位で比較する方法を少し考えてみたのですが、

  /a/ == /.*a/
  /a/ == /[a]/

の様なケースを一致とするのか?

  /a/ <=> /./
  /a/ <=> /[a-z]/

の比較の結果はどう定義するのか?(これ決まらないと整列出来ない)

などなど、難題の山でした。

とすると source を単純に比較してる Regex#== が妥当、、なのかな?

	えぐち