@kyanny's blog

革命は金銭ではない - 孫文

Perl の Unicode フラグの扱い

追記

2009-06-12 - つれずれなるままに… がとてもわかりやすい。俺も UTF-8 flagged とかじゃなくて「バイト列」と「文字(の)列」の違いだと考えはじめてから理解が早まったように思う。あとだしじゃんけん−。

技術的なことは何も書いてません。ただの回顧です。

冬通りに消え行く制服ガールは✖夢物語にリアルを求めない。 - subtech

俺も長いことわからなくて文字化けを解消できずに困っていたなーと、昔を思い出した。いまでもインターナルな部分はわかってないけど・・・。表面的な部分で躓かないようになるまでに要した時間が長かった。四、五年くらい前に、 Unicode フラグというものの存在を知ってから二、三年くらいかかってやっと自分のなかで消化できたように思う。

当時は 404 Blog Not Found:perl - Encode 入門404 Blog Not Found:perl - Encode 中級 も書かれていなかったので(あと tokuhirom さんもわかりやすい Encode の使い方の記事を書いてた記憶があるけど見つけられなかった)、 http://www.rwds.net/kuroita/program/Perl_unicode.htmlperl5.8のUnicodeサポートhttp://homepage1.nifty.com/nomenclator/perl/shiftjis.htm を何度も読んだ。 perldoc Encode はろくすっぽ読めなかった。

「文字コード」の意味がまったくわかってなかった頃は、そもそもなんでエンコードとかデコードとかする必要があるのか理解できなかった。 EUC-JP の「あいうえお」と UTF-8 の「あいうえお」が同じものではない、ってのがわからなかった。何度もいたるところで文字化けし、 Shift_JIS で書いたスクリプトに何度も "表\示" とか書くうちに、徐々に「あ、これ同じあいうえおに見えるけど、実は違うものなのかも」とか、理解していった。

文字化けに悩まされていた頃は、なんで内部表現とか面倒くさいものがあるんだと嫌に思ったけど、慣れてしまうと逆にそれがないのは不自然に感じてしまい、少し落ち着かない。

そういえば、去年の誕生日プレゼントに↓の本(他何冊か)を買ってもらったけど、一章だか二章までしか読めずに未だ積ん読してるな・・・。ものすごい分厚い本で、 Programming Perl よりも殺傷能力が高そうだった。

文字コード超研究

文字コード超研究