nkf、全角「－」が化ける

nkfを通すと、どういうわけか全角のマイナス（ハイフン？）が文字化けする。文字コード変換をしなくても化ける。

実験用に用意したのは「－」だけが入ったファイル。UTF-8の環境で作ったもの。

16進ダンプ。

これをnkfを通す。出力文字コードはUTF-8。つまり、コード変換はなし。

なんで？

iconvならこんなことは起きない。

化けていない。

最初にこれに気づいたのは、CP932なファイルをnkfで変換したとき。「－」が化けるので、CP932からUTF-8への変換で何か問題があるのかなと。でも、追っかけてみたらUTF-8からUTF-8への変換（＝無変換）でも起きることがわかった。ここは、iconvを使うことにするか。

これはまた別の問題。

【追記】

MS-UnicodeとIBM-Unicodeの違いであると教えてもらった。

OS依存したUnicodeの問題です。多分nkfはIBM-Unicodeを基本的に使うようになっていて機種依存文字コードでの文字化けを防ぐ為にMS-Unicodeを変換したのですね。
— JG3HLX (@Jg3Hlx) August 15, 2020

そんな物があるとはつゆ知らず…。検索したら、このページが見つかった。

mokkouyou2001の日記

UTF-8での文字化け - mokkouyou2001の日記

https://mokkouyou2001.hatenadiary.org/entry/20081219/1229689787

以前のエントリーOracleとJavaの間で、全角マイナスが文字化け。 - mokkouyou2001の日記にも少し関係。 IBM-Unicode(標準Unicode)と、MS-Unicodeの間でも以下の差がある。特に問題は無い場合が多いかもしれないが、外部向けのやり取りの1部にMS932(のファイルでのやりとり)がある。という場合はMS-Unicode向けの変換をかませておくのが無難かもしれない。というか、まぁ検索のことを考えたりするとどちらかに寄せるのが無難か・・・なんでこんなことが起こるかなぁ・・・悩ましいねぇ。文字 IBM-Unicode MS-Unicode ―(全角…

ということで、改めてnkfのmanを見るとこういうオプションがあった。

--no-best-fit-chars
   Unicode からの変換の際に、往復安全性が確保されない文字の変換を行いません。
   Unicode からUnicode の変換の際に -x と共に指定すると、nkf を UTF 形式の
   変換に用いることができます。 (逆に言えば、これを指定しないと一部の文字が
   保存されません)

   パスに関わる文字列を変換する際には、このオプションを指定することを強く推奨
   します。

なるほど。この –no-best-fit-chars オプションを使えばいいのか。

2026年6月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

コメント