(1:全角文字の1バイト目は0x81~0x9F と 0xE0~0xFC が使用される
(2:全角文字の2バイト目は0x40~0x7E, 0x80~0xFC が使用される
(3:全角2バイト目が半角\と同じ0x5Cになる次の文字をperlで使うときは
注意が必要
― ソ Ы Ⅸ 噂 浬 欺 圭 構 蚕 十 申 曾 箪 貼 能 表 暴 予 禄 兔
喀 媾 彌 拿 杤 歃 濬 畚 秉 綵 臀 藹 觸 軆 鐔 饅 鷭 偆 砡 纊 犾
次のように後ろに \ を付けると良い。
print "一覧表\";
文字列の途中であればシングルクォーテーションで囲うことでも良い
print '一覧表A';
注)文字列の最後の文字の場合はシングルクオーテーションでも\を付ける
print '一覧表\';
(4:全角2バイト目が正規表現で特別な意味を持つ [ ] ^ { | } と同じ
になる次の文字を正規表現の中で使うことは出来ない。
(正規表現で置換する代わりに
substr を使うことが出来る。)
[ : ー ゼ Ъ Ⅷ 閏 骸 擬 啓 梗 纂 充 深 措 端 甜 納 票 房 夕 麓 兌
喙 媼 彈 拏 杣 歇 濕 畆 禺 綣 膽 藜 觴 躰 鐚 饉 鷦 倞 劯 ∵ 犱
] : ‐ ゾ Ь Ⅹ 云 馨 犠 珪 江 讃 従 疹 曽 綻 転 脳 評 望 余 肋 兢
咯 嫋 彎 拆 枉 歉 濔 畩 秕 緇 臂 蘊 訃 躱 鐓 饐 鷯 偰 硎 褜 猤
^ : / タ Э 運 蛙 疑 型 洪 賛 戎 真 楚 耽 顛 膿 豹 某 与 録 竸 喊
嫂 弯 擔 杰 歐 濘 畤 秧 綽 膺 蘓 訖 躾 鐃 饋 鷽 偂 硤 鍈 猪
{ : + ボ к 閲 顎 宮 鶏 砿 施 旬 須 捜 畜 怒 倍 府 本 養 几 嘴 學
悳 掉 桀 毬 炮 痣 窖 縵 艝 蛔 諚 轆 閔 驅 黠 垬 葈 傔 硺
| : - ポ л 榎 掛 弓 芸 鋼 旨 楯 酢 掃 竹 倒 培 怖 翻 慾 處 嘶 斈
忿 掟 桍 毫 烟 痞 窩 縹 艚 蛞 諫 轎 閖 驂 黥 埈 蒴 僴 礰
} : ± マ м 厭 笠 急 迎 閤 枝 殉 図 挿 筑 党 媒 扶 凡 抑 凩 嘲 孺
怡 掵 栲 毳 烋 痾 竈 繃 艟 蛩 諳 轗 閘 驀 黨 埇 蕓 僘 礼
JISコード
HTMLでJISコードと明示するときはヘッダ部に次のように書く
<meta http-equiv="Content-Type" content="text/html; charset=iso-2022-jp">
8ビットJISもありますが、ISO-2022-JPなどで使われているのは7ビットコードです。
7ビットコードでは最上位ビットを使用しないため、00-7Fまでの文字コードしか存在しません。
JISコードでは、以下のエスケープシーケンスにより、文字の種類を決めます。
ウエブサイトでJISコードを採用しているところは見かけません。
エスケープシーケンス | 1バイト目 | 2バイト目 | 文字の種類 |
| | 00-1F,7F | | 制御コード |
1B 28 42 | ESC ( B | 20-7E | | ASCII |
1B 28 4A | ESC ( J | 20-7E | | JISローマ字 |
1B 28 49 | ESC ( I | 21-5F | | JISカナ(半角カナ) |
1B 24 40 | ESC $ @ | 21-7E | 21-7E | 旧JIS漢字 (1978) |
1B 24 42 | ESC $ B | 21-7E | 21-7E | 新JIS漢字 (1983/1990) |
1B 24 44 | ESC $ D | 21-7E | 21-7E | JIS補助漢字 |
JISローマ字は、ASCIIのバックスラッシュが¥になった文字集合です。
JIS漢字には、1978年制定の旧JISと、1983年/1990年制定の新JISがあります。
この他、2000年制定のJIS第3水準、第4水準もあります。
EUC-JPコード >> EUC-JPコード一覧を開く
EUC は Extended Unix Codeの略で、日本語UNIXで使われているコードです。
HTMLでEUC-JPコードと明示するときはヘッダ部に次のように書く
<meta http-equiv="Content-Type" content="text/html; charset=euc-jp">
EUC-JPコードでは、エスケープシーケンスを使用せず、ASCII以外の文字は、JISコードの上位ビットを立てることにより識別しています。
シフトJISと異なり、JISカナ(半角カナ)は、表示桁数は1桁ですが、内部のバイト数は2バイトとなります。
そのため、JISカナ(半角カナ)に対応できていないプログラムが多いので、注意する必要があります。
インターネットで、JISカナ(半角カナ)が使えないと言われる理由もここにあり、UNIXから普及したための制限です。
JIS補助漢字の場合は、内部のバイト数は3バイトになります。
英数字や英記号と漢字の2バイト目が重なる事がないので、perlプログラムに適しています。
当サイト開設当時はEUC-JPコードのウエブサイトも見かけたのですが、最近は少なくなりました。
1バイト目 | 2バイト目 | 3バイト目 | 文字の種類 |
00-1F, 7F | | | 制御コード |
20-7E | | | JISローマ字(ASCII) |
8E | A1-DF | | JISカナ(半角カナ) |
A1-FE | A1-FE | | JIS漢字 |
8F | A1-FE | A1-FE | JIS補助漢字 |
UTF-8コード
UTF-8コードは全世界の文字を切り替えなしに一つのコードで表すこと狙ったもので、
一つの文字を1バイトから4バイトで表します。
HTMLでUTF-8コードと明示するときはヘッダ部に次のように書く
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
検索サイトなどこのコードを採用しているところが増えてきています。
当サイトは2020年からUTF-8に切り替えました。詳細は省略します。
Copyright (C) Nasupii