GlyphWiki logo
ナビゲーション
ヘルプ
検索

ツールボックス
他の言語
グループノート編集履歴

グループ:Working-SawnNewBuild-05 (グリフ実装率:69% [済86、未38])

出典: フリーグリフデータベース『グリフウィキ(GlyphWiki)』

グループ:Working-SawnNewBuild > グループ:Working-SawnNewBuild-05

≪古壮字字典≫の符号化

  • ≪古壮字字典≫(1989年,广西民族出版社)には,以下の2つの符号化方法があります。ここでは「ACT版」,「KDP版」と呼びます。

ACT版(Asian Character Tables)

  • http://east-chr-data.sourceforge.net/
  • http://sourceforge.net/projects/east-chr-data/ (2006-10-30)
  • 2つのtxtファイルと,XBM形式のグリフがあります。
  • SawndipSawdenj_chars.txtでは14,566字について,見出し語と8桁の数字で構成される識別コードが示されています。このうち1,205字は字典に掲載されていない字(掲載字の簡体字)ですので,字典からは13,361字を収録しています。数字の末尾「042」がすべての文字に共通ですので,以下ではこれを省いた英数字を「ACTコード」と呼びます。2組4字のコードが重複しているので,コード数は14,564です。
  • Sawndip_decomposed.txtでは11,913字について,ACTコード(5組10字が重複)と漢字の構成(IDSではない)が示されています。
  • sawnグリフが参照する≪电子方块壮字 ≫検索サイトが,ACT版の符号化方法を利用しています。

KDP版(漢字データベースプロジェクト)

1sawd-XXXYYページ番号 (XXX) およびページ単位の通し番号 (YY)
2見出し語見出し語(アルファベット)
3漢字・IDS見出し字(親字は"*"マークを付与)またはIDS

  • sawdグリフが,この識別コードを利用しています。以下では,sawd-XXXYYを「KDPコード」と呼びます。

【09-03】追加作業・第3波-SAWN外字で古壮字字典を組む(14,600字) →済

  • SAWN外字は,UnicodeのPUA14,566字分(U+F352E~U+F6E13)をACTコードに対応させて,Unicodeに対応していない文字の外字を提供しているようです(以下では,そのように仮定します)。そこで,sawdグリフの旧定義に基づく「古壮字字典-文字一覧」(現在は使用されていない)ページを再利用して,UCSグリフとsawnグリフによって≪古壮字字典≫を組んでみます。
  • ACTコードとsawnグリフの対応関係は≪电子方块壮字≫と同等になりますが,GlyphWikiのライセンスに合致するように,最初は≪电子方块壮字≫の情報(検索結果)を一切使わずに,ほぼ全体を作成することにします。Unicodeへの対応情報は,末尾0のACTコードについては,ACT版(Sawndip_decomposed.txt)より整備されているKDP版の情報を用います。両者を見出し語ごとに突合して,sawnグリフの符号位置とUnicodeまたはIDSを対応づけます。末尾1のACTコードの字は字典には存在しないので,KDP版には対応しないと仮定し,ACT版の対応情報を用います(情報が得られるのは1,032字分で,173字は情報がありません)。最初の見出し語「a」を例にとると,突合は以下のようになります。

ACT版KDP版
ACTコード漢字/構成KDPコード見出し語漢字/IDS親字
a01010sawd-00101a⿰丫鳥*
a01011丫+鸟
a01020sawd-00102a
a01021亚+鸟
a01030sawd-00103a⿰丫烏
a01031下+鸟
a01040sawd-00104a
a02010sawd-00105a*

  • そして,グループ:twe_SAWNデータに情報があればSAWN外字を,なければKDP版とACT版が示す漢字を当てはめると,以下のようになり,ACTコードにグリフを対応づけることができました。

ACTコード使用するグリフ漢字/IDS/構成親字
a01010sawn-f352e⿰丫鳥*
a01011sawn-f352f丫+鸟
a01020u9d76
a01021sawn-f3531亚+鸟
a01030sawn-f3532⿰丫烏
a01031sawn-f3533下+鸟
a01040u869c
a02010u59b8*

  • 「文字一覧」には,見出し語と最初の数字2桁を縦(親字)の配置に,つぎの数字2桁を横(異体字)の配置に使い,最後の数字(0,1)を同じセルに配置します。

文字01/06/10/16/2102/07/12/17/2203/08/13/2304/09/14/1905/10/15/20
a
01
sawn-f352e
sawn-f352f
u9d76
sawn-f3531
sawn-f3532
sawn-f3533
u869c
a
02
u59b8

  • 「a」はうまくいきましたが,ACT版とKDP版の採番に若干のずれがある見出し語があるため,突合は完全ではなく,後で精査が必要になります。ここでは,精査の直前までの作業を【09-03】「追加作業・第3波-SAWN外字で古壮字字典を組む」とします。作業は,以下のような手順になります。

ACT版のコード補正

  • ACT版のコードには,以下のような不規則な箇所があります。欠番は,同じ見出し語の文字数がKDP版と合致するように補完します(すでに合致しているなら補完しない,補完して合致するなら補完する)。2箇所の重複はその前後の欠番の誤りである可能性が大ですが,突合に支障はないので,補正しません重複する番号の1つを欠番に変えて修正します。順序逆転は,突合の際にソートすることで解消されます。こうして補完されたACTコードは下表で「補完」と表示していますが,sawnグリフの符号位置がありませんので,該当する「文字一覧」のセルにはmissingを置きます。ただし,欠番の「gonz01060」は突合の後に補完することにして「文字一覧」のセルがずれないようにしますそのつぎの「gonz01070」を変更することで補完します。突合の対象は補完9字を加えた13,370字になり,「文字一覧」には14,576字が収録されます。

No.現象ACTコード処置
1欠番foenq01020補完
2欠番gauz01010-gauz05010
3欠番gimz01010
4欠番gonz01060
5順序逆転lwenx02020
6順序逆転lwenx02010
7欠番mbaq01050補完
8欠番mbeuj01010
9欠番
重複
mbonq01010
mbonq01020
補完
削除
10重複mbonq01020
11欠番myox01010補完
12欠番nduk01110補完
13欠番ndwn01050補完
14欠番ngah02080補完
15重複ngoemx01020
16重複
欠番
ngoemx01020
ngoemx01030
削除
補完
17欠番ngonz02110補完
18欠番ngvauh01010
19欠番nyaq02040補完
20欠番rez01010
21欠番rueg01010-rueg02010
22欠番rungh01010
23欠番sep02020補完
24欠番yaeuq01010

KDP版の補正

第1ラウンド

  • KDPコードには,sawd-09602,sawd-26419,sawd-26423の3字の欠番があります。
  • 見出し語の順序逆転が10か所ありますが,ソートした後でACT版と突合させます。13,340字が突合され,突合されない文字がACT版に30字,KDP版に35字残ります。グループ:Working-SawnNewBuild-05@1に書かれた作業では,これらを含めずに突合しました。これを第1ラウンドとし,その結果と原典を照合しながら,突合の精度を上げていく以下の作業を第2ラウンドとします。

第2ラウンド

  • 以下に整理するように,突合されなかった原因は,一方で欠落しているか,原典にないものを含めている,誤記のいずれかです。原典にない字の混入は,問題の多いSawndip_decomposed.txtの情報を使ったからと思われます。原典にないものは削除,欠落は補完,誤記は修正,が補正の基本です。KDPコードの補完は本来は番号をつけかえるべきですが,ここでの目的に必要最小限な補正とするように,直前の番号にd,ddをつけました(大漢和辞典方式)。ただし,表面にはこのコードは現れません。少し事情が複雑なのは「gyoz02010」で,両者が字形と読みを誤っており,検索サイトが修正しているので,両者の誤りを修正しました。「yah05020」は「yah05010」とともに原典の「yahvangz」を両者が誤っており,検索サイトも放置しているので,ここではそのままとしました。この誤りの修正はつぎの作業の課題とします。
  • 欠番であるsawd-09602の補完はやや複雑です。じつはsawd-09601とsawd-09602に該当する見出し字は前ページに現れ,96ページにもう一度sawd-09601に該当する見出し字だけ現れた後に字の説明が続きます。ページをまたいで見出し字が重出するという原典の体裁のミスを補正するため,この2字を前ページではなく,96ページ冒頭に現れるものとして扱います。
  • ACT版はここで26字補完,1字削除の結果,13,370字から25字増になります。KDP版はここで26字補完,6字削除の結果,13,375字から20字増になります。以上の補正の結果,特号の対象は13,395字になり,「文字一覧」には14,600字が収録されます。

No.ACT版ACTコードNo.KDP版ACTコードIDS親字原因補正
1sawd-02917boengz02020ACT版で欠落boengz02020を補完
1sawn-f3a1cbyoemh010102sawd-04209byoemhbij01010⿰禾品*ACT版で誤記byoemhbij01010に修正
3sawd-04210byoemhbij01020ACT版で欠落byoemhbij01020を補完
2ceng030104sawd-06805cengh01010*ACT版で誤記cengh01010に修正
3sawn-f3fb3daem06010KDP版の欠番sawd-09602を補完
4doengh04010KDP版で欠落sawd-13111dを補完
5sawd-16518gacak01010⿰卡鳥*ACT版で欠落gacak01010を補完
6sawd-16519gacak01020𪀣ACT版で欠落gacak01020を補完
7sawd-18018gauj05010*ACT版で欠落gauj05010を補完
5gauq06010KDP版で欠落sawd-18020を補完
8sawd-18216gcangj01010*原本にないsawd-18216を削除
6sawn-f4a5dgik03010KDP版で欠落sawd-19223を補完
7gven01010KDP版で欠落sawd-21610dを補完
8gyoz02010原本にないgyek01010を削除
sawd-22738を「gyoz ⿰言却」に修正
9hemq01030KDP版で欠落sawd-24910dを補完
10hoengh02010KDP版で欠落sawd-25314dを補完
9sawd-26501itciengz01010*ACT版で欠落itciengz01010を補完
10sawd-26502itciengz01020⿰手𠃓ACT版で欠落itciengz01020を補完
11loengz04020KDP版で欠落sawd-29309dを補完
11sawd-29718lugndik01010𪦸*ACT版で欠落lugndik01010を補完
12sawd-29719lugndik01020ACT版で欠落lugndik01020を補完
13sawd-29722luh03010*KDP版で重複sawd-29721を削除
12lwenx02020KDP版で欠落sawd-30022dを補完
14sawd-30024lwenz02010⿰日连*原本にないsawd-30024を削除
13maeuz02020KDP版で欠落sawd-30601dを補完
15sawd-30809makit01010⿰百果*ACT版で欠落makit01010を補完
16sawd-30810makit01020ACT版で欠落makit01020を補完
17sawd-30814manag01010𬌫*ACT版で欠落manag01010を補完
18sawd-30815manag01020𤜽ACT版で欠落manag01020を補完
19sawd-30816mamaz01010𬌫*ACT版で欠落mamaz01010を補完
20sawd-30817mamaz01020𪽖ACT版で欠落mamaz01020を補完
14sawn-f58a7mbaih01010KDP版で欠落sawd-31307dを補完
15mbwn01060KDP版で欠落sawd-32300dを補完
16muenj01010KDP版で欠落sawd-33313dを補完
17mwnz01020KDP版で欠落sawd-33709dを補完
21sawd-34622nam02030原本にないsawd-34622を削除
22sawd-34623nam02040原本にないsawd-34623を削除
23sawd-34624nam02050原本にないsawd-34624を削除
18sawn-f5d9bndak01020KDP版で欠落sawd-35321dを補完
19ngaeu01040KDP版で欠落sawd-36918を補完
20ngouq01010KDP版で欠落sawd-37902dを補完
21ningj02020KDP版で欠落sawd-38302dを補完
24sawd-38808nwj04010𪥤*ACT版で欠落nwj04010を補完
25sawd-39009nyaenq01060⿰应亡ACT版で欠落nyaenq01060を補完
26sawd-39010nyaenq01070⿰扌应ACT版で欠落nyaenq01070を補完
27sawd-39021nyaenq02010𢚴*ACT版で欠落nyaenq02010を補完
28sawd-39022nyaenq02020ACT版で欠落nyaenq02020を補完
29sawd-39023nyaenq02030ACT版で欠落nyaenq02030を補完
30sawd-39024nyaenq02040𢙫ACT版で欠落nyaenq02040を補完
31sawd-39025nyaenq02050𣵞ACT版で欠落nyaenq02050を補完
22rox02130KDP版で欠落sawd-43112dを補完
32sawd-43713sab02030ACT版で欠落sab01020を補完
23saeg03010KDP版で欠落sawd-43818dを補完
24saez01040KDP版で欠落sawd-44414dを補完
25saj02040KDP版で欠落sawd-44607dを補完
26saj02050KDP版で欠落sawd-44607ddを補完
27sawn-f6885seh03010KDP版で欠落sawd-45216を補完
33sawd-45409sej02050⿱竹⿸𠂇且ACT版で欠落sej02050を補完
28sing06010KDP版で欠落sawd-46017を補完
29swk0101034sawd-47403swj02010𢯩*KDP版で誤記sawd-47403を「swk」に修正
35sawd-50004yah05020⿰女亡ACT版で欠落yah05020を補完
30yinx02010KDP版で欠落sawd-57026を補完

  • sawnグリフが作成されず,KDP版でIDSである文字は,UCSグリフもsawnグリフも使えないため,「文字一覧」のセルにはIDSのみ表示されます。

文字一覧

aグループ:古壮字字典-文字一覧a
bグループ:古壮字字典-文字一覧b
byグループ:古壮字字典-文字一覧by
cグループ:古壮字字典-文字一覧c
dグループ:古壮字字典-文字一覧d
eグループ:古壮字字典-文字一覧e
fグループ:古壮字字典-文字一覧f
gグループ:古壮字字典-文字一覧g
gvグループ:古壮字字典-文字一覧gv
gyグループ:古壮字字典-文字一覧gy
hグループ:古壮字字典-文字一覧h
iグループ:古壮字字典-文字一覧i
lグループ:古壮字字典-文字一覧l
mグループ:古壮字字典-文字一覧m
mbグループ:古壮字字典-文字一覧mb
myグループ:古壮字字典-文字一覧my
nグループ:古壮字字典-文字一覧n
ndグループ:古壮字字典-文字一覧nd
ngグループ:古壮字字典-文字一覧ng
ngvグループ:古壮字字典-文字一覧ngv
nyグループ:古壮字字典-文字一覧ny
oグループ:古壮字字典-文字一覧o
rグループ:古壮字字典-文字一覧r
sグループ:古壮字字典-文字一覧s
uグループ:古壮字字典-文字一覧u
vグループ:古壮字字典-文字一覧v
wグループ:古壮字字典-文字一覧w
yグループ:古壮字字典-文字一覧y

  • セルには,以下の順でグリフが選択されます。

No.グリフ等説明
1missingACT版でACTコードが定義されない場合
2sawnグリフグループ:twe_SAWNデータ@2にあるsawnグリフ
3UCSグリフKDP版の漢字
4IDS/構成KDP版のIDSまたはACT版の構成
5空白どの情報もない場合

今後の作業

第1ラウンド

  • ACT版データのミス,機械的なKDP版の照合等の理由により,上記作業の結果が不正確な箇所が含まれることが予想され,さまざまな角度からの検証が必要です。それらは【09-03】には含めませんが,このページで作業を管理するのが便利だと考えれらます。

第2ラウンド

  • ACT版とKDP版に齟齬がある部分を原典を参照して解消する作業をしましたが,両者が共通にミスしている場合は素通りになります。GlyphWik上でのこれ以上の作業は,グループ:古壮字字典にあるsawdグリフを,原典に即して作成してKDP版データのバグをとり,それからACT版データを再構成する過程になると思われます(乞ご意見)。

第3ラウンド

IRGデータの問題点

  • 照合過程でG_Zソースの誤りが見つかりました。266ページ最終の文字が267ページ冒頭とされ,450ページ左欄のソース名が1字後ろにずれています。今回の作業ではソース名はそのままにして,正しい対応づけをしました。
G_Z2671101G_Z2662501
G_Z4501202G_Z4501102
G_Z4501206G_Z4501106
G_Z4501402G_Z4501302
G_Z4501403G_Z4501303
G_Z4501501G_Z4501401

ACT版とKDP版の補正

ACT版とKDP版の両方で欠落している1字が見つかりました。この1字を以下のように両データで補完することで,13,396字を突合させます。

No.ACT版ACTコードNo.KDP版ACTコードIDS親字原因補正
3136ACT版で欠落
KDP版で欠落
dangq04040を補完
sawd-11110dを補完

KDP版の補正

  • KDPコードの誤りが見つかった箇所を修正し,KDPコードを付番し直しました。
  • 親字は,ACT版,IRGNと整合的になるように修正しました。
  • IDSがIRGNと違っている場合には,IRGNを優先させ,変更しました。

SAWN外字の補完

  • 該当するSAWN外字が存在しない理由は,(1)字形が複雑で作字されていないもの,(2)KDP版では符号化されていないので外字を要するが≪电子方块壮字≫サイトでは符号化されていて外字を要さないと判断されているもの,(3)別の符号位置のSAWN外字と重複しているので作字を避けているもの,(4)ACTデータでもともと欠落しているもの,等があります。それぞれの理由に対する修正(作字する,≪电子方块壮字≫サイトの判断に合わせる,別の符号位置にある適当な外字を対応づける)を可能な限りおこない,SAWN外字の空白を減らしました。
  • 以上の作業を経て,古壮字字典に出現する文字一覧を,古壮字字典の字形,G字形,J字形で示しました。表の欄は,以下の通りです。

1親字見出し字は"*"マークを付与
2古壮字字典の字形sawdグリフ
3G字形/SAWN外字UCS-gグリフまたはsawnグリフ
4J字形(Ext.G)UCS-jグリフ,extfグリフまたは暫定的にIRGN2115でのG_Zソース名
5IDSIDS
6ACTコードACTコード

文字一覧

古壮字字典-文字一覧p001-050グループ:Working-SawnNewBuild-05-01
古壮字字典-文字一覧p051-100グループ:Working-SawnNewBuild-05-02
古壮字字典-文字一覧p101-150グループ:Working-SawnNewBuild-05-03
古壮字字典-文字一覧p151-200グループ:Working-SawnNewBuild-05-04
古壮字字典-文字一覧p201-250グループ:Working-SawnNewBuild-05-05
古壮字字典-文字一覧p251-300グループ:Working-SawnNewBuild-05-06
古壮字字典-文字一覧p301-350グループ:Working-SawnNewBuild-05-07
古壮字字典-文字一覧p351-400グループ:Working-SawnNewBuild-05-08
古壮字字典-文字一覧p401-450グループ:Working-SawnNewBuild-05-09
古壮字字典-文字一覧p451-500グループ:Working-SawnNewBuild-05-10
古壮字字典-文字一覧p501-513グループ:Working-SawnNewBuild-05-11

SAWN外字が対応しない文字

以下は,「G字形」欄がmissingとなった28字です。≪电子方块壮字 ≫サイトの検索結果を右に追加しました。4,8,17は,sawn外字を使った方がよさそうです。12,15,18は≪电子方块壮字≫の字形が原典とかけ離れています。2字は,ACT版で欠落しており,≪电子方块壮字≫にもありません。その他は,KDP版と≪电子方块壮字≫での符号化の見解の相違です。

No.親字古壮字字典の字形G字形/SAWN外字J字形(Ext.G)IDSACTコード电子方块壮字
1sawd-03416missing⿰氵⿱甫女boz02040
2sawd-05906missing歺(⿱⺊夂)can02030
3sawd-09610missing⿰豋丁daemj01020𧯫
4*sawd-09701missing⿰𧾷⿱⿰&CDP-8B5E;&CDP-88D5;丁daemj04010sawn-f427f〾⿰𧾷⿱癶丁
5sawd-11931missing⿰豋丁deng01130𧯫
6sawd-15421missing⿺⿱甶儿方fangz01020〾𩲠;⿺⿱甶儿方
7*sawd-18310missing⿰𧾷𨚫geg01010
8sawd-22440missingextf-01234⿰口間gyan01050sawn-f4db6⿰口間
9sawd-27318missing⿰目⿱罒攵lah02040sawn-f3400⿰目罗
10sawd-30023missinglwenx02020
11sawd-30602missingmaeuz02020
12sawd-31717missing⿰兵厾mbin01090sawn-f592d⿰宾飞
13*sawd-32508missing⿺辶曼menh01010
14*sawd-35411missing⿰虫逹ndat01010
15sawd-36012missing⿰目笑ndiu01030⿰目了
16sawd-37023missing⿰想下ngah02080
17sawd-39025missingG_Z3902605⿰氵呑nyaenq02050sawn-f63f4⿰氵呑
18sawd-39324missing⿰虫尭nyauh01030
19*sawd-41119missing⿲氵朿貢raiq02010
20*sawd-41602missing⿲口辛朿rat01010𪢘
21sawd-41707missing⿲彳東亍re01020
22sawd-43803missing⿹𠃌&CDP-89A6;saeb04020
23sawd-44606missing⿱洒木(覀)saj02020
24*sawd-45302missing⿰糹系sei01010
25sawd-45305missing⿲口糹系sei02030
26sawd-45409missing⿱竹⿸𠂇且sej02050
27sawd-47320missing⿱艹⿴八内swenz01020
28*sawd-50501missing⿰女⿱丿犬yeu02010

今後の作業予定

  • IRG Working Set 2015への提案字のGlyphWikiでの仮想J字形グリフ名が定まったら,表中のG_Zソース名を置換します。