Essay X
漢字字形要素構成率から見る漢字概念
古家時雄
「海」は海の概念を一文字で表現し、「河」は河川の概念を表現しているように、漢字は一文字で特定の概念を表現することができます。
また、この二つの文字の共通概念は、塩水と真水の差こそあれ、「水」という大まかな概念を持っていることです。それは二つの文字の字形構成要素として「
」を含んでいることから容易に見て取れます。
文字を構成する要素が、このような大まかな象徴的な概念を持つのは漢字の特性といえます。そこで漢字を構成している同一概念を持つ文字要素を抽出し、グループとして纏めてみますと、それらの個々の大まかな概念が漢字全体のなかで、どのような構成比率を持って存在しているかということや、同一の概念を持つ文字はどれほどの数で存在しているのかということを、明確な数値データとして把握することができるようになります。それが「漢字字形要素構成率」の一覧表資料となります。
そのためには、まず漢字を構成要素に分解した元データが必要です。そこで、すでに完成している漢字のデータベース「今昔文字鏡」の解字データを利用しました。「今昔文字鏡」の解字データは文字要素分解データでもあり、オリジナルな方式によって構築されています。この方式どおりに漢字を文字要素に分解する作業のために10年ほどの年月が費やされています。この解字方法について簡単に説明いたしますと、次のようになります。
一般的に、漢字を字義字釈に基づいて文字要素に分解することを「解字」と言い、文字遊びの手段として文字要素に分解することを「拆字」とよんでいます。いずれも2個・3個・4個と多数に分解し、拆字では画数に近い数に分解される場合もあります。このような数での分解は文字要素の分解データの構造を複雑にします。複雑なデータ構造はデータ分析の障害となります。このようなときに、分解する文字要素の数と分解するデータ構造に簡潔な規則性を見出せるならば、データはわかりやすいものとなります。そこで次のような仮説を立てました。
すべての漢字を2個に分解して得られた文字要素をさらに2個に分解していき、これを繰り返して、一画数の文字要素となったとき分解の行程が終了します。「今昔文字鏡」では、最初の分解を「解字」、連続して分解することを「拆字」と定義しました。
この仮説に基づいた実際の作業では、漢字の八割以上を占めるといわれる形声文字については、さほど考証を加えなくても2個の文字要素に解字することは難しくありません。それ以外の漢字を解字するには、甲骨文字資料など漢字成立時の字形から金文、さらに説文解字の篆書字形などを考証しました。多くの時間を費やしましたが、結果として仮説どおりの分解データを作成することに成功しました。その一部が後出の表です。
このような方法によって、調査対象漢字70,456文字を分解すると、140,912文字の文字要素の全体数を得ることができます。漢字字形構成率はこの文字要素の全体数に対する比率です。また、分解して得た文字要素は16,640種であることが確認されました。つまり70,456文字の漢字は16,640種の文字の組合せによって形成されていることになり、文字要素一個が構成する文字数は平均で約8.5個ということになります。
漢字字形構成率表を眺めてみると、一つの文字グループで2%を越えるものは「艸」グループだけです。1%台のグループも8位までで、9位からは1%を割り込んでしまいます。また、構成率の高いものは康熙字典部首214文字のグループが上位をしめるだろうという予測をしていたのですが、部首ではない漢字が構成率順位97位と100位に出現しました。
下記は、文字字形構成率順位の一位から100位までのグループの文字を、一般的な通念で分別集計した文字字形構成率です。

(以下略)
70,456文字に使用される16,640文字中100位までの文字集合の構成比率は43.368%、使用文字要素は349個です。文字要素349個で全体の43%の文字を構成しているために、残りの文字要素が使用している構成文字数の平均は4.9個と全体平均の半分近くとなります。
文字要素の構成文字数平均が1個になるまでの残り文字数の構成率がきわめてひくいことがわかります。
このような分析をさらに深めてゆくならば、より興味深いことがわかることでしょう。このデータは、新しい視点で漢字概念を考察する研究資料として、必ず役立つことと思います。70,456文字すべての解字データは1999年の春頃に出版される予定となっています。
さて、この解字データとは別にもう一つの重要な研究データがあります。やはり漢字概念の構成比や使用頻度などを考察研究することのできる有用な資料ですが、文字要素構成率とは異なる観点から漢字を考察した統計データです。これは特定メディアの文章の中で使用されている個々の漢字が、その文章データ中でどのように使用されているか、また使用頻度順位はどのようであるかなどを検証し、その数値が意味するところを認知心理学の立場から分析考証したものです。
国立国語研究所プロジェクト選書第一号 『新聞電子メディアの漢字:朝日新聞CD-ROMによる漢字頻度表』
横山詔一・笹原宏之・野崎浩成・EricLong(編著)/古家時雄・近松暢子・米田純子・大森拓哉(共著) 三省堂1998年7月10日発行
これは1993年における朝日新聞11万件の記事を調査対象として、使用されている漢字の使用頻度を統計資料にまとめたものであり、日本国内では類似したデータはありませんから、新資料として高い価値を持っています。
そこで、これら二つの資料を比較してみましたところ、今昔文字鏡の解字構成率での順位と、この資料による新聞紙面での使用頻度順位の、二つの数値に明らかな共似性はありませんでした。解字部分を構成する漢字の持つ概念と、一般によく使用される漢字の概念を比較する上での、明確な数値上の関係を直感的に確認し、断定することもできませんでした。
たとえば、構成率2%を越える最大の文字グループは草冠です。人類が植物によって生命を維持し、その植物の種が豊富であることを考慮すれば、なるほどと思うこともありますが、新聞紙面での使用状況を見ますと、「草」は使用頻度順位912位で、「艸」は新聞紙面では、わずか三回の使用にとどまっています。また、漢字としての草冠は四画あるいは三画のいずれの字形も新聞紙面には出現しません、草冠を使用した漢字で最も紙面使用頻度の高いものは「藤」の254位ですが、植物の「藤」としてではなく、「佐藤・伊藤」のような人名の概念で使用されていることが一般的です。つまり、文字要素として草冠グルーブを使用している文字は70,456文字のうち3076文字もありながら、新聞記事などではそのほとんどの文字が使われていないという現象が見られます。
「偏旁冠脚構垂繞」の部分として高い構成比率を持っている漢字が、必ずしも新聞紙面でも同様に高頻度で使用されているとは限らないことがわかります。
それとは逆に、構成率と頻度率がともに近い数値を持つ文字もあります。使用頻度順位第1位の「日」は、構成率順位25位、使用頻度順位5位の「人」は、構成率順位7位、構成率順位100位の「出」は、新聞紙面での使用頻度も15位です。日時付きで報道することが大原則の新聞記事では「日」が多く記載されることは直感的こ理解できることでもありますし、日常的に多くの人々が読む新聞に「人」が多く使われているのも新聞記事の性格をあらわしているのだと思われます。もし新聞記事ではなく、植物辞典の文章データを対象として使用頻度を集計するならば草冠グループの使用頻度が高くなることは充分予想のつくことです。
漢字字形要素構成率としての文字要素の概念は、すべての事物や現象を対象としたもので、特定の文献や時代に限定せず、存在する漢字すべてを含む文字種としての構成を明らかにしたものですが、一方の使用頻度は、文章データの種類と時代・時期を特定していることによって結果の数値が変化するという時間と領域の限定に起因する特徴があります。
「漢字字形要素構成率」と「漢字使用頻度」の二つの数値データは、似ていて非なるものですが、漢字の姿を別々の角度から考察することのできる有用な情報資料です。将来、研究者の方々の熱意によって、二つの資料間での関係がより明らかになることを期待して、皆様に紹介させていただきます。
<参照表>
A 今昔文字鏡解字構成比率表 <抜粋>

用例 No.01の場合-
- 構成比率順位=1位。合計使用数3076個。構成比率 2.182%。
- 文字鏡番号(#AtMark#)30639番
・(#AtMark#)54448番
・(#AtMark#)30638番艸・(#AtMark#)30640番
。
の使用個数2196個。草冠グループ内構成比率71.39%。
用語
- 構成比率順位=解字に使用される文字16,640種の順位である。
- 合計使用数=使用総数140,912個に対する個別使用数である。
- 構成比率=使用総数に対する使用割合である。
- (#AtMark#)文字鏡番号=大漢和辞典番号と今昔文字鏡の追加番号である。
- (文字字形)=昔文字鏡のトルータイプフォントの字形である。
- 異体字形別使用数=異体文字個別の使用数である。
- グループ内構成比率=同一文字グループ内での構成比率である。
B 今昔文字鏡「偏旁冠脚構垂繞」分類定義表
文字の様々な部分を偏旁冠脚構垂繞が構成しているが、「今昔文字鏡」の解字情報は必ず一文字を2個の偏旁冠脚構垂繞に分離している。
このことで偏旁冠脚構垂繞を形成する文字数を数えることができる。
文字が偏旁冠脚構垂繞を形成する場合には概ね字形は変化する。「今昔文字鏡」ではこれらの字形の主要な文字に個別の番号を割り当ててある。このことで「木」を木偏や木脚として使用している文字の総数や構成比を得ることができる。偏旁冠脚構垂繞の分類定義と例字は以下の通りである。






