苗字の漢字で悩む
日本人の苗字について書いてみたりしたら、思いがけないコメントをいただいたりしたので、実際のところ苗字に使われている漢字ってどういうものなんだろう?と検証してみようと思った。
ネット上に日本人の苗字を12万件ほど集めていたところがあったので、それらの苗字を漢字一文字ずつバラバラにしてまず出現数の総計をとってみた。つまりどんな漢字がどれくらい使われているか?ということだが、ここでは田中とか中村とか鈴木という名前を持つ人が多いということとは関係なくて、ひたすら苗字の件数(種類)を数えているので、お間違えのないよう。
集計したものをEXCELにしたので、利用できるなら利用していただきたい。ただしミスがあるかもしれず、そのへんは責任持てないよ~ってことで。
「漢字in苗字.xls」をダウンロード(ただしファイル名は「in.xls」になる)
で、集計してみたところ、まず苗字の長さについてはこういう結果が出た。
ネット上に日本人の苗字を12万件ほど集めていたところがあったので、それらの苗字を漢字一文字ずつバラバラにしてまず出現数の総計をとってみた。つまりどんな漢字がどれくらい使われているか?ということだが、ここでは田中とか中村とか鈴木という名前を持つ人が多いということとは関係なくて、ひたすら苗字の件数(種類)を数えているので、お間違えのないよう。
集計したものをEXCELにしたので、利用できるなら利用していただきたい。ただしミスがあるかもしれず、そのへんは責任持てないよ~ってことで。
「漢字in苗字.xls」をダウンロード(ただしファイル名は「in.xls」になる)
で、集計してみたところ、まず苗字の長さについてはこういう結果が出た。
一文字苗字 | 2144件 |
二文字苗字 | 99742件 |
三文字苗字 | 24081件 |
四文字苗字 | 483件 |
五文字苗字 | 2件 |
五文字苗字の2件は
・勘解由小路
・左衛門三郎
ということだが、まぁそいういうこともあるのかな?と。
で、それぞれの漢字が例えば二文字苗字の何文字目に出てくるのかな?ということを知りたいのでそれを計算してみる。データは3000行以上あるので、最初の方だけを紹介する。詳細はEXCELシートをダウンロードして遊んでいただきたい。一文字苗字は意味ないかと思って省略したが、今考えてみると付けても良かったかも。
案外普段見ないような字が出てくるもんだなぁ、という印象だが、それはそれぞれの苗字を使っている人の人口分布が加味されたものを体験しているからで、ここではあくまでも「山田」であっても「勘解由小路」であっても1件として対等に扱っているからなので。
さて、それでこれをグラフにしてみたらなにか有意なものが出てくるかなぁと思うのだが、これをこのままグラフにするとこんな感じであまり面白くない(最初の300件についてグラフ化した)。
そこで、総計出現回数を100%としてパーセンテージを計算してみた。ただしこの部分はダウンロード用に用意したデータには入っていない。数式をてんこ盛りにするとcocologのupload容量を超えてしまうのだ。
というわけでパーセンテージを計算したものがこの表だ。
ということだが、まぁそいういうこともあるのかな?と。
で、それぞれの漢字が例えば二文字苗字の何文字目に出てくるのかな?ということを知りたいのでそれを計算してみる。データは3000行以上あるので、最初の方だけを紹介する。詳細はEXCELシートをダウンロードして遊んでいただきたい。一文字苗字は意味ないかと思って省略したが、今考えてみると付けても良かったかも。
案外普段見ないような字が出てくるもんだなぁ、という印象だが、それはそれぞれの苗字を使っている人の人口分布が加味されたものを体験しているからで、ここではあくまでも「山田」であっても「勘解由小路」であっても1件として対等に扱っているからなので。
さて、それでこれをグラフにしてみたらなにか有意なものが出てくるかなぁと思うのだが、これをこのままグラフにするとこんな感じであまり面白くない(最初の300件についてグラフ化した)。
そこで、総計出現回数を100%としてパーセンテージを計算してみた。ただしこの部分はダウンロード用に用意したデータには入っていない。数式をてんこ盛りにするとcocologのupload容量を超えてしまうのだ。
というわけでパーセンテージを計算したものがこの表だ。
この表の最初の300件をを二文字苗字の一文字目で降順ソートしグラフ化したのがこれだ。と書いてから思ったが、全体をソートしたほうが良かったかもしれないな。まぁそれは興味をお持ちのあなたにもできることなので。
紺色のグラフが右下がりになっているところへ、ピンクの線(二文字苗字の二文字目)が右上がりになっているのが何やら意味ありげだ。やはり一文字目に来やすい文字と2文字目に来やすい文字があるのだろう。
ならば、と三文字苗字の1文字目で降順ソートしてみる。
紺色のグラフが右下がりになっているところへ、ピンクの線(二文字苗字の二文字目)が右上がりになっているのが何やら意味ありげだ。やはり一文字目に来やすい文字と2文字目に来やすい文字があるのだろう。
ならば、と三文字苗字の1文字目で降順ソートしてみる。
黄色と水色と紫色の関係を見たいのだが、むしろピンクのグラフの右上がりが気になるところだ。
ということなんですが、これからなにか有意なことを導けるでしょうか?
ということなんですが、これからなにか有意なことを導けるでしょうか?
| 固定リンク
「プログラミング」カテゴリの記事
- HTMLのaudioオブジェクトで悩む(2017.07.09)
- JavaScriptで悩む(2017.04.01)
- プログラム言語「Ruby」で悩む(2016.07.03)
- 苗字の漢字で悩む(2015.09.06)
コメント
非常に興味深いですね、やはり地形とか土地利用を表す漢字が多いのですね、漢字の意味で考えて行くなら沢と澤を合算した方が良いかな、とかこれだけからも色々考える材料になりますね。
投稿: ををつか | 2015年9月 6日 (日) 08時08分
「ピンクの線が右下がり」と書いていたのを「右上がり」に修正しました。
このデータを元にもう一歩踏み出すならば、各文字の概念性とか地理性とか構造物製とか方向性とかそういう属性を割りつけてその分布と苗字の中での位置分布を対比するとか、まぁいろいろできるんじゃないでしょうか。
「沢」と「澤」をデータ的に見ると大きな差異が見えないので、一緒にしてもいいのかもしれません。でもこういう判断をいろんな類似文字に関してやってられないな、と。
むしろ、位置データのパターンから文字をグループ化するのがいいかもしれません。
投稿: PicksClicks | 2015年9月 6日 (日) 18時27分
12万件のデータというのはかなり多いと思うのですが、通説30万と言われてる日本の苗字。残りの18万のほぼ全ては異字体難訓稀名珍名なのでしょうけど、流石にそれはちょっと多すぎかも、という気がしてきました今更ですが。漢字数文字の組み合わせだけで、それほど多数のバリエーションが作れるのだろうか?
それはともかく、「一文字目に来やすい文字と2文字目に来やすい文字がある」らしいという、なんとなくの(経験に基づく)直感が、数字でも裏付けられるなら、それは意味のある事ではないでしょうか。
・普通の名前
・名前らしい名前
というのを思い浮かべる時の普通「らしさ」の規範は、漢字の並び順によって作り出されてる(らしい)という事。当たり前といえば当たり前なのだけど、当たり前の事をちゃんと証明するのは難しい場合もあるわけで。
統計データの有意差を証明するにはなんとか検定とか、いろいろ手法があるらしいのだけど、私はその方面は全然ダメで。
今回のを見て、二文字苗字だけに絞ってデータを取るのでも良いのではないか?とか、三文字苗字は二文字目を無視した方がデータが見やすくなるのでは?などとも思ったのですが、三文字苗字の二文字目を無視した場合の影響の大小を評価する方法も統計学にはあるはずで、しかし私はそれを知らないので、けっきょく三文字苗字の二文字目を無視してかまわないかどうかの確信が持てないのは残念です。
「一文字目に来やすい文字と2文字目に来やすい文字がある」らしい、という結果を受けて改めて思ったのは、というか今更ながら気付いたのは、日本の苗字は
「何の何」型 (なにのなにがた)
が多いのだな、という事です。
高い橋 → 高橋
山の入り口 → 山口
伊勢の藤原 → 伊藤
などなど。「高い橋」に何の意味があるかは不明だけど、ともかくこれらは「一つの属性を与えられた一つの対象」という型になってる。ヨーロッパの苗字が職業名や都市や村の名前をそのまんま。あるいは誰それの息子型。それが多数であるのと比べ、また、中国の姓の大部分が一文字だけなのと比べても、これは日本の苗字の大きな特徴かも。
もちろん日本の苗字にも何の何型ではないのもあります。だから、属性の色々(概念性とか地理性とか)の分類には上位カテゴリがあるという事ですね。つまり、まず最初に苗字の全体を「何の何」型とそれ以外に分類すべき。だけどこれが難問。どちらとも判然としない、あるいはどちらでもあり得る苗字が多いですね。
沢と澤;
例えば澤田さん、という人の立場になってみると、自分はけして沢田ではない、と思ってる澤田さんは少なくないように思われます。つい沢田と略記されてしまいがちだし、まあ普段はいちいち訂正を要求しないけど、本当は澤田なのだ、と澤田さんは思ってる。
沢田さんの側からしても同じですね。何かの名簿に勝手に澤田と書かれたらちょっと困る、と思う沢田さんは多いであろう。
これは、名乗る側の意識の問題です。一方、青という字が二文字目になる事は稀だ、というのは、名を呼ぶ側の意識。だからこの二つは同じではないけど、青が二文字目に来ない事に着目してる流れの中では、やはり沢と澤などなどもきっちり区別すべきでありましょう。基本、異字体は別の名前。一般名詞なら略体でかまわないのだけど、名前の漢字は、意味を表す記号というだけのものではなくなってしまってるのです。
投稿: 牛込パン | 2015年9月 8日 (火) 02時22分
まず、抽出された漢字が3270文字ということにまず驚きました。だって当用漢字で1850字ですし、私自身が読み書きできるのはおそらく2500文字くらいのはず。
その3270余字を二文字組み合わせると、およそ一千万通りの組み合わせができます。その組み合わせのうちの9万9千が名前として使われているということですから、たったの1%です。もっとバリエーションがあってもいいはずなんですが、1%で済んでいるというのは何かのルールがあるんじゃないでしょうか。
ちょっとまた別の角度からデータをいじくり始めたのですが、新たな投稿にするのも面倒なので、引き続きこの投稿に書き足していこうと思います。ちょくちょく覗いてみてください。
投稿: PicksClicks | 2015年9月 8日 (火) 23時30分
こんばんは。
3200の2乗≒1千万。これには思い至りませんでした。ちょっと迂闊。
2文字を使って99,000通りの組み合わせを作るのに必要な最低の文字数は約315。なのに名前に使われてる漢字は3200弱。
出現数順にソートしてみると、100回以下しか使われてない文字が2700以上ありますね。
一方、1000回以上使われてる文字は22種。それが使われてる苗字数を合計すると約3万5千≒全体の1/3。
800回以上使われてる39文字の合計は約5万。全体の半分。
となるとこの、ほんの40前後の漢字が日本の苗字の普通「らしさ」を規定してるのかなという気もしてきますが、
出現数ランク第12位の「大」
同じく第13位の「崎」
「大」は1文字目になる率が1272:27と非常に高い。
「崎」の2文字目になる率は90:1206。
だからこの2文字を組み合わせた「大崎」は、最も日本人らしい、普通の名前になっても良さそうなのだけど、あまりそういう感じがしないのが不思議です。人口比という点を考慮しても、やはり大崎はすごく普通ではない。なんでかな。
沢と澤;
もともとの話しの端である「日本の苗字をプログラムで自動生成」という件に関しては、異字体を区別する必要はなかったかもですね。
投稿: 牛込パン | 2015年9月11日 (金) 01時51分
総計出現数に注目してみると、多い順に並べた時に最初の22件の合計が総計の20%を超えています。パレートの法則(原因の2割が結果の8割を占める:別名8割2割の法則)によれば最初の650件の総和が20%になるはずなので、一般的な集合に比べると集中具合がかなり高いのだと思います。
二文字苗字の一文字目で一番多いのは「大」ですが、では「大」に続く二文字目の集合は、2位の「小」に続く二文字目の集合とどれくらいかぶるだろうか? では三位の「上」ではどうか? と考えて、これを計算すると一文字目をぐるーぷすることができるのではないかと考えていじくり中です。
あれ? 二文字苗字のニ文字目で一番多いのは「田」じゃありませんでしたか?
投稿: PicksClicks | 2015年9月12日 (土) 18時57分