総語数の計算(3) 検証

[掲示板: 〈過去ログ〉YL・語数・書評システム情報 -- 最新メッセージID: 1253 // 時刻: 2024/5/12(03:05)]

管理用 HELP LOGIN    :    :


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

788. 総語数の計算(3) 検証

お名前: たむ
投稿日: 2005/6/17(02:13)

------------------------------

みなさん、こんばんは。たむ2です。

以下、長い文章になり、数字もたくさんでてきます。
目も疲れますので、簡単な要約をつけます。
興味のない方、時間のない方に申し訳ありませんので、
要約だけでパスしていただけますよう。

・総語数の簡易計算法を考えているうち、偶然にあることを見つけた。
・The Sky Is Falling, Sidney Sheldonの総語数は、本のはじめから
 ページごとに語数を数え、11ページまでで比例計算すると、±5%の
 誤差で計算できる。
・73ページまで検証してみたが、ほぼ±5%の範囲に収まっている。
・どうしてこうなるのか、根拠はよくわからない。

以上のような話しです。

*************************
前回、単純な比例計算で総語数が正確に計算できるのでは、
と予想をたてたわけですが、「大発見」の興奮(笑)のあとは、
検証、根拠の探求と続きます。さらに、ほかの本に応用する
ことも考えています。(数字はもう半分くらい出てきました。)

もう一度、The Sky Is Fallingについて、確認のため
Excelの表をアップします。(今回、数を数えなおした
ところもあります。)

頁	語数	累積語数	 予想	   差	差・%
1	49	49	19,502 	-52,314 	-73 
2	80	129	25,671 	-46,145 	-64 
3	124	253	33,565 	-38,251 	-53 
4	199.5	452.5	45,024 	-26,792 	-37 
5	201	653.5	52,019 	-19,797 	-28 
6	219.5	873	57,909 	-13,907 	-19 
7	209	1082	61,519 	-10,297 	-14 
8	227	1309	65,123 	-6,693 	-9 
9	215	1524	67,395 	-4,421 	-6 
10	169	1693	67,381 	-4,435 	-6 
11	204	1897	68,637 	-3,179 	-4 
12	193	2090	69,318 	-2,498 	-3 
13	220	2310	70,722 	-1,094 	-2 
14	183.5	2493.5	70,887 	-929 	-1 
15	208	2701.5	71,680 	-136 	0 
16	191	2892.5	71,951 	135 	0 
17	213	3105.5	72,705 	889 	1 
18	180	3285.5	72,646 	830 	1 
19	207	3492.5	73,159 	1,343 	2 
20	35	3527.5	70,197 	-1,619 	-2 
21	80	3607.5	68,371 	-3,445 	-5 
22	185.5	3793	68,619 	-3,197 	-4 
23	214	4007	69,339 	-2,477 	-3 
24	184	4191	69,501 	-2,315 	-3 
25	199	4390	69,889 	-1,927 	-3 
26	200	4590	70,262 	-1,554 	-2 
27	195	4785	70,534 	-1,282 	-2 
28	208	4993	70,972 	-844 	-1 
29	193	5186	71,173 	-643 	-1 
30	208	5394	71,560 	-256 	0 
31	213	5607	71,987 	171 	0 
32	201	5808	72,237 	421 	1 
33	179	5987	72,207 	391 	1 
34	129	6116	71,593 	-223 	0 
35	126	6242	70,980 	-836 	-1 
36	193	6435	71,143 	-674 	-1 
37	247	6682	71,877 	61 	0 
38	263	6945	72,740 	924 	1 
39	217	7162	73,089 	1,273 	2 
40	224	7386	73,491 	1,675 	2 
41	211	7597	73,746 	1,930 	3 
42	180	7777	73,696 	1,880 	3 
43	218	7995	74,000 	2,184 	3 
44	249	8244	74,571 	2,755 	4 
45	199	8443	74,674 	2,858 	4 
46	199	8642	74,772 	2,956 	4 
47	191	8833	74,799 	2,983 	4 
48	207	9040	74,957 	3,141 	4 
49	211	9251	75,141 	3,325 	5 
50	55	9306	74,076 	2,260 	3 
51	119	9425	73,552 	1,736 	2 
52	163	9588	73,385 	1,569 	2 
53	227.5	9815.5	73,709 	1,893 	3 
54	224.5	10040	73,999 	2,183 	3 
55	212	10252	74,187 	2,371 	3 
56	243	10495	74,589 	2,773 	4 
57	206	10701	74,719 	2,903 	4 
58	204	10905	74,831 	3,015 	4 
59	191	11096	74,851 	3,035 	4 
60	197	11293	74,910 	3,094 	4 
61	221	11514	75,124 	3,308 	5 
62	198.5	11712.5	75,187 	3,371 	5 
63	219.5	11932	75,380 	3,564 	5 
64	218	12150	75,558 	3,742 	5 
65	201	12351	75,626 	3,810 	5 
66	237	12588	75,909 	4,093 	6 
67	197.5	12785.5	75,950 	4,134 	6 
68	158.5	12944	75,760 	3,944 	5 
69	163	13107	75,603 	3,787 	5 
70	32	13139	74,705 	2,889 	4 
71	71	13210	74,050 	2,234 	3 
72	169	13379	73,956 	2,140 	3 
73	192	13571	73,990 	2,174 	3 

左から順に、頁数、その頁の語数、その頁までの累積語数と
続きます。

4番目の列は、その頁までの累積語数をもとに、それが
本全体まで同じ割合で続いたとしたら、総語数はどうなる
か、という比例計算の結果です。予想総語数というわけです。
 予想語数=累積語数×(398 / 頁数) *398は総頁数。

5番目の列は、この予想総語数から、アマゾン実数71,816語
を引いたものです。予想した数が実数よりどれだけ多いか少ない
か、を表す数字です。

最後6番目の列は、前の差がアマゾン実数に対して何%に
あたるかを表しています。予想のあたり具合というわけです。

「過去ログ」でどなたかが、総語数を全部手で数えるわけには
いかないのだから、SSSでいう総語数は±10%くらいの誤差
は許容範囲内だろう、と言われています。私もそのくらいで
十分と思います。

この基準に照らしてみると、この表では、早くも8頁から±10%に
収まってきているわけです。しかも、それが73頁まで続いている。

11頁からは5%以内にほぼ収まっている。
ただし、66、67頁では、残念ながら6%の誤差になっています。
(P.66, 5.69%, P67, 5.75%です。)

「残念ながら」と書きましたが、これは、頁がすすんでいけば、
誤差が少なくなるのでは…という予想を裏切るものだからです。
波がうねるように上下しながら、だいたい5,6%の範囲に収まって
いるという感じですね。

しかし、頁がすすんでも正確さが増すわけではない、という
ことは、この数字のアマゾン実数との驚くべき合致率にも
かかわらず、一体どうしてなんだろうという根拠の探求に
目を向けさせることになるわけです。(なんだか、もって
回った言い方です(笑)。)

昨日1日考えてみましたが、「根拠はない、まったくない
とも言い切れないが。」…というのが結論です。「根拠」と
いうのは、上の比例計算の数字と実数が合致する
「根拠」ということです。

ここらへんの議論、たぶん数学に詳しい方や統計学を
勉強された方には常識なのだろうと想像します。素人の
議論とご容赦くださいね。

根拠がない、というのはまったくはっきりしています。
(変な表現ですが、根拠がないと思いついたら、考える
必要もないくらい、根拠はまったくないと思えました。)

なんというのか、大きな円(The Sky is Falling)の中に
中円(頁)があり、その中に小円(行)がいくつもある。
その中に無数(71,816個)にある点(単語)の大きさも
さまざま。

この中のからいくつかの中円、小円を取り出して、どう
数字を操作しようが、総語数とは「関係がない」と
思えるのです。平均といいますが、これはいくつか
選び出したサンプルの平均で、総語数に意味のある
平均ではないからです。

しかし、「関係がない」なら、どうして上の表にあるように
ある程度の誤差におさまるのか。(ある程度の誤差に収まる、
という表現は言いすぎですね。73頁まではという限定を
つけなければなりません。)

ここが、笹かまくわえたどら猫さんがNo.779でアドバイス
してくださったことだろうと思います。これは「1行の平均文字数」
についてでしたが…つまり、Sidney Sheldonさんの使う語彙の
特徴とか数に制限があること、(それに、表現の特徴、また本の
大きさと活字の大きさ、行と行とのつまり具合、レイアウトの仕方
など)から、まったくランダムな数を相手にしているのではなく、
ゆるーい制限がある数を相手にしているのだということ。
「きっと」そのことから、適当にえらんだサンプルから全体を
類推しても、「まったくのハズレ」ではない、と。

まあ、要するに、根拠はなんだかよく分からないということ
になります(笑)。

ほかの3冊のpaperbacksについても数字が出てきました。
驚異的な結果です!!
長くなりすぎますので、今日はここまでとします。

読んでいただいて、ありがとうございます。

▲返答元

▼返答


Maintenance: SSS 事務局
KINOBOARDS/1.0 R7.3: Copyright © 1995-2000 NAKAMURA, Hiroshi.