総語数の計算(6)

[掲示板: 〈過去ログ〉YL・語数・書評システム情報 -- 最新メッセージID: 1253 // 時刻: 2024/5/11(22:58)]

管理用 HELP LOGIN    :    :



上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

800. 総語数の計算(6)

お名前: たむ
投稿日: 2005/7/18(16:00)

------------------------------

皆さんこんにちは。たむ2です。

4週間パソコンが使えず、手足をもがれたような
苦しい生活を送っておりました(多読はすすみました)。
Excelが使えないので、総語数計算もお休み状態でしたが、
また復活したいと思います。

These Happy Golden Years,
Laura Ingalls Wilder,
ISBN 0-06-440008-5

これは「大草原の小さな家」シリーズの1冊で、
私も現在読んでいるところです。この本は、
paperbackの装丁ですが、挿絵も結構あり、
子供も読む本でしょうから、児童書でもあるという
中間的な性格の本だろうと思います。

この本はアメリカ・アマゾンで総語数64,113語となっています。
(これ、ほんとにありがたいですね。日本のアマゾンも早く導入して
ほしいです。)

また、SSS書評のデータでは60,000語となっていますから、
かなり正確です。誤差は (60000 / 64113)×100 = 93.6 (%)
ですから、−6.4%ということになります。

この本の基本データは次のとおりです。
   頁 行数 単語数   本文頁数=289
   1    15   129         挿絵: paperbackとしてはかなりある
      2    28   254         最大行数: (後述)
      3    28   262
     合計  71   645

最大行数ですが、はじめのうちは28行なのですが、その後
29行と28行が交互に続いていて、どちらとも決められません。
最大行数ですから29行としていいようにも思いますが、
総語数の計算にかかわることで、どちらとも決めかねます。
(全部は調べていませんが、28行も結構多いのです。)

最初の行の活字の頭から、最終行の活字の底までの
長さを測ってみると!(せこいと笑わないでくださいね。)、
28行151mm, 29行156mmくらいになっている
ようで、5mmの違いは、見ただけではわからない
ですね。

仕方がないので、一応、最大行数28.5としておきます。

◆まず、もっとも単純な比例計算をしてみます。
基本データでは最初の3頁で645語となっていますから、
これが総頁数289ではどうなるか。
  645×(289 / 3) = 62135
となります。かなり正確です。
誤差は (62135 / 64113)×100 = 96.9(%), −3.1%
で、これで十分実用になっちゃうところが、素晴らしいと
いうかいまいましいというか…。

◆次に、SSS公認方式で計算してみます。
A(1行あたりの単語数)ですが、標準的な2~4行を
選び、平均を出します。(少数第2位で五捨六入)
(古川先生、四捨五入でないことには何か意味が
あるのでしょうか?)

「標準的な行」というのは、フル行(行の最後まで文字の
つまっている行)の中で「標準的な行」ということだと
思います。しかし、どれが標準的な行かは見ただけでは
分からないと思いますので、最初からフル行を4つ選ぶ
ことにすると、
  page1, line4→9語、以下同じく 1, 5→10, 1, 8→9,
  1, 12→7となりますので、
 A = (9+10+9+7)/ 4 = 8.7 となります。

次にB(最大行数)ですが、上で述べた理由で 28.5とします。

C(総頁数)は289ですが、1頁まるまる挿絵という頁が4頁
(page 93, 167, 228, 281)あります。また、部分的な挿絵も
結構多いのですが、とりあえずそれには目をつむって、
  C = 289−4 = 285
とします。

Dについては、0.87 / 0.93のどちらかを選ぶことになって
いますが、この本は0.87とします。

以上から、総語数は
  8.7×28.5×285×0.87 = 61479
となります。これもかなり正確で、誤差は
  (61479 / 64113)×100 = 95.9 (%)
−4.1%となります。

ちなみにA(1行の平均文字数)がいくつだったら
もっとも正確な総語数になるか逆算してみると
A = 9.1となります。
  9.1×28.5×285×0.87 = 64306

◆第三方式
第三方式は、みちるさんが実際に使われていた方法で、
この掲示板の No.783で次のように書かれています。

(引用)ちなみに、私の場合は、児童書、PBともに、読み終わった
後に、平均的かなぁと思う3ページを数えます。章題や章の終わりの
空白、挿絵による空白を大体数えて頁数をひき、
  (3ページの語数÷3)×(全頁−空白をページ相当にした頁数)
で語数を出していました。(中略)普通の人が楽に数えられる量が
結構大事かもしれませんね。

この方式がいいのは、直感的・素直なことで、3頁で1頁の平均語数を
出し、空白行や挿絵の部分を補正して頁数を出し、総語数を計算して
いる点です。

これが一番常識的でわかりやすい方法ではないでしょうか。しかも、
この方法であれば、GR、児童書、PBを区別しないで、同じやり方で
計算できるのです。

まず「平均的な頁」ですが、これはフル行に対応したフル頁(つまり、
頁の全面に行があり、空白行がない頁)の中のこととします。「平均的」
も選びようがないので、本のはじめの方、真中、終わりの方でフル頁
を選んでみました。
	Page 3→262,  145→248,  286→280
で1頁平均263語となります。

次に、空白・挿絵の部分を差し引く作業ですが、これがかなり
大変であることが分かりました。この本が児童書とpaperback
の中間的な性格であることから、paperbackにしては挿絵が
多く、児童書にしては総頁数が多すぎるのです。また、この本
の章にあたるものは33もあって、それだけでも大変になり
ます。

みちるさんが具体的にどのような方法をとっているか、
分かりませんので、次のようにしてみます。

最大行が28.5ですので、空白行や挿絵のある頁では
文字のある行数を数え、それを28.5から引きます。
(このあたりExcelで表を作っておいて、数字を打ち
込めば28.5の補数がでてくるようすると、少しは
手間が省けます。)

表が、こちらにきれいにコピーできないので省略しますが、
結果は計1059行、つまりこれだけの行には文字がない
ことになります。
   1059 / 28.5 = 37.15..
したがって、文字のある頁数は
    289−37 = 252

総語数は 263×252 = 66276
誤差は (66276 / 64113)×100 = 103.37…
+3.4%になります。

◆改訂SSS公認方式
  上のSSS公認方式では、8.7×28.5×285×0.87 = 61479
となりましたが、第三方式で空白頁を差し引いた数字が252頁と
でました。これをSSS公認方式に代入してみますと、0.87は不要
になりますので(?、ここちょっとあやしいです。文字率は二つの役割
があるように思っています)、
    8.7×28.5×252 = 62483.4 → 62,483 という数字が得られ
ます。この誤差は、(62483 / 64113)×100 = 97.45… 97.5%となり
−2.5%という驚異的な数字になります。

◆以上の結果を並べてみますと、
	改訂SSS公認方式 誤差 −2.5%
	単純比例計算 誤差 −3.1%
	第三方式 誤差 +3.4%
	SSS公認方式 −4.1%
となります。

どの方式も±5%に収まったのは、意外でした。
単純比例計算は乱暴なやりかたなのに、健闘
してますね(笑)。改訂SSS方式、第3方式にもう少し
工夫の余地があるように思います。

長くなりました。また、考えます。
では、皆様 Happy Reading !

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

803. 総語数の計算(7) 補足

お名前: たむ
投稿日: 2005/7/19(10:26)

------------------------------

皆さん、こんにちは。

前の投稿に補足があります。
These Happy Golden Years(64,113語)の
総語数を4つの方法で計算したわけですが、
結果の数字そのままで誤差を出しました。
これは現実的ではありません。

出てきた数字の百の桁以下を切り捨てると
次のようになります。

単純計算 62,135→ 62,000語  誤差 96.7% (−3.3%)
SSS公認方式 61,479→ 61,000語  誤差 95.1% (−4.9%)
第三方式 66,276→ 66,000語  誤差 102.9% (+2.9%)
改訂SSS方式 62,483→ 62,000語  誤差 96.7% (−3.3%)

以上です。
These Happyは半分くらい読み進みました。
では皆様も Happy Reading !

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

804. Re: 総語数の計算(6)

お名前: みちる http://blog.goo.ne.jp/michiru_tsukiusagi/
投稿日: 2005/7/20(01:14)

------------------------------

たむさん、こんばんは。
0064400085の本で数えてみました。

未読なのですが、本を持っているので、
ぱらぱらと見て、三ページなら、ちょっと会話があるのを一ページくらいかなぁ
ということで、104ー106の3ページでいいかなと数えました。

250
246
266

となりました。

ページ数は、ブロックで数えます。
(273と278で、一ページ分の空きとかね。三センチ分くらいの空きがあった
から・・・・と。)
このページとこのページくらい足すと一ページの空きって感じで。
私は、さらさらと数えてしまうので、時間はかからないのですが。
せいぜい、1、2分かなぁ。
歌の部分は、字が小さくなったりしているので、とりあえず1ページのまま。

で、255ページになりました。

254×255で、64770ページが私の数えた数です。
私は、四捨五入せずに、この数でカウントしちゃいますが。

ご参考まで。


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

805. Re: みちるさん、驚きました。

お名前: たむ
投稿日: 2005/7/20(23:15)

------------------------------

みちるさん、こんばんは。
読んでいただいてありがとうございます。

驚きました!
なにしろ結果が…みちるさんの64,770語は
(64770 / 64113)×100 = 101.0… で、誤差
1%ですね。これはまさしく「驚異」です。

第三方式は、私の中では「みちるさん方式」なんですが、
お断りもせずに勝手に命名してはいけないと思っていた
ところです。

基本になる3頁の選び方、なるほど分かりました。
連続した3頁で、しかも「平均的と思われる」部分を
選ぶわけですね。「ちょっと会話があるのを1頁くらい」
入れて…という感じで…。

うーん、なんか早速Excelの表が思い浮かびます。
頁ごとの語数を全部数えて、連続した3頁での総語数
ヒット率(誤差)を見る…というような。

次の、空白部を数える方法、私もやってみました。1,2分
ということですが、5分くらいかかったでしょうか。これは
慣れの問題で、もっと手早くなりそうですし、正確さも増して
くるかもしれません。

結果、私は全部で28頁が空白と出ましたので、
289−28で、261頁となりました。

総語数:  254×261 = 66296  
誤差 (66296 / 64113 )×100 = 103.4..  +3.4%

この結果をみると、私の場合は空白を少なめに
数えてしまっているのでしょうね。

私の前の投稿(行を全部数えた)の結果ですと、
実質頁252でしたので、これを入れると
総語数:  254×252 = 64008
誤差:  (64008 / 64113)×100 = 99.8 (−0.2%)
となります。ほとんどドンピシャリの数字です。

うーん、いろいろアイデアが思い浮かんできました。
(1)連続した3頁を、どう選ぶか。
(2)3頁でなく、もっと増やしたらどうなるか。
(3)頁単位ではなく、行単位ではどうか。
(3)空白を数える作業をもう少し定型化できないか。
などなどです。

どうやら、このみちるさん方式をエラボレイトする方向で
かたまりそうですね。(もう一つ、行単位に考えて比例
計算する方法も考えています。)

いつもながら示唆に富んだお話し、ありがとうごさいました。
どうにもならずに撃沈かと思っていましたが、なんとか形に
なりそうです。

またよろしくお願いします。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

806. 楽な方に。。

お名前: みちる http://blog.goo.ne.jp/michiru_tsukiusagi/
投稿日: 2005/7/21(01:26)

------------------------------

たむさん、こんばんはー。
もう、論文が一方書けちゃいそうですね。(笑)

えーと、ただ単に楽が好きなだけです。
この本だと、ぱらぱらと見て、結構詰まっているけど、多少は会話の
多いページがあるから、詰まっているのに、適当に会話のある一ページ。
とかね。
ばらばらの三ページよりも、連続していた方が私には数えやすいなぁ
と思っただけで、それは好きずきでいいかも。
ただ、ぱっと眺めて、このくらいで平均くらいかなぁとなる三ページは
選んだ方が、より正確かなぁと思います。

あと、挿絵が多いものや、絵本は、挿し絵も入って一ページの平均で
数えたりということも結構します。
どのページも挿絵があるものは、だいたい一ページ10行くらいだから、
(5-15行くらいまであっても)
10行くらいのページを三ページ分で多少補正をしてあげるとかね。

かなり適当で、変な言い方ですが、感覚頼りな方法かも。
書評の語数見るより数えた方がと、この方法でずっと数えていたので、
私の語数は、書評とはだいぶん違っているものもありました。

ま、語数は目安だから、手間かけずに自分の数え方でカウントすれば
いいよねーという感じでしょうか。。

ブロックで引くページとか、章の一ページ目は1/3引くとか。
見た目で適当に引いて数えるのが、行数数えるより楽ーとか。

そんなので、楽に楽にと進んでいます。

でも、3ページは多いと感じる人も多いかもしれませんね。
何語くらいがカウントするのに苦痛じゃないのでしょうね。
その辺が一番微妙かなぁと思います。

それでは、またね〜。


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

[賛成] 811. Re: 楽な方に。。

お名前: 酒井@快読100万語!
投稿日: 2005/7/23(00:15)

------------------------------

tsukiみちるさん、きのうは満月でした!

たむさん、ありがとー! コンピュータ、治ってよかったね!!

〉たむさん、こんばんはー。
〉もう、論文が一方書けちゃいそうですね。(笑)

ほんとにそう思う!
論文になりますよ、立派に。

で、第三方式はぜひ「みちる方式」と名を付けてください!

それだけ・・・


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

813. 総語数の計算(8)

お名前: たむ
投稿日: 2005/7/24(19:51)

------------------------------

みなさん、こんにちは。たむ2です。

総語数の計算法を考えていますが、ようやく私の中で
クリアになってきました。これまで、とくに成算もなく
あちこち話が飛んできましたので、お読みいただいた
方にはご迷惑な話であったかと想像しています。

一冊の本を大きい円にたとえると、その中にいくつもの
中円(頁)と、さらにその中円各々の中ににいくつもの
小円(行)が見て取れます。小円の中は単語が詰まって
いたり、空の小円もあるわけです。

総語数の計算は、要するに、どこか「部分」を選んで
大円の中にある総語数を計算で推測しようという
ことです。

総語数の計算法は、この「部分」をどこにするか、
どれくらいの分量にするか、また、補正をするかしないか、
ということに尽きるわけです。それ以外の要素は考えられ
ないと思うのですが、いかがでしょう。

具体的にいいますと、私が「単純比例計算」と呼んでいる
方法があります。

これは、「最初の3頁」の語数を数えて、次に総頁数を掛ける
だけの計算法です。補正はしないのです。

これは、上で述べた「部分」を「最初の3頁」として
補正なし、とするわけです。なぜ、「最初の」「3頁」なのか、
に確たる理由はありません。「最初の」には多少意味がある
ことを後に説明します。しかし「3頁」というのは、3頁も
語数を数えたらうんざりするから、という程度のことです。

そんな大雑把なやり方では誤差が多いにちがいないと
思われますが、これが、意外に、誤差が多いとも決めつけ
られないのです。

具体的に、何冊かの本でみてゆきます。

These Happy Golden Years,
Laura Ingalls Wilder,
ISBN 0-06-440008-5
Number of words : 64,113

この本の「最初の3頁」の語数は645語です。
また総頁数は289です。
したがって、計算総語数 = 645×(289 / 3)
                       = 62135
となります。

誤差は、(62135 / 64113)×100 = 96.91..
で、−3.1%になります。

上で、「3頁」というのはそれくらい数えると
うんざりするからと理由をあげましたが、では
4頁、5頁…と数えてみるとどうなるか。

4頁: 920×(289 / 4) = 66470
5頁: 1146×(289 / 5) = 66238.8
6頁: 1418×(289 / 6) = 68300.3…
7頁: 1647×(289 / 7) = 67997.5…
8頁: 1899×(289 / 8) = 68601.3…
9頁: 2179×(289 / 9) = 69970.1…
10頁: 2374×(289 / 10) = 68608.6
となります。

それぞれ誤差は
4頁: 103.67… +3.7%
5頁: 103.31… +3.1%
6頁: 106.53… +6.5%
7頁: 106.05… +6.1%
8頁: 107.00… +7.0%
9頁: 109.13… +9.1%
10頁: 107.01… +7.1%

これを見ると、この本の場合、サンプルとして取りあげる
「部分」の量を多くしても、誤差が少なくなるわけではない、
とわかります。

さて、ここで、一般的にものごとを考えてみたとき、
否定的なことを言うのは簡単で、1例でも反する
事象があれば、否定できるわけです。しかし反対に
肯定するのはとても難しい。あることについてAと
いうことが成り立つ、と言おうとしても1例でも反例
があれば否定されてしまうわけです。(じゃあ、肯定的
なことは何も言えないじゃないか、となりますが、まあ
そうでもないわけです。これは、仮説・実験の網の目
を広げることで、あることはほぼ確かだという結論を
得ることもできるわけです。)

したがって、この本の例だけで肯定的なこと、積極的な
ことを何か言うわけにはいかないわけですが、それでも
あえて言えば、最初の3頁を数えて頁数をかけただけ
で、5%以内の誤差におさまってしまうのではないか、
あるいは、最初の数頁の語数に頁数をかけると、誤差
10%におさまるのではないかという仮説をたてることは
できるわけです。

話しを戻してみると…サンプルの部分をどうとるか、
補正をどうするか、から、具体例として補正「しない」例を
取りあげたわけです。したがって、次に補正「する」例を
取りあげるのが話しの順序ですが、その前にこの補正
しない例をもうすこしみておく必要があります。そこで
次回はこの単純比例計算をほかの何冊かの本で
しらべてみたいと思います。

長くなりますので、今日はここまでにします。
読んでいただいて、ありがとうございます。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

814. たむさんへ、Re: 総語数の計算(8)

お名前: バナナ
投稿日: 2005/7/26(18:40)

------------------------------

バナナです。

私、たむさんの、この一連の投稿、おもしろく拝見させて
いただいています。

こういう(数学関係の)話はすきなのです。
すきだけど、口を出すほど、詳しくないのが悲しい。

口が出せるような話題があったら、口を出します。

続き楽しみに待ってます。

一読者より

ではでは


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

816. みちるさん、酒井先生、バナナさん、ありがとうございます

お名前: たむ
投稿日: 2005/7/27(18:01)

------------------------------

みちるさん、酒井先生、バナナさん、ありがとうございます。

みちるさん、3頁連続はとくに理由はないとのこと、そうですね。
それから、補正の数え方、みちるさんのは熟練技というか名人芸
ですね。ざっと数えてあの誤差ですからね。みちるさんのように
軽やかにいかないところがどうも難点です。

酒井先生のおすすめもあり、ぜひ「みちる方式」の名前、使わせて
いただきますよ。いいですね。(軽やかにはいかずちょっと重く
なるかもしれませんが。)

バナナさん、お久しぶりです。読んでいただいていたなんて、
嬉しいです。バナナさんはこちらの方(こちらってどちらか
よく分からないのですが)の専門家では?私のやってるのは
足し算、引き算に百分率の計算くらいですから、あるのは
数値の見間違いくらいのものです。近眼に老眼がかさなり
メガネをはずしたりかけたりめんどうなことこの上なしの
状況です。

ちょっと前から、サンプルになる本の選択に苦労しています。
なにしろ、ようやくアメリカ・アマゾンに入れるようになり、
なんとか目的のところにたどりつけるようになったという
ところなんです。手持の本をいろいろ入れてみて、データ
のあるものを探しています。

またよろしくお願いしまーす。
最近、400万語通過したんですよ。
そろそろタドキスト中堅かと思ってます。
酒井始祖、みちる先達、バナナ先輩に続きます。
では、また。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

817. 総語数の計算(9)

お名前: たむ
投稿日: 2005/7/29(09:11)

------------------------------

おはようございます。たむ2です。

前回の訂正です。These Happy Golden Years
の4頁までの累積語数を920としましたが、これは
誤りで、正しくは902でした。見間違いでした。それで、
それ以降の数字も変わってきます。(今回、誤差だけを
1頁から表示します。)

These Happy Golden Years  単純比例計算の誤差(%)
(1)−41.9,  (2)−13.7,  (3)−3.1,  (4) 3.7,  (5) 3.3,
(6) 6.5,  (7) 6.1,  (8) 7.0,  (9) 9.1,  ⑩ 7.0

これで、単純比例計算によると、P. 3〜10までは
10%以内に、P. 3〜5までは5%以内に収まって
いることがわかります。


前回、総語数計算法には2要素があり、またそれしか
ないこと。2要素とは、「サンプル部分」と「補正」の二つ
であること。ただし、補正をしない「単純比例計算」法もある。
これをThese Happy Golden Yearsを例にしてみてみました。

次は、いろいろな本(総語数が正確にわかっている本)に
ついて、「単純比例計算」(最初の3頁で比例計算、補正は
なし)をしてみます。

その前に、どの本を選ぶかが問題です。基準としては
文字だけかそうでないか、つまり挿絵などがあるか
どうか、また、本の種類として、PB、GR、児童書の
三種類が考えられます。

選んだ本は次の14冊です。(前回の本も入れてみました。)

◆(1)  Cold Mountain,
  Charles Frazier /  0340715561
  PB, 挿絵なし /  NOW(Number of words) : 161,321  Amazon
◆(2)  The Blue Bedroom & Other Stories
  Rosamunde Pilcher /  0312926286
  PB, 挿絵なし /  NOW: 74,770  Amazon
◆(3)  The Sky is Falling
  Sidney Sheldon /  0446610178
  PB, 挿絵なし /  NOW: 71,816  Amazon
◆(4)  The Best Laid Plans
  Sidney Sheldon /  0446614089
  PB, 挿絵なし / NOW: 69,066  Amazon
◆(5)  These Happy Golden Years
  Laura Ingalls Wilder / 0064400085
  PBと児童書の中間、挿絵あり / NOW: 64,113  Amazon
◆(6)  Little House in the Big Woods
  Laura Ingalls Wilder / 0060581808
  PBと児童書の中間、挿絵あり / NOW: 34,442  Amazon
◆(7)  Lily’s Crossing
  Patricia Reilly Giff / 0440414539
  児童書、挿絵なし / NOW: 36,304  Amazon
◆(8)  Holes
  Louis Sachar / 0440414808
  児童書、挿絵なし / NOW: 46,554  Amazon
◆(9)  Afternoon on the Amazon
  Magic Tree House #6 / 0679863729
  児童書、挿絵あり / NOW: 4,969  Amazon
◆(10)  Matilda
  Roald Dahl / 0141311363
  児童書、挿絵あり / NOW: 39,919  Amazon
◆(11)  Two Lives
  CER 3 /  GR, 挿絵なし
  NOW: 14,358  出版社
◆(12)  About a Boy
  PGR 4  /  GR, 挿絵なし
  NOW: 21,316  出版社
◆(13)  The Canterville Ghost
  OBW 2 /  GR, 挿絵あり
  NOW: 5,504  出版社
◆(14)  A Dubious Legacy
  OBW 4 /  GR, 挿絵あり
  NOW: 15,643  出版社

手持の本で総語数が分かるものを選び出すのに手間取りました。
「出版社」とあるのは「SSS書評」のデータの数字ですが、
その中から下の桁が0でないものを選びました。四捨五入のような
操作をしている感じがしましたので。

今日はここまでで息切れです。読んでいただいてありがとう
ございます。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

818. Matilda, Roald Dahlの総語数は?

お名前: たむ
投稿日: 2005/7/30(07:48)

------------------------------

おはようございます。たむ2です。

Matilda, Roald Dahlの総語数は
アメリカアマゾンでは39,919と
なっていますが、SSS書評データの
出版社提供の数字では 39,785に
なっています。

その差は370語で、0.9%になります。
2頁くらい違う感じです。
どうしてこんな差があるのでしょうか。

ご存知の方、教えていただけませんか。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

820. 総語数の計算(10)

お名前: たむ
投稿日: 2005/7/31(13:36)

------------------------------

こんにちは。たむ2です。

前回、14冊の本を選びましたので、それぞれについて
「単純比例計算」をしてみます。2頁、3頁…と語数を
積算して、それぞれの頁で比例計算して、本の総語数を
推測してみるわけです。10頁までやってみました。

その前に、…電子データというのでしょうか、出版社発表の
総語数とアマゾン・アメリカに出ている総語数が違うことが
わかりました。確認したのはMatildaだけですが、ほかの
本でも違うものがありそうです。

それも結構差があるようで…。どうしたらいいのか分かりません。
仕方がないので、しらべたままの数字でで話しをすすめることに
します。

以下、途中を省略して結果だけ、誤差だけをパーセントで
示します。

◆(1) Cold Mountain  PB, 挿絵なし
  -21.9,  -5.7,  2.3,  5.1,  6.9,  5.0,  4.7,  5.1,  5.5,  5.6
◆(2) The Blue Bedroom & Other Stories  PB, 挿絵なし
  -31.4,  -9.7,  -4.3,  -2.1,  -1.2,  -0.8,  1.8,  2.6,  1.2,  1.5
◆(3) The Sky is Falling  PB, 挿絵なし
  -72.8,  -64.3,  -53.3,  -37.3,  -27.5,  -19.3,  -14.3,  -9.3,
  -6.1,  -6.1
◆(4) The Best Laid Plans  PB, 挿絵なし
  -58.5,  -27.0,  -9.2,  -6.3,  -3.0,  -0.2,  2.5,  3.7,  4.3,  5.9
◆(5) These Happy Golden Years  PB / 児童書, 挿絵あり
  -41.9,  -13.7,  -3.1,  3.7,  3.3,  6.5,  6.1,  7.0,  9.1,  7.0
◆(6) Little House in the Big Woods  PB / 児童書, 挿絵あり
  -45.4,  -8.8,  -1.9,  4.7,  8.5,  12.6,  12.7,  1.1,  -3.3,  -0.6
◆(7) Lily’s Crossing    児童書、挿絵なし
  -57.4,  -14.0,  1.0,  7.8,  8.6,  4.8,  -3.9,  0.2,  2.4,  4.5
◆(8) Holes  児童書、挿絵なし
  -21.6,  -24.3,  -33.8,  -30.7,  -19.1,  -12.1,  -5.8,  -6.8,
  -8.6,  -3.8
◆(9) Afternoon on the Amazon  児童書、挿絵あり
  5.2,  19.3,  5.2,  11.9,  -5.3,  2.5,  -0.4,  3.5,  7.0,  -3.7
◆(10) Matilda    児童書、挿絵あり
  -43.0,  -33.5,  -33.9,  -15.0,  -14.6,  -12.0,  -5.1,  -17.0,
  -10.0,  -5.2
◆(11) Two Lives   GR, 挿絵なし
  -34.7,  -28.5,  -10.1,  -5.8,  0.6,  -8.1,  -7.0,  -4.5,  -4.3,
  -2.9
◆(12) About a Boy    GR, 挿絵なし
  -1.8,  -1.3,  -4.5,  -3.9,  0.2,  -0.1,  1.7,  1.8,  3.0,  2.8
◆(13) The Canterville Ghost  GR, 挿絵あり
  -39.0,  13.7,  35.7,  7.9,  20.9,  13.3,  5.2,  6.9,  4.3,  12.0
◆(14) A Dubious Legacy    GR, 挿絵あり
  -7.1,  -4.1,  3.1,  -22.7,  -13.5,  -6.7,  -3.4,  0.3,  0.4,  -1.3

なんだか見にくいので、おのおの3頁での誤差をみると、

◆(1) Cold Mountain  PB, 挿絵なし  +2.3%
◆(2) The Blue Bedroom & Other Stories  PB, 挿絵なし  −4.3%
◆(3) The Sky is Falling  PB, 挿絵なし  −53.3%
◆(4) The Best Laid Plans  PB, 挿絵なし  −9.2%
◆(5) These Happy Golden Years  PB / 児童書, 挿絵あり  −3.1%
◆(6) Little House in the Big Woods  PB / 児童書, 挿絵あり  −1.9%
◆(7) Lily’s Crossing    児童書、挿絵なし  +1.0%
◆(8) Holes  児童書、挿絵なし  −33.8%
◆(9) Afternoon on the Amazon  児童書、挿絵あり  +5.2%
◆(10) Matilda    児童書、挿絵あり  −33.9%
◆(11) Two Lives   GR, 挿絵なし  −10.1%
◆(12) About a Boy    GR, 挿絵なし  −4.5%
◆(13) The Canterville Ghost  GR, 挿絵あり  +35.7%
◆(14) A Dubious Legacy    GR, 挿絵あり  +3.1%

これを見ると、どうも大当たりと大はずれに二分されるようです。
(1), (2), (5), (6), (7), (9), (12), (14)の8冊は5%台に収まり、
10%台までだと、これらに (4), (11)が加わり10冊になります。
一方、(3)−53.3%, (8)−33.8%, (10)−33.9%, (13) 35.7%の
4冊は大はずれです。

挿絵があるかないかは関係ないようですね。大きくはずれた
もの、(3)挿絵なし、(8)挿絵なし、(10)挿絵あり、(13)挿絵あり、
になっています。あたり(誤差5%台)も挿絵あり・なしはほぼ
半分ずつです。

それから、「最初の3頁」をすすめて、4頁、5頁…とすすんだら
どうなるか(上の最初の表にでているわけですが)、見やすく
してみると、

本	3頁	4頁	5頁
(1)	2.3	5.1	6.9
(2)	-4.3	-2.1	-1.2
(3)	-53.3	-37.3	-27.5
(4)	-9.2	-6.3	-3
(5)	-3.1	3.7	3.3
(6)	-1.9	4.7	8.5
(7)	1.0	7.8	8.6
(8)	-33.8	-30.7	-19.1
(9)	5.2	11.9	-5.3
(10)	-33.9	-15.0	-14.6
(11)	-10.1	-5.8	0.6
(12)	-4.5	-3.9	0.2
(13)	35.7	7.9	20.9
(14)	3.1	-22.7	-13.5

誤差が直線的に少なくなっている例は、(2), (3), (4), (8), (10), (11),
(12)の7例です。半分は誤差が改善しますが、残りの半分は誤差が少なく
なるわけではない、といえます。

また、全体として、大はずれという観点(誤差11%以上)からみると、
3頁4例、4頁5例、5頁5例と、誤差が少なくなるわけではない。

さて、総語数計算法という点からみると、この単純比例計算は
使えません。10対4、70%くらいはあたる(誤差10%台以内)とは
いえ、あらかじめその70%がどの本かわからなければ、一般的な方法
として使えないからです。

しかしまた、どうしてこんな簡単な計算でけっこう当たるのか、
というふうにも考えてみることはできます。

形式的なことをいえば、それは、サンプル部分(最初の3頁)の
語数が、本全体の、なんというか、「文字の散らばりぐあい」に
似ていた、ということになるでしょう。そうとしか言いようがない。

そこで、この「文字の散らばりぐあい」が、本をにらんで
みたら分かるものなのかどうか。この点を次回、考えてみたい
と思います。

長々と…読んでいただいてありがとうございます。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

[賛成] 821. Re: 総語数の計算(10)

お名前: 酒井@快読100万語!
投稿日: 2005/8/1(01:43)

------------------------------

〉長々と…読んでいただいてありがとうございます。

たむさん、最後まで読みましたよ。こちらこそありがとー!

でも、ちゃんとわかっているとは思えない。

でも、でも、たむさんのしてくださっていることはとっても
大事だし、楽しい!

たむさん、ありがとー!!
これからも飽くなき追求を!!!
(ちょっと脳天気な期待か?)


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

822. Re: 先生、こんばんは。

お名前: たむ
投稿日: 2005/8/1(21:13)

------------------------------

先生、こんばんは。たむ2です。

〉たむさん、最後まで読みましたよ。こちらこそありがとー!

お読みいただいて、ありがとうございます。

〉でも、ちゃんとわかっているとは思えない。

ごちゃごちゃしてますから。結論があって書いているわけでは
ないので、皆さん読みずらいことと思います。申し訳ないよう
な気分です。

〉でも、でも、たむさんのしてくださっていることはとっても
〉大事だし、楽しい!

ありがとうございまーす。

〉たむさん、ありがとー!!
〉これからも飽くなき追求を!!!
〉(ちょっと脳天気な期待か?)

えー、どうやってもダメという場合もありますので。

今度、新人セミナーに参加させていただきます。
楽しみにしています。よろしくお願いします。

では。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

[♪] 823. Re: 先生、こんばんは。

お名前: 酒井@快読100万語!
投稿日: 2005/8/1(21:50)

------------------------------

たむ2さん、こんばんは!

〉〉たむさん、ありがとー!!
〉〉これからも飽くなき追求を!!!
〉〉(ちょっと脳天気な期待か?)

〉えー、どうやってもダメという場合もありますので。

はい、そりゃそうだ。

〉今度、新人セミナーに参加させていただきます。
〉楽しみにしています。よろしくお願いします。

あ、それは知らなかった!
楽しみにしていますよー!!


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

826. 総語数の計算(11)

お名前: たむ
投稿日: 2005/8/2(17:19)

------------------------------

みなさん、こんにちは。たむ2です。

前回、単純比例計算を14冊の本に適用してみました。

3頁目での総語数誤差をみると、10対4で、あたりと
大はずれになるという結果がでました。

あたりのうち8冊は5%台以内、2冊が10%台以内
というものでした。

はずれの方は、53%とか35%とかの数字で、大はずれ
の感じです。中間の数字がないわけです。

10対4から、この単純比例計算も「けっこうあたる」と
言ってさしつかえないでしょう。また、誤差は均等に
散らばるのではなく、あたりと大はずれに二分される
現象がみられたわけです。

数字をどう眺めても、これ以上のことは出てきそうに
ありません。

そこで今回は、それぞれの本の内側に入り込んで、
文字の散らばりぐあいをにらんでみて、可能であれば
そのあたり・はずれのぐあいを探ってみようと思います。

◆(1) Cold Mountain
Number of words: 161,321  Amazon

この本は、436頁もある堂々たるPBで、総語数も
上の通りです。

最初の頁は、上の10行分が空白で、まんなかに章のタイトルが
あります。そのあとは、25行にわたってちいさい活字がぎっしり
詰まっています。

2頁目からは35行全面に活字が詰まって、23頁が1章の
終わりで、3行の空白があります。

もう見るからに比例計算向き!の本なのです。

語数を見ると、1頁から 289 / 409 / 437 / 420 / 423 / 352 /
382 / 400 / 401 / 396 たんたんと続いています。

したがって、誤差が −21.9 /−5.7 / 2.3 / 5.1 / 6.9 / 5.0 /
4.7 / 5.1 / 5.5 / 5.6となっているのもじゅうぶんうなずけます。

こういう典型的な本だと、3頁目で誤差最小の2.3%になって
いる点が注目です。

前に、「最初の」「3頁」のうち、「最初の」に多少意味が
あるかもしれない、と書きました。

この本では「3頁」にも意味があるわけですが、
「最初の」というのは、各頁の語数が小・大・大と
並ぶことが注目点です。(小とか大は感覚的な
ものです。)

つまり、小中大と並べば、平均は中となるでしょう
が、小大大の並びだと、平均は中より大目の語数に
なるでしょう。

たぶん、このことが単純比例計算をしたときに
「意外にあたる」理由なのではないでしょうか。

この「小大大の並び」を一つの仮説としておきます。


◆(2) The Blue Bedroom & Other Stories
  Number of words: 74,770  Amazon

この本は、頁数もすくなく(288)、(1)とは違った印象を
受けます。

語数は 178 / 291 / 276 / 272 / 266 / 262 / 305.5
279.5 / 235 / 270と並んでいるので、小大大の仮説
にあてはまるようです。

誤差は −31.4 /−9.7 /−4.3 /−2.1 /−1.2 /−0.8 /
1.8 / 2.6 / 1.2 / 1.5となります。

誤差は6頁が最小ですが、3頁でも5%以内です。
これも立派なあたり(妙な表現ですが)と思います。


◆(3) The Sky is Falling
  Number of words: 71,816  Amazon

この本は、私が語数計算にいれこむきっかけになった本で、
うらんでいいのか感謝すべきなのか、複雑な心境です。

語数の点からみると、この本はかなり特殊といえます。

お持ちの方も多いのではないかと思いますが、まず最初に
2頁のPrologueがあり、3頁から本文がはじまります。

Prologueをふくめた各頁の語数は 49 / 80 / 124 / 199.5 /
202 / 219.5 / 209 / 227 / 215 / 165と並び、はやくも波乱を
予感させます!(笑)小大大のパターンになっていないのです。

誤差も −73 /−64 /−53 /−37 /−28 /−19 /−14 /−9 /
−6 /−6と続き、まったくのはずれパターンです。つまり、
3頁で誤差−53%では、どうにもなりません。

しかし、唯一の希望(笑)は、誤差が直線的に下がり
続けていることです。

この本(の語数計算)には私もむきになってしまって、
73頁!まで計算してみました。(笑)

結果、たしかに誤差が少なくなります。15頁で誤差が0になり
ますが、そこまで誤差が下がりつづけます。その後、上下を
繰り返しますが、73頁まで誤差6%(正確には5.8%)を超える
ことはないのです。

このパターン、つまり頁数を増やせば十分実用になる数字が
えられること、と、小大大の仮説を考えあわせて、この本の
場合、最初の2頁がガンなのではないかと思いつきます。

そこで原則やぶりですが、最初の2頁を除外してみると、
語数 124 / 199.5 / 202 と並び、小大大のパターンが
確保されるようです。

3頁目までの累積語数は525.5となります。総頁398 
(これにはPrologueの2頁も含みます)で計算すると、
   予測総語数 = 525.5×(398 / 3) = 69716.3…
この誤差は、
   (69716 / 71816)×100 = 97.07… となり
    97.1−100 = −2.9 (%)
となるのです!! 

これはたしかに「最初の3頁」の原則をやぶるもの
ですが、しかし、じっとにらんでみると文字の構成
から考えてなっとくできる「やぶり方」と思うのです
が、どうでしょう。


◆(4) The Best Laid Plans
  Number of words: 69,066  Amazon

この本の著者はSidney Sheldonで(3)と同じです。
この本を入れてみたのは、同じ著者だと同じパターン
がみられるかと思ったのです。

しかし、この本にはPrologueの部分はありません。

語数は 77 / 194 / 235 / 190 / 204 / 212 / 220 /
208 / 203 / 223とつづきます。これは、小大大の
パターンでしょうか?ちょっと違うように思われます。

小中大は感覚的に、と申しましたが、どうもはっきり
定義しなければならないようです。

そこで次のように考えて見ます。

この本の総語数は69066、総頁数は372です。
したがって1頁には平均 69066 / 372 = 185.66…
186の単語があるということになります。

これは平均ですから、大中小の「中」の真ん中と
すると、小(0〜124)、中(125〜248)、大(249〜
372)という計算ができます。

これで、上の3頁までをみてみると、小中中という
並びになります。どうも小大大の並びとはいえない
ようです。

また、この本の最初の10頁には、「大」にはいる語数の
頁はないようです。つまり、本のはじめのあたりでは
語数がうすいんですね。

そこで、誤差は −58.5 /−27.0 /−9.2 /−6.3 /−3.0 /
−0.2 / 2.5 / 3.7 / 4.3 / 5.9となります。3頁の誤差は
−9.2%で10%以内ではあります。

なんとなく不満(5%台じゃない!)ですが、これはどう
しようもない。はじめの部分をはずしても小大大の
並びにはならないし、そもそもその理由がみつからない
わけです。

あえて前向きにいえば、単純比例計算で10%以内に
収まったと言えます。

つくづくSheldonさんは鬼門です。もちろん、語数計算に
とって…ですが。

今日はここまでにします。
毎度おなじ言い訳で恐縮ですが、長くなりました。
読んでいただいてありがとうございます。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

827. 総語数の計算(11) 訂正

お名前: たむ
投稿日: 2005/8/3(09:41)

------------------------------

前回の投稿の、「大中小」の議論の部分ですが、
あらためて読みなおしてみて、自分自身がよく
わからないという、まことにお恥ずかしい事態に
なりました。

まず、「小中大」では、平均が「中」になるが、「小大大」
なら、平均は「中」より上になる、と書きました。その通り
ですが、どうして「中より上」がいいのか、読み直してみて
まったく理由がわかりません。(「中」のほうがいいと思え
ます。)

また、「小中大」を、語数0を最小、平均値を真ん中として
計算でそれぞれの範囲を出しましたが、これもおかしい。

頁の語数の大小中は、計算できまることではなく、統計を
とってきめることです。

以上のことから、大中小の議論をすべて撤回いたします。

かわりに次のように考えてみました。(今度はだいじょうぶ
かと(笑))。

どの本でもよいのですが、たとえば (4) The Best Laid Plans
の総語数は69,066、総頁数は372でした。これから、1頁の
平均語数は186となります。

「最初の3頁」というのは単純比例計算の前提ですから、3頁を
考えて見ますと、186×3 = 558となり、どういう3頁をとろうが
この語数に近くなれば誤差はすくなくなるはずです。

これは仮説ではなく、計算上の事実です。次回からはこれを
使って考えることにします。

根拠のない議論を展開してもうしわけありませんでした。
日本語の本を読んでいて、よく、どうしてそういえる訳?
などとツッコミを入れることがありますが、自分の書いた
ものが自分にわからないということもあるのだなーと
感じた次第です。

では。

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

844. 総語数の計算(12)

お名前: たむ
投稿日: 2005/9/1(21:34)

------------------------------

みなさん、こんばんは。残暑はまだまだきびしいですね。
暑気を避けておりましたが、毎度暑苦しい話題で恐縮です。

(続き)
◆(5) These Happy Golden Years
  総語数: 64,113  Amazon

この本は、「挿絵のあるPBスタイルの本」ということで
選んでみました。

挿絵が入ると総語数計算に影響するのではと予想したのですが、
しかし、中を見てみると、挿絵はあまり多いわけではありません。
10頁までには、語数計算に影響しそうな挿絵はありませんでした。

語数は 129 / 254 / 262 / 275 / 226 / 272 / 229 /
252 / 280 / 195 と並びます。

1頁の平均文字数は、64113÷289 = 221.8…
3頁では222×3 = 666 になります。
はじめの3頁で誤差±5% におさまるためには
3頁の語数が 633〜699語であればよいことになります。

実際の数は129+254+262 = 645ですから、
5% 以内に収まることがわかります。

誤差は −41.9 /−13.7 /−3.1 / 3.7 / 3.3 / 6.5 /
7.0 / 9.1 / 7.0 となります。

3頁の誤差が−3.1%で、これはあたりに入ります。
この本でも最初の3頁で誤差が最小という結果に
なっています。

◆(6) Little House in the Big Woods
  総語数: 34,442  Amazon

この本も(5)と著者が同じです。別の著者のものを
選びたかったのですが、挿絵のあるPBというのは
これしか手持がありませんでした。

この本は、前のThese Happyよりは挿絵が多いよう
ですが、それでも語数計算に影響しそうなほどでは
ありません。

語数は 79 / 185 / 162 / 180 / 179 / 193 / 164 / 29 /
88 / 180 と並び、語数のすくない8頁、9頁には挿絵が
あります。

誤差は −45.4 /−8.8 /−1.9 / 4.7 / 8.5 / 12.6 / 12.7 /
1.1 /−3.3 /−0.6 となります。

3頁の誤差は−1.9% です。
この本も、最初の3頁で誤差が小さい現象がみられます。

◆(7) Lily’s Crossing
  総語数: 36,304  Amazon

この本の1頁目は章のタイトルで、下のほうに本文が
9行あります。2,3頁からは全体に文字がつまっています。
こういう本は単純比例計算があたります。

語数は 86 / 261 / 264 / 259 / 225 / 173 / 89 / 259 /
243 / 249 で、誤差は−57.4 /−14.0 / 1.0 / 7.8 / 8.6 /
4.8 /−3.9 / 0.2 / 4.5になります。

3頁誤差1.0%で、あたりです。
やはり、3頁目の誤差が少なくなっています。

◆(8) Holes
  総語数:46,554  Amazon

1頁は「Part One You are entering Camp Green Lake」
のタイトルだけ、2頁は空白頁で、3頁から本文が始まります。

3頁は章のはじまりで、本文は16行だけです。そして、次の
4頁ではもうこの章は終わりで、頁の下に余白があります。

この本の場合、1頁から数えても意味がないでしょう。
3頁からの語数は 158 / 147 / 95 / 159 / 256 / 248 /
266 / 173 / 155 / 281 となっています。

こういう調子ですから、誤差も−21.6 /−24.3 /−33.8 /
−30.7 /−19.1 /−12.1 /−5.8 /−6.8 /−8.6 /−3.8と
なり、3頁誤差は−33.8%と大はずれです。

そこで、前にThe Sky is Fallingに適用した方法を
準用して、次のようにしてみます。

最初の数頁をパラパラめくって、語数の少なそうな頁を
探します。5頁95語が少なそうです。次の6頁はタイトル
がありますので除外して、7頁(256語)8頁(248語)は
全部の行がつまっていそうです。この、5・7・8の3頁の
語数を足すと599語になります。

これで単純比例計算すると 599×(231 / 3) = 46123
となります。この誤差は (46123 / 46554)×100 = 
99.07…で、−0.9%となります。

◆(9) Afternoon on the Amazon
  総語数:4,969  Amazon

Magic Tree House #6のこの本は挿絵が
たくさんあります。それで各頁の語数もばらばらに
なっています。

最初の10頁の語数は 78 / 99 / 57 / 98 / 19 / 105 / 61 /
97 / 100 / 0 となっており、それぞれ誤差は 5.2 / 19.3 /
5.2 / 11.9 /−5.3 / 2.5 /−0.4 / 3.5 / 7.0 /−3.7となります。

最初の3頁の誤差は5.2%ですが、4頁では11.9% になり
あたり(5%台)とは言え、ちょっと薄氷を踏むようなあたりです。

最初の10頁から、語数の少ない5頁、語数の多そうな4、6頁を
取りあげてみると、19+98+105 = 222(語)になります。これで
単純計算をすると、222×(67 / 3) = 5106(語)となります。
この誤差は (5106 / 4969)×100 = 102.75…となりますから
+2.8 %になります。

◆(10) Matilda
  総語数:39,919  Amazon

本をのぞいてみると、これは語数計算がむずかしそうです。
挿絵が自由自在に入っています。たての挿絵(たてに挿絵が
入って、絵の横に文字がある)もあります。

各頁の文字数は 98 / 131 / 112 / 244 / 150 / 174 / 234 /
0 / 250 / 239となります。

誤差は −43.0 /−33.5 /−33.9 /−15.0 /−14.6 /−12.0 /
−5.1 /−17.0 /−10.0 /−5.2となります。

3頁誤差は−33.9 %で、大はずれです。

語数の少なそうな1頁、多そうな4頁、7頁をとってみると
98+244+234 = 576(語)、単純計算で 576×(232 / 3) =
44544(語)、これの誤差は (44544 / 39919)×100 = 111.58…
で、+11.6%ということになります。

◆(11) Two Lives
  総語数:14,358  出版社

CER level 3のこの本は、挿絵はなく、各頁に単語が詰まって
いるように見えます。語数計算しやすい本ではないかと予想して
おきます。

ただし、この本は5頁までは総語数に関係ない頁がつづきます。
また、6頁はPrologueで、手紙が載っています。

6頁を最初の頁として、語数を並べると、
159 / 189 / 308 / 261 / 307 / 118 / 242 / 276 / 237 / 267
となります。

誤差は −34.7 /−28.5 /−10.1 /−5.8 / 0.6 /−8.1 /−7.0 /
−4.5 /−4.3 /−2.9となり、3頁誤差は−10.1%ということで
ちょっと不満が残ります(笑)。

Prologueの6頁をのぞいて、7頁を最初の頁として計算すると、
189+308+261 = 758、予想総語数は 758×(59 / 3) = 14907
となります。この誤差は (14907 / 14358)×100 = 103.82…と
なりますから、誤差は3.8%になります。

◆(12) About a Boy
  総語数:21,316  出版社

PGR level 4のこの本はPBの小型版という趣で、章の区分も
流し込みになっています。つまり、章のはじめが新しい頁で
はじまるのではなく、前の章の終わった同じ頁で新しい章が
はじまります。

各頁の語数は 299 / 302 / 271 / 298 / 355 / 300 / 343 / 311 /
343 / 307、誤差は −1.8 /−1.3 /−4.5 /−3.9 / 0.2 /−0.1 /
1.7 / 1.8 / 3.0 / 2.8となります。3頁誤差は−4.5 %です。

◆(13) The Canterville Ghost
  総語数:5,504  出版社

これは挿絵の多い本で、2〜3頁に一つは挿絵が入っています。
1頁大の挿絵も多い。

語数は 84 / 229 / 247 / 34 / 238 / 103 / 78 / 164 / 78 / 164 /
115 / 249と並び、誤差は −39.0 / 13.7 / 35.7 / 7.9 / 20.9 /
13.3 / 5.2 / 6.9 / 4.3 / 12.0になります。

3頁誤差は35.7%で、まったく実用にならない数字です。

また文字の並び方をみて頁を選ぼうとしても、基準がみつかり
ません。どうしようもありません。

◆(14) A Dubious Legacy
  総語数:15,643  出版社

この本も挿絵はあるのですが、ぱらぱらめくってみると
それほど多くはないようです。

語数は 199 / 212 / 252 / 0 / 264 / 273 / 249 / 270 /
217 / 178で、誤差は −7.1 /−4.1 / 3.1 /−22.7 /−13.5 /
−6.7 /−3.4 / 0.3 / 0.4 /−1.3になります。

3頁誤差は3.1%です。ここでも3頁目で誤差が少なくなる
現象が出ています。

以上、ほんとうに長くなってしまいました。

それでは皆様も 
Happy Reading で
いきまっしょい!!

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

[賛成] 845. Re: 総語数の計算(12)

お名前: 酒井@快読100万語!
投稿日: 2005/9/1(23:19)

------------------------------

たむさん、こんばんは!
酒井@快読100万語!です。

新人セミナーではどうもありがとうございました!
録音のことも、ありがとうございました!!

〉みなさん、こんばんは。残暑はまだまだきびしいですね。
〉暑気を避けておりましたが、毎度暑苦しい話題で恐縮です。

とんでもない!
みなさん、たむさんのご貢献はよくわかっていると思います。
長いご報告をすべて読みました。

で、いちばんショックだったのはMatildaがなかなか手強かった
らしいことです。

また、GRは挿絵が結構多いので、総語数推定がむずかしいの
かなと思いました。つまり、3ページ目で誤差が少なくなる本と、
少なくならない本を見分ける方法があれば、かなりの数の本で
語数推定が非常に楽になるのですよね?

これからもぜひぜひいろいろ試して下さい。
楽しみにしています。

ところで、多読学会にはいらっしゃるのかな?
いらっしゃったら、英語教育についていろいろお話ししたいです。

〉それでは皆様も 
〉Happy Reading で
〉いきまっしょい!!

はい、そうしまっしょい!!!


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

846. Re: 先生、こんにちは

お名前: たむ
投稿日: 2005/9/2(15:56)

------------------------------

〉たむさん、こんばんは!
〉酒井@快読100万語!です。

先生、こんにちは!

〉新人セミナーではどうもありがとうございました!
〉録音のことも、ありがとうございました!!

新人セミナーではたのしいお話、ありがとうございました。
やはり肉声でお話をきくと、本で読むのとは違った感想を
もちました。先生が徹頭徹尾生徒さん学生さん中心に考え
られている姿勢に感銘を受けました。

録音はお役に立てたか心配です。もっと近くにもっていけば
よかったですね。講演を録音したことがなかったもので。
それと最近わかったんですが、添付ファイルにプレーヤを
つけて送る方法もあったようです。

〉〉みなさん、こんばんは。残暑はまだまだきびしいですね。
〉〉暑気を避けておりましたが、毎度暑苦しい話題で恐縮です。

〉とんでもない!
〉みなさん、たむさんのご貢献はよくわかっていると思います。
〉長いご報告をすべて読みました。

ありがとうございます。でも99%、自分の興味にしたがって
やっています。なんか成果といえるものが出るといいのですが。

〉で、いちばんショックだったのはMatildaがなかなか手強かった
〉らしいことです。

〉また、GRは挿絵が結構多いので、総語数推定がむずかしいの
〉かなと思いました。つまり、3ページ目で誤差が少なくなる本と、
〉少なくならない本を見分ける方法があれば、かなりの数の本で
〉語数推定が非常に楽になるのですよね?

そうなんです、Matildaともう一冊のGRが、中から見てみようと
してもうまくいきません。挿絵が問題ですが、すべてというわけ
でもなくて、入り方に問題があるようです。

〉これからもぜひぜひいろいろ試して下さい。
〉楽しみにしています。

はい、暇にまかせて進んでみます。

〉ところで、多読学会にはいらっしゃるのかな?
〉いらっしゃったら、英語教育についていろいろお話ししたいです。

今度の多読学会には用事があり参加できないんです。残念です。
9月末から多読教室を始めますので、少し経験を積んでまた
皆さんのお話を聞こうと思います。

SEG Bookshopの岡田さんにいろいろ説明していただいて、いま
本を選んでいる段階です。

現在の英語教育については、皆さんもちょっと言及されるようですが、
なかなか本音のところが聞けないなという感じを受けました。私など
よい対案のないまま、ともかく訳すのがダメと言い続けてきたんです
が。これはつまり学校教育はダメと言っているのと同じです。

先生の「多読」に出会って、私たち日本人に必要なのは、こういう
ことで、音の訓練は必要な人がやる、という方法しかないように
思っていました。でも、音の訓練のほうが先かなーと思ったり、
教室ではできないのでは、と思ったり。

自分の現状を考えてみると杉山先生がアメリカで感じられた
ショックがわかるような気がします。そんなこんなで、まず
「英語の先生」がほんとーに謙虚にならないとどうにも
ならないだろーなーという感じでいます。

先生、「仮説教育研究会」(だったかな?)はご存知ですか。
「たのしい授業」という雑誌を出していますが、SSS多読と
相通じる姿勢があります。楽観的で、評価はしない、興味を
中心にする姿勢です。とかく悲観的で破壊的になりがちな
私にはおおいに…という感じです。はなしがそれました。

〉〉それでは皆様も 
〉〉Happy Reading で
〉〉いきまっしょい!!

〉はい、そうしまっしょい!!!

はい、いきまっしょい!!

上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

847. 総語数の計算(13)

お名前: たむ
投稿日: 2005/9/3(16:31)

------------------------------

以上の結果をまとめてみると、次のようになります。
◆(1) Cold Mountain  2.3 %
◆(2) The Blue Bedroom & Other Stories  −4.3 %
◆(3) The Sky is Falling  −53 % / −2.9 %
◆(4) The Best Laid Plans  −9.2 % / −3.9 %
◆(5) These Happy Golden Years  −3.1 %
◆(6) Little House in the Big Woods  −1.9 %
◆(7) Lily’s Crossing  1.0 %
◆(8) Holes  −33.8 % / −0.9 %
◆(9) Afternoon on the Amazon  5.2 % / 2.8 %
◆(10) Matilda  −33.9 % / 11.6 %
◆(11) Two Lives  −10.1 % / 3.8 %
◆(12) About a Boy  −4.5 %
◆(13) The Canterville Ghost  35.7 %
◆(14) A Dubious Legacy  3.1 %

これは単純比例計算による誤差で、誤差の二つ目は
「変形」単純比例計算によるものです。

こうして変形版の計算法のものまでふくめると、14冊のうち
12冊までが誤差5%以内におさまっていることになります。
これは14冊の86%にあたります。

「変形」単純比例計算とはどういうものだったか。もう一度
一つひとつみていきます。

本の本文のはじめの部分で、文字や行の並び方がどうなるか
をイメージしてみると、頁の上のほうに章の番号やタイトルが
あり、その下に本文の行が始まる、次の頁では頁いっぱいに
文字がつまっている…。これを「標準」としてみましょう。

すると、この ◆(3) The Sky is Fallingは標準からはずれて
いるところがあります。まず、最初の2頁がPrologueで、しかも
2頁目は途中で行が終わっている。2頁目は、文字のある部分は
少なく、空白のほうが多いくらいです。

そこで、単純比例計算の1頁目をpage 1としないで、page 3に
ずらし、3、4、5頁をサンプル部分としたわけです。これで−2.9 %
の誤差が得られたのでした。

◆(4) The Best Laid Plansについては、「総語数の計算(11)」
の投稿では、単純比例計算だけで−9.2 %の結果を得ました。

この本の第1頁は「標準」的にはじまるのですが、第1、2頁で
パラグラフの区切りが空白行になっています。その分、文字数は
少なくなっています。ところが、第3頁にはまったく空白行はなく、
べたに行が詰まっています。

そこで、サンプル部分として選ぶ1頁目をpage 1としますが、
これは文字数がかなり少ない。そこで、2頁目、3頁目として
は、空白行のない文字のつまった頁、page 3, page 10を
選んでみます。

サンプル部分は77+235+223 = 535
比例計算は 535×(372 / 3) = 66340
誤差は (66340 / 69066)×100 = 96.05 …
96.1−100= −3.9 (%)

こうして誤差5%以内の数字が得られたのですが、
しかし、この本については「微妙」なところがあります。
総語数をこれから計算しようとしてこの本をぱらぱら
めくってみたとき、単純比例計算で最初の3頁を
サンプル部分とするのではおかしい、誤差が大きくなる
と、思えるかどうか、です。

私自身、最初の単純計算で−9.2%の数字が出てきた
とき、うーんもうすこし何とかならないか、と思ったことを
告白しておきます(笑)。また、サンプル部分の1頁目を
みて、これは文字数が極端に少ないので、2頁目、3頁目
としては文字のぎっしり詰まった頁を選ぼう、と考えつくか
どうかも微妙なところです。

さて、ここまでで、「変形単純比例計算」の「変形」のしかた
は二つになりました。◆(3) The Sky is Fallingの場合は、
最初の2頁をはずして、サンプル部分として選ぶ最初の3頁
を、pp. 3, 4, 5としたのでした。つまり、「ずらし」技法とでも
いいましょうか。それに対し、この◆(4) The Best Laid Plans
では、サンプル部分をpp.1, 3, 10とピックアップしたわけです。
「ピックアップ」技法と命名します。

◆(8) Holesですが、これも「変形」のほうを選ぶことに問題は
ないと思います。頁ごとに文字数がばらばらに見えるからです。
最初のほうのpp.5, 7, 8を「ピックアップ」して誤差−0.9 % でした。

つぎは◆(9) Afternoon on the Amazonです。これは一見して
語数計算がむずかしい本とわかります。全体に挿絵が多く、文字も
すきすきの感じです。そこで、文字の少なそうなp.5と、文字の多そう
なpp.4, 6をサンプル部分として選んで2.8 %の誤差を得ました。

◆(10) Matildaは挿絵が生き生きと使われています。語数計算の
点ではやりにくい本です。最初の10頁のうちに、挿絵が9枚もあり、
文字だけの頁は3頁だけです。

ここで「ピックアップ」を使って、pp. 1, 7, 9を選んで
98+234+250 = 582
582×(232 / 3) = 45008
(45008 / 39919)×100 = 112.74 …
112.7−100 = −12.7 (%)

この本は挿絵がふんだんに使われている上に、
挿絵の大きさも自由自在です。前の述べたとおり
誤差も−43.0 /−33.5 /−33.9 /−15.0 /−14.6 /
−12.0 /−5.1 /−17.0 /−10.0 /−5.2とまったく
安定しません。

変形比例計算法もお手上げです。最初の10頁に
挿絵が9枚ある点に注目しておきます。

◆(11) Two Livesは、単純比例計算では−10.1%
の誤差でしたが、本文がはじまる最初の6頁は
Prologueです。これを避けて、7頁からの3頁を
サンプルに取ると誤差3.8 % が得られます。
これは「ずらし」技法になります。

◆(13) The Canterville Ghostも挿絵が多い、
しかもかなり大き目の挿絵が最初の10頁に
5枚あります。

この本もどうも比例計算には向かないようです。
誤差も10頁まで、安定していません。

以上、変形比例計算法の実際をみてきました。
これは二つの技法「ずらし」と「ピックアップ」が
ありました。

最初にPrologueや手紙などがある場合には「ずらし」技法を
使います。(例:◆(3) The Sky is Falling、◆(11) Two Lives)
それ以外の場合には、文字の並び方(多さ、少なさ)をみて、
文字の少なそうな頁、文字の多そうな頁2つを選ぶ「ピックアップ」
技法で、3頁のサンプル部分を選びます。

さて、この変形比例計算をもってしても攻略できない
◆(10) Matilda、◆(13) The Canterville Ghostが
ありました。これは挿絵が多い(挿絵がある、ではなくて)
という特徴がありました。最初の10頁のうち、◆(10)は
9枚、◆(13)では5枚ありました。

さて、以上から長々と続けてきました「単純比例計算法」と
その変形版についてまとめることができるようです。

一冊の本を前にしてその総語数を計算しようと
するとき、まず最初の10頁をはらはらめくり、挿絵が
あるかどうか確かめます。挿絵がある場合、その数を
数え、4枚以下であればよし、5枚以上の場合は除外して
しまいます。つまり、この計算法は使えないとあきらめます。

次に、本文の文字の並び方を見ます。始まりが文字数小、
次の頁、その次の頁に文字がいっぱい詰まっている場合は
単純比例計算を使います。
 (3頁の累計語数)×(本文頁数÷3)

最初の頁の始まり方が上のようではなく、最初にPrologueが
あったり、手紙などが置いてある場合は、これをパスして、本文が
始まるところからの3頁をサンプル部分とします。

さらに上記のやり方にあてはまらないが、どうも最初の10頁の
語数がばらばらだと思える場合は、「ピックアップ」技法が適当です。
最初の10頁のなかから、語数の少なそうな頁、多そうな頁を2頁
選び、これをサンプル部分とするのです。

以上で誤差5% 以内で総語数が計算できます!!

補足する点をいくつか。
上で「語数の少なそうな」とか「語数の多そうな」とかの表現を
使って、「語数が中くらいの」という表現は使いませんでした。
「中くらい」とか「標準的」とかの表現は、考え始めるとどうにも
むずかしくなるからです。

さらに、全体に、私が単純比例計算法に必要以上に
こだわっている印象をもたれた方もおられるかと思います。
しかしこれは、次の理由があるからなのです。

これ以外の総語数計算法はすべて「補正」の部分が
ありますが、これをきちんとやろうとするとかなり大変
なことが予想されるのです。つまり、補正なしのこの
単純法の適用範囲をなるべく拡大しておけば、実際の
語数計算はかなり楽になるのではと思っています。

実際のところ、この単純比例計算法+変形版で、PBの
全部、児童書とGRのうち、挿絵の多くない(最初の10頁
で4枚以下)はすべて5% 以下の誤差で計算できると
思われます。もちろん、話しはすべて取り上げた14冊での
ことですから、仮説的要素がかなり強いことはいなめません。
バラエティの点では、絵本 manga以外の本は取り上げ
ましたが、14冊はやはり少ないのかもしれません。

以上で、投稿「総語数の計算(8)」からつづいてきた話しを
終わります。次は、別の語数計算法をとりあげます。

長々と読んでいただき、ありがとうございます。
それでは皆様も
Happy Reading で、いきまっしょい。

タイトル一覧へ(返答順)(B)

タイトル一覧へ(日付順)


Maintenance: SSS 事務局
KINOBOARDS/1.0 R7.3: Copyright © 1995-2000 NAKAMURA, Hiroshi.