OCRを使って1ページあたりの語数をカウント

[掲示板: 〈過去ログ〉YL・語数・書評システム情報 -- 最新メッセージID: 1253 // 時刻: 2024/4/27(02:03)]

管理用 HELP LOGIN    :    :


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

795. OCRを使って1ページあたりの語数をカウント

お名前: momiji
投稿日: 2005/6/23(12:12)

------------------------------

総語数の計算方法でもりあがってるみたいですね。
みなさんの行っている方法とは少し毛色を変えた方法として、
スキャナとOCRソフトを使うっていうのはどうでしょうか?
道具(スキャナとOCRソフト)がいるので、だれでもできるって
わけではなのが弱点ですが。。。
ただ、最近スキャナもセットになった複合プリンタが安価に
でまわるようになったので、意外とお持ちの方も多いかもしれません。
スキャナを買うとたいていOCRソフトも付属してますしね。

たとえば
1. あるページをスキャナで読み取る
2. OCRソフトにかけて画像→文字に変換(英語認識モードにするのがミソ)
3. 語数をソフト(Wordなど)でカウントする

とすれば、1ページあたりの語数を簡単に割り出すことができます。
最近のOCRソフトはだいぶかしこくなっているので、
誤認識率も低くなってますし、単語を数える用途としては
かなり正確に数えられると思います。

たとえば、手元のスキャナとOCRソフトでやってみますと

Dante's Peak(PGR2)
p.06 | OCR:338語 | 手カウント:329語 | 誤差:2.7%
p.08 | OCR:262語 | 手カウント:266語 | 誤差:1.5%
p.14 | OCR:289語 | 手カウント:290語 | 誤差:0.3%
p.22 | OCR:279語 | 手カウント:281語 | 誤差:0.7%

とこんなかんじで、OCRソフトでかなり正確に語数が
割り出せているのがわかりますね。

この1ページあたりの語数を利用して
一冊あたりの総語数を計算できるかもと思い提案してみました。

あとは、何ページ数えればよいのかとか、
語数が多そうなページ3ページと少なそうなめページを3ページとって
その平均をとって、ページ数をかけるのがいいのか?
それともランダムに10ページほど数えれば大丈夫かも?などなど、
考察できそうなポイントはいろいろあるとはおもいますけど、
各ページがほぼ正確に数えられることがわかったので、
報告しておきます。

それでは。


▼返答


Maintenance: SSS 事務局
KINOBOARDS/1.0 R7.3: Copyright © 1995-2000 NAKAMURA, Hiroshi.