« 最近のホビージャパンはでかかった | トップページ | バンダイ純正ジムスナイパー2が出た! »

2010年9月 4日 (土)

ES-D200でOCRを使ったレビュー

レビューというより自分用のメモ書き。
人が書いたOCR術などを読んでしまうと先入観ができてしまうので、自分で実験してから読もうと思う。

ES-D200には3種類のOCRがある(らしい)。
1.ADBE Acrobat
2.読んde!!ココ
3.EPSON Event Manager

3はスキャンとOCRを同時にやるみたいなのでパス。スキャンはスキャン、OCRはOCRと分けて作業したいので。
将来OCRの性能があがるだろうから、原画のJPEGファイルはとっておく予定。

まず、原画の作成・・・スキャン設定をどうするか検証する。
スキャン設定としては
1.解像度・・・300dpi, 600dpi
2.色数・・・グレイスケール、モノクロ
3.画質補正・・・なし、輪郭シャープ

と8通りある。
OCR保存したいのはソースファイルなどがのっているコンピューター雑誌なので、雑誌のとある1ページを使って試す。

まずACROBATを使って600dpiでのOCR結果の比較をしてみる。
日本語はどれもほぼ完ぺきな認識。問題なし。
ソースコード部分は、グレイ補正なしのほうがいい感じ。 グレイ・シャープのほうが誤認識が多い。
モノクロは論外。ソース部分がグレイのバック時黒で文字が書いてあり、まったく認識されていなかった。

次に600dpiと300dpiを比較。モノクロは論外なのでグレイの補正なしで比較。

大見出しは600dpiでは文字として認識されなかった(大きすぎ?)が、300dpiは認識されていいた。

ソースコードの認識は、
600dpi
> CTweetOverlayltem.javal
> public class TweetOverlayItem extends OverlayItem {
> Tweet tweet;
> pub lic TweetOverlayItem(GeoPoint point,
> String title,
> St ring snippet,
> Tweet tweet) {

300dpi
> (TweetOverlayltem.java)
> pUblic class TweetOverlayItem extends OverlayItem {
> Tweet tweet;
> public TweetOverlayItem(GeoPoint point,
> 5t ring ti tle,
> 5t ring snippet,
> Tweet tweet) {

600dpiは左かっこがCになっている箇所がかなりある(ほとんど)。しかし300dpiの「String」を「5tring」と認識しているのはちょっとまずい。
しかし600dpiのほうもほどほどに誤認識があるので誤差と考えると、画像サイズ的に300dpiのほうがいい?

300dpi ・・・ 1.2MB。600dpi ・・・ 3.7MB。

次に読んde!!ココ。
300dpiグレイスケール補正なし
日本語は問題なし。▼や■という記号をちゃんと認識している。タイトル・サブタイトルという大きい文字も認識。
ソースコードは・・・・
> (TweetOverlayltemjava)
> P〕blic ctaSS TweetOvertayItemext即ds Overlay夏teml
> Tweet tweet;
> pubticTweetOverlayItem(GeoPointpoint.
> Stri咽titte.
> String snlPPet,
> Tweet軸eet)‡
> SUPer(POint.titte.Snippet);
> this.tweet=tWeet;
> ナ
> ナ
ボロボロ・・・。補正ありも同じ。モノクロ補正なしは文字として認識はしていたが同じくボロボロ。

次に600dpiグレイスケール補正なし。
日本語は問題なし。

> (1両eetOverlayltemJava)
> publicclassTweetOvertayItemextendsOverlayItemt
> Tweet tweet;
> pubucTweetOverlay工tem(GeoPo土ntpolnt
> String titte,
> String snlPPet
> Tweet tweet)t
> super(POint,titte,Snippet);
> this.tweet=tWeet;
> )
> )
かなり良い。"}"が")"となるのはいまいちだけど、検索には使わないのでOK。大文字・小文字も検索には関係ないのでOK。
グレイスケール補正ありはボロボロ。モノクロは認識すらされなかった。

使い勝手はAcrobatのほうがいい。
Actobatのほうは、600dpiも300dpiも結果はあまり変わらないので小さいほうがいい。

結論
1.色調はグレースケール
2.輪郭補正はなし
3.OCRはAcrobat
4.サイズは300dpiで十分

300dpi グレイスケール補正なし画像はこちら

Ocr300dpigray


|

« 最近のホビージャパンはでかかった | トップページ | バンダイ純正ジムスナイパー2が出た! »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: ES-D200でOCRを使ったレビュー:

» Twitter Trackbacks []
[続きを読む]

受信: 2010年9月 4日 (土) 16時45分

» ソニーのReaderを使い始めた [ガンダムコレクション改造日記]
最近、いろいろな端末を試していて、新しく出たソニーのRead [続きを読む]

受信: 2011年1月22日 (土) 20時39分

« 最近のホビージャパンはでかかった | トップページ | バンダイ純正ジムスナイパー2が出た! »