Kindle本をテキスト化

17/10/17


 

アマゾンの Kindle本からのコピペは可能だが、制限文字数があるらしい。
ならば SnapNDrag Pro で画面をキャプチャして JPEG で書き出し、OCR にかけてテキスト化できるかどうかという実験。

SnapNDrag Pro で、文章の部分だけをキャプチャ。

JPEGファイルとして保存。
(ちなみに黄色い部分は Kindle のマーカー機能。iPhone版でも操作できる。)

さて、OCR とは何の関係もなさそうだが、無料で15GB利用できる Google のオンラインストレージ「Googleドライブ」というものがある。
開始にあたって「Google のバックアップと同期」アプリをダウンロード

「Google のバックアップと同期」

バックアップが目的ではないので、フォルダはどれも選択しないでおく。

マイドライブを開く。

さきほどの JPEGファイルをドロップし、アップロード。

アップロード完了。

アップロードしたファイルを右クリック > アプリで開く > Google ドキュメントを選択。

変換中・・・

変換が終了すると、1ページ目にオリジナル画像、2ページ目(下)にテキストが表示される。

テキストをコピーし、iText Express にペースト。

縦書きが横書きになっているのはすばらしいが、ふりがなが別の行になったり、改行部分が空白になったり、またけっこうな誤字も含まれているのが残念。Kindle を見ながら修正しよう。

なんと、できました。

Google ドキュメントというアプリについてはまだほとんどわかっていないが、とにかくこのように画像内の文字をテキストとして抽出する機能があるということで、今回は試してみた次第。

なお、ウェブ上の Google ドライブにアクセスするには、Google にブックマークしておくか、メニューバーの「バックアップと同期」アイコンからアクセスすれば Google も一緒に起動する。