Chrome拡張機能
Kindle本を
日本語OCRで
テキストに変換
国立国会図書館が開発したOCRエンジンを搭載。
Kindle Cloud Readerの本を高精度に読み取り、
PDF・テキスト・画像としてエクスポートします。
~1秒
ページあたりの処理速度
日英対応
活字・縦書き・横書き
GPU不要
CPU のみで高速動作
特徴
日本語の本に最適化された、高精度なテキスト抽出
国立国会図書館レベルの日本語OCR
国立国会図書館が開発・公開した NDLOCR-Lite を採用。 大量のデジタルアーカイブで実証された高精度な文字認識技術で、 活字の日本語・英語を正確にテキスト化します。
レイアウト検出(DEIMv2)
読み順決定(XY-Cut)
文字認識(PARSeq 3段カスケード)
約1秒/ページの高速処理
GPUを使わずCPUのみで動作。特別なハードウェアなしで、1ページあたり約1秒の高速OCR処理を実現。
見開き自動分割
ブラウザの見開き表示を自動検出し、左右ページを正確に分割。ページ順を維持したまま処理します。
一括エクスポート
テキスト・PDF・画像をZIPにまとめてダウンロード。用途に合わせたフォーマットで出力できます。
自動ページ送り
ボタンひとつで全ページを自動キャプチャ。途中で中断・再開しても処理済みページはスキップします。
OCR認識デモ
Kindleページ画像
吾輩は猫である。名前はまだ無い。
どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
→
OCR出力テキスト
吾輩は猫である。名前はまだ無い。
どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
使い方
3ステップでKindle本をテキストに
1
本を開く
Kindle Cloud Reader で
エクスポートしたい本を開きます
2
キャプチャ開始
BookHaloのボタンを押すと
自動でページ送り&OCR処理
3
ZIPダウンロード
処理完了後、テキスト・PDF・画像を
まとめてダウンロード
技術基盤
信頼性の高いOCRパイプライン
NDLOCR-Lite
国立国会図書館が数百万点のデジタルアーカイブ構築で培ったOCR技術を、 軽量・高速に再設計したオープンソースエンジン。 CC BY 4.0 ライセンスで公開されています。
レイアウト検出
DEIMv2 でテキスト領域を認識
読み順決定
XY-Cut アルゴリズムで正しい順序を推定
文字認識
PARSeq 3段カスケードで高精度に認識