Chrome拡張機能

Kindle本を
日本語OCR
テキストに変換

国立国会図書館が開発したOCRエンジンを搭載。
Kindle Cloud Readerの本を高精度に読み取り、
PDF・テキスト・画像としてエクスポートします。

~1秒
ページあたりの処理速度
日英対応
活字・縦書き・横書き
GPU不要
CPU のみで高速動作

特徴

日本語の本に最適化された、高精度なテキスト抽出

約1秒/ページの高速処理

GPUを使わずCPUのみで動作。特別なハードウェアなしで、1ページあたり約1秒の高速OCR処理を実現。

📖

見開き自動分割

ブラウザの見開き表示を自動検出し、左右ページを正確に分割。ページ順を維持したまま処理します。

📦

一括エクスポート

テキスト・PDF・画像をZIPにまとめてダウンロード。用途に合わせたフォーマットで出力できます。

🔄

自動ページ送り

ボタンひとつで全ページを自動キャプチャ。途中で中断・再開しても処理済みページはスキップします。

OCR認識デモ

Kindleページ画像
 吾輩は猫である。名前はまだ無い。
 どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
OCR出力テキスト
吾輩は猫である。名前はまだ無い。
どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。

使い方

3ステップでKindle本をテキストに

1

本を開く

Kindle Cloud Reader で
エクスポートしたい本を開きます

2

キャプチャ開始

BookHaloのボタンを押すと
自動でページ送り&OCR処理

3

ZIPダウンロード

処理完了後、テキスト・PDF・画像を
まとめてダウンロード

技術基盤

信頼性の高いOCRパイプライン

NDLOCR-Lite

国立国会図書館が数百万点のデジタルアーカイブ構築で培ったOCR技術を、 軽量・高速に再設計したオープンソースエンジン。 CC BY 4.0 ライセンスで公開されています。

CPU / ONNX Runtime Win / Mac / Linux CC BY 4.0 オープンソース
1
レイアウト検出
DEIMv2 でテキスト領域を認識
2
読み順決定
XY-Cut アルゴリズムで正しい順序を推定
3
文字認識
PARSeq 3段カスケードで高精度に認識

料金

¥500 / 月

クレジットカード決済(Stripe)

Chrome Web Store からインストール