プロ翻訳者の単語帳

Professional Interpreter / Translator at Government Agency

蔵書の「自炊」記録(8)

      2024/12/01

・ Estimated Read Time ( 推定読了時間 ): 6 minutes

2015年12月から蔵書の自炊を本格的に始めた。

→  現在の進捗状況

今や全工程を、 大手専門業者2社に任せきりである。

依頼先は、「 一般書 」 及び 「 辞書・専門書 」 で分けている。

よって、 自分でスキャンする、 本来の 「 自炊 」 ではない。

しかし、 弊サイトの共通定義 「 紙をスキャンして電子化 」
に従い、 外注分も 「 自炊 」 に含めている。

■  紙が極薄な辞書にも対応できる専門業者は、 かなり少ない

【 辞書の自炊の詳細 】  →  辞書の「自炊」と辞書アプリ

※  実際に依頼している自炊業者の紹介 ( 写真入り、 実名入り )

 

◆  2年半で仕上がった自炊本は、 約1,500冊。

2社にお支払いした金額は、 送料など諸経費込みで、
40万円弱。

1冊平均250円ほど。

その後、 丸9年経過した2024年12月時点で、 3,500冊を超えた。

→  現在の進捗状況

全冊OCR処理してある。

OCROptical Character Recognition )


スキャンした画像データから文字を認識し、
テキストデータに変換する「 光学文字認識 」の技術。

「 オー  シー  アール 」 と読む。

「 OCR 」を行うと、 文字検索  が可能となり、 とりわけ
専門家や研究者にとって、 書籍の使い勝手が飛躍的に向上する。

  • 常時参照する資料を手元に完備できる 安心感
  • 知りたい時に一次資料を即座に確認できる 便利さ


これだけでも、 有効な投資と判断する。


◆  その上、 生活空間・居住スペースがすっきりしてきた。

身の回りがきれいになり、 身軽になっていく感覚は、 新鮮で爽快。

あたかも自分が生まれ変わる気分と言っても、 過言でない。

物を溜め込みつつ老いていくのは、 避けたいものだ。

もう、 本の連山に ため息をつく ことはない。

雪崩後、 ぶりぶり怒りつつ、 何度積み直したことか。

頭上にそびえる頂を見上げ、 二度と地震に 恐怖 せずに済む。

安全面 の確保から、 これぞ最も強調すべき利点かも知れない。

40万円程度の出費で、  仕事と生活における 「 大変化
を実感している。

 

◆  その一方で、予想しなかった問題がいくつか発生した。

いずれも、 自炊を後悔させるほど、 大きな悩みに至らない。

それでも、 あらかじめ知っていれば、 きっと自炊しなかった。

そんな本が、 数十冊はある。

主な原因は2つ。

1)  OCRの限界
→  文字検索が中途半端

2)  電子書籍が新発売される名作の増加
→  自炊本よりも読みやすい


それぞれ写真を交えて、ご紹介したいと思う。

今回、取り上げるのは日本語の本。

和書である。

すべて 「 iPad mini 」  の  スクリーンショット  を用いた。

使用アプリは、 iOS版の「 GoodReader 」( 自炊本 )
及び 「 Amazon Kindle 」 ( キンドル本 )。

◇  使用  ipad mini  →  写真 


◆  なお、本稿で引用した作品は、 著作権の消滅した作家の
著作物である。

パブリックドメイン に属するものとして、青空文庫 など
では無料公開されている。

【参考】  著作権の消滅した日本人作家一覧

本稿にて比較検討する際、諸々のバランスを取るため、
大手出版社から発行されている有料の本を採用した。

 

1)  OCRの限界

お世話になっている自炊代行業者のうちの1社に
お問い合わせしたところ、その当時( 2018年3月 )使用中の
OCRソフトは、 ” Adobe Acrobat 9 Pro ”  または  ” X pro ”
とのこと。

洋書の文字認識で問題が起きたことはない のだが、
和書については、認識率が下がる 場合がままある。

5% 程度認識されない文字もある 」 と教えていただいたが、
この程度であれば、 取り立てて問題視しない。

当初から想定されている認識率の範囲内だからである。

そうではなく、文字列の < 塊 > として認識してしまう
現象が数十冊単位で生じている。

< 塊 > では、文字認識されない。

OCRソフトの限界であろう。

発生事例を検証すると、 漢字の多さよりは、 活字の組み方に
左右される模様。

つまり、 レイアウトの問題が大きい。

実例をご覧に入れたい。

 

◆  まず、 中島敦( 1909-1942 ) の 『 山月記 』。

1942年2月発表、 中島のデビュー作である。

全3巻の全集( ちくま文庫 )を外注自炊した。

『 山月記 』は、第1巻に収録されている。

新字新仮名を用いた版なので、OCRも大丈夫だろうと予想したが、
結果は以下の通り。

全11ページの短篇。

OCR部分を「 全選択 」の上、 ハイライト( 緑 )した。

傍線や囲みは、 自炊前の「 紙 」で読んだ際に、
ボールペンで書き込んだものである。

1993年7月に購入した第一刷。

税込1,000円。

25年後にスキャンすることになるなんて、思いもよらなかった。

だから、気兼ねなく書き込んでいる。

所々に < 塊 > 状の箇所があるのに、お気づきだろうか。

ハイライトが濃くなっている部分である。

文字認識されていないので、 検索してもヒットしない。

OCRの <抜け> も目立つ。

ルビが非常に多いことに加えて、 中島特有の漢文調の格調
高い文体がその原因かと推量するが、 詳細は不明である。

 

◆  次に、 坂口安吾( 1906-1955 ) の 『 石の思い 』。

1946年11月発表、 隠れた名作と言われる短篇である。

全26ページあり、そのうち5ページを掲げる。

収録する 『 風と光と二十の私と 』 ( 講談社文芸文庫
を自炊した。

結論から述べると、 OCRの仕上がりは上出来である。
自分の施した傍線が多いのにも関わらず、 ちゃんと
処理できている。

と思いきや、 1ページだけ、 とんでもない不具合を発見

今まで、 気づかなかったぞ。


なんじゃこりゃ。

外注してから1年以上経ち、 業者規定の保存期間は過ぎている。

後の祭。  ああ、悔しい     しかたない。   これが現実だ

 

◆  以上、 不都合を指摘してみた。

不満に違いないが、 私としては我慢できる支障である。

繰り返すが、どれも業者側のせいではなく、 日本語に
対するOCRソフトの限界であると推定できる。

自炊依頼した洋書には、 ほぼ問題がみられないのが、
その一つの証左となる。

さらに、 自己所有する ” Adobe Acrobat ” を用いて、
欠陥本に再度OCRをかければ、 改善することがある。

つまり、 自己救済の余地もある。

何冊か試みて、 効果は確認している。

 

2)  電子書籍が新発売される名作の増加

自炊する理由はいくつかあるが、 最大級の理由は
その本の電子版 ( 電子書籍 ) が販売されていないから。

電子化されていないからこそ、 わざわざ自炊している。
購入時点で電子版があれば、 そちらを選ぶはず。

だが、 アマゾンなどが展開する電子書籍を購入することは、

無期限レンタル  に近い。

利用者は、 サービス提供者に依存し続ける。

※  PDF版などを除く  ( 後述 )



【出典元】  『 モバイルワーカーの超愛用品 』  枻出版社、 2018年刊


◆  使用は自在にできるが、 自由に処分( 譲渡など )できない。

購読権のみを買うこと  であり、そこに  所有権はない

※  2024年12月 時点

すなわち、  書籍自体を購入しているのではない。

さしずめ 「 使用ライセンス取得契約 」 といったところか。

一部のキンドル本に明記されている文言がこちら。

  •  有償・無償にかかわらず
    本作品を第三者に譲渡することはできません。
  •  有償・無償にかかわらず
    このデータを第三者に譲渡することを禁じます。

  •  個人利用の目的であっても、コピーガードを解除
    しての複製は、法律で禁じられています。


【参考】    ※  外部サイト

◇  AMAZON KINDLE ストア 利用規約


自由に処分できない以上、
「 所有権 」はない


要は 「 自分のもの 」 でないということ。

自炊本とは比較にならない度合いで、

「 自己コントロール権 」 が制限されている。

ひどくない  ?

 

◆  無料で読めるキンドルも、 読者の読み進み程度に応じて印税が支払われる。

定額の読み放題サービスである 「 キンドルアンリミテッド 」 にも適用される。

にわかに想像しかねる不思議な収入源だが、 どこか怖い要素も否定しがたい。

進捗を測定する仕組みがあり、 そのデータをアマゾン側が把握しているのだ。


他者がハイライトした箇所を見られる 「 ポピュラーハイライト 」 などにも

似通う薄気味悪さで、 楽しいとはいえ、 かすかに危うい気がする機能である。

 

これらが、

 ◇  自炊本との 決定的な違い


しかも、 法的整備や会社間連帯が未成熟である現状では、

購入者の  継続使用を担保するシステムは不十分  である。

特定企業のサービス持続を前提  とした構造に他ならない。

それどころか、電子書籍ストアのサービス終了やトラブルに伴い、

購入したはずの「 利用権 」まで失う   酷な事例は、

国内外を問わず、 複数発生している。

その具体例は、「  蔵書の「自炊」記録(5)に記した ( 図入り )。

◆  このような  不安定な権利関係  を嫌がり、電子書籍に一切

手を出さず、  せっせと自炊している読書家を何人も知っている。

自炊本ならば、 提供会社や専用端末・アプリに依存する

ことなく、 著作権法の規定内で自由にできる。

その結果、 他者都合により読めなくなるリスクが皆無に近い。

本連載においても、 法律と権利関係については考察してきた。

自炊着手にあたり、 最も気がかりな側面であったのだ。

※  詳細は、 蔵書の「自炊」記録(2)

 

◆  2015年12月の自炊開始後、 2年半経過 ( 2018年4月30日 初稿時点  )

そして、 いつしか9年間が過ぎ去った ( 2024年12月時点 )。

自炊本と電子書籍の読み心地をたっぷり堪能してきたと思う。

ざっと目を通した「 紙 」の本や冊子を含めると、 この間に
触れた和書・洋書は、 それぞれ数百冊に達している。

同時に電子書籍も劣らず手にしている。

2018年4月30日 初稿時から9年後に至るまで、 総じて
自炊本よりも、電子書籍の方が読みやすい感触。

最初から電子版として構成されている方が、
何かと便利との印象である。

たとえ、 上掲の権利関係の不備を考慮しても、
択一であれば、 今なら電子書籍を選ぶ。

ただし、 後述の 固定レイアウト 」 型は除く ( 要注意 ! )。

そこで、 自炊本とアマゾン 「 キンドル 」( 電子本の代表格 )
の比較をしてみたい。


◆  再び、 坂口安吾のお出まし。

日本文化私観 』  ( 講談社文芸文庫 ) の冒頭4ページ。

堕落論 』 と並び称される傑作 エッセイ で、
戦時中の1942年2月発表。

外注自炊後の2018年、同文庫としてキンドル版が発売。

こちらも最初の4ページ。

先例に倣い、 まずはOCRからチェック。


OCRの仕上がりはまずまず。

私の拙い書き込みまで、 処理されている ( 右下 )。

だが、 一部の傍線にはかかっていない。

やはり、 OCRは中途半端と評すべきか。

 

◆  それでは、 実際の見た目はどんな感じか。

自炊本の向かって左側に、 キンドル版の同一ページを並べてみた。

その上で、 自炊前の 「 紙 」 に入れた傍線に合わせて、

キンドル版の同一箇所にも、ハイライト ( 赤 ) を入れてみた。



いかがだろう。

どちらも、まあまあ見やすいだろう。
ガンガン書き込みするテキスト   のような勉強道具
でなければ、 キンドル版の方が扱いやすい気がする。

◆  重要な留意点  は、  固定レイアウト 型のキンドル。

書籍版を OCR 抜きでスキャンしたもの。
PDFでアップロードされるため、 ページのレイアウトや
文字の大きさが
固定され、 そのまま表示される形式となる。
該当する本にはこうして注意喚起する。
この商品は固定レイアウトで作成されており、
タブレットなど大きいディスプレイを備えた端末
で読むことに適しています。

また、 文字列のハイライトや検索、辞書の参照、
引用などの機能が使用できません。


Amazon.co.jp  より

※  赤字は引用者

ハイライトや検索ができないのでは、 私の用途には困る。
このような 「 固定レイアウト 」 型のキンドルは避けて、
代わりに書籍版を購入し、 それを自炊している。

対して、 Wordなどのテキストファイルでアップロードする
「 リフロー型 」 は、 読み手が読みやすいように調整できる。
◆  もっとも、 出版社が 「 PDF版 」 を製造直売する場合、
キンドルではなく、 そちらを購入するようにしている。
一般的に、 PDF版は汎用性があり検索可能で、 クラウドサービス
に保存することで自前でもバックアップしやすく、 検索もできる。
購入者・購入日時の埋め込みや印刷制限が伴ったりするものの、

本家版PDFは、 OCR漏れなどの危険はなく、 自炊より安心。

固定レイアウト 型キンドル を購入後、 出版社がPDF版を
直販していることに気づき、
切歯扼腕した経験は少なくない。
今ではキンドル購入前に、 必ず 「 PDF版 」 の有無を調べている。
例えば、 プログラミング教則本に強い  インプレス  や  技術評論社
の電子書籍は、 キンドルでは  固定レイアウト   が
中心なので、
今は
本家版PDF しか買わない。
◆  この2年半で、 今回挙げた 「 講談社文芸文庫 」  のような
良質の シリーズもの が、  次々とキンドル入りしている

もし同シリーズの電子版が発売されることを事前に

知っていれば、 手垢のつくほど愛読した紙の本は、
そのまま手元に置いておきたかった。

こう切実に感じる自炊本が、 2年半で数十冊も生じた。

おまけに、 特筆大書すべき事実として、

述の  パブリックドメイン  にある著書が、
立て続けにデジタル全集として販売されている。

底本やら解説やら仮名遣いやら、 細かい要件を度外視し、
代表作の通読を主目的とするならば、 これで用が足りる。

【参考】  著作権の消滅した日本人作家一覧

こうした作家の場合、月報つきの全集が、 かつてはあり得ない
低価格で、 オークションに出品されていたりする。

やや複雑な気持ち。

切ないものだ。

◆  「 座右の書 」 のみは、当初から自炊対象より外している。

今後も幾多も再読する 「 愛読書 」 も、 できれば自炊せずに残したい。

ただ、 私の愛惜する 「 愛読書 」 は何百冊もある。

きりがないということで、 これまで思い切って自炊してきた。

ところが、 発売されたキンドル版を、 いざ手にすると、
迷いが生じるようになってきている。

  •  自炊したけど、 キンドル版も買うべきか。
  •  今後キンドル版が出そうだから、今回自炊に出すの
    はやめようか。
  •  自炊したけど、 紙の本も持っていたい。

自炊開始までには、 深く考えなかったことばかり。

ふと思った としても、 それは本気ではなかった。

その頃はまだ何も分かっておらず、 現実味が欠けていたから。

坂口安吾のような好きな作家については、 自炊本と
キンドル本がそろった。

後者を後から買ったためである。



◆  自炊を開始して、 9年を経た ( 2024年12月時点 )。

→  現在の進捗状況

3,500冊超の自炊本のデータ、 そして同一シリーズの
キンドル版を入手して以降に生じたためらいの数々。

今後、 どのように心境が変わっていくだろうか。

とは申せ、 先述の通り、 自炊の実行は後悔していない。

本の増殖から解放された快適さと便利さが上回る。

今回は和書を取り上げたが、 次回は洋書を比較する。

同様に切り込んでいきたい。

 –
 

CATEGORY ( カテゴリー )

Sponsored Link




 - 本の「自炊」, 読書

プロ翻訳者の単語帳をもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む