プロ翻訳者の単語帳

Professional Interpreter / Translator at Government Agency

蔵書の「自炊」記録(8)

      2019/10/01

2015年12月から蔵書の自炊を本格的に始めて、
およそ2年半が経過した。

※ 2018年4月30日 初稿時点 → その後の進捗状況

今や全工程を、大手専門業者2社に任せきりである。

よって、自分でスキャンする、本来の「自炊」ではない。

しかし、弊サイトの共通定義「紙をスキャンして電子化」
に従い、外注分も「自炊」に含めている。

※ 辞書の自炊の詳細 → 辞書の「自炊」と辞書アプリ

 

◆ 2年半で仕上がった自炊本は、約1,500冊。

2社にお支払いした金額は、送料など諸経費込みで、
40万円弱。

1冊平均250円ほど。全冊OCR処理してある。

OCR(optical character recognition)
→ スキャンした画像データから文字を認識し、
テキストデータに変換する「光学文字認識」の技術。
OCR を行うと、文字検索が可能になる。

  • 常時参照する資料を手元に完備できる 安心感
  • 知りたい時に一次資料を即座に確認できる 便利さ

これだけでも、有効な投資と判断する。


◆ その上、居住スペースがすっきりしてきた。

どんどん身軽になっている感覚は、新鮮で爽快。
あたかも自分が生まれ変わる気分と言っても、過言でない。

物を溜め込みつつ老いていくのは、避けたいものだ。

もう、本の連山にため息をつくことはない。
雪崩後、ぶりぶり怒りつつ、何度積み直したことか。

頭上にそびえる頂を見上げ、二度と地震に恐怖せずに済む。
安全面の確保から、これぞ最も強調すべき利点かも知れない。

40万円程度の出費で、  仕事と生活における「大変化
を実感している。

 

◆ その一方で、予想しなかった問題がいくつか発生した。

いずれも自炊を後悔させるほど、大きな悩みに至らない。
それでも、あらかじめ知っていれば、きっと自炊しなかった。

そんな本が、数十冊はある。

主な原因は2つ。

1)OCRの限界
→  文字検索が中途半端

2)電子書籍が新発売される名作の増加
→  自炊本よりも読みやすい

それぞれ写真を交えて、ご紹介したいと思う。
今回、取り上げるのは日本語の本。和書である。

すべて iPad mini 4 のスクリーンショットを用いた。
使用アプリは、iOS版の「GoodReader」(自炊本)
及び「Amazon Kindle」(キンドル本)。

なお、本稿で引用した作品は、著作権の消滅した作家の
著作物である。

パブリックドメインに属するものとして、青空文庫など
では無料公開されている。

本稿にて比較検討する際、諸々のバランスを取るため、
大手出版社から発行されている有料の本を採用した。

 

1)OCRの限界

お世話になっている自炊代行業者のうちの1社に
問い合わせたところ、その当時(2018年3月)使用中の
OCRソフトは、「Adobe Acrobat 9 Pro または X pro」とのこと。

洋書の文字認識で問題が起きたことはないのだが、
和書については、認識率が下がる場合がままある。

「5%程度認識されない文字もある」と教えていただいたが、
この程度であれば、取り立てて問題視しない。

当初から想定されている認識率の範囲内だからである。

そうではなく、文字列の<塊>として認識してしまう
現象が数十冊単位で生じている。

<塊>では、文字認識されない。

これは業者側の問題ではなく、OCRソフトの限界と考えている。

発生事例を検証すると、漢字の多さよりは、活字の組み方に
左右される模様。 つまり、レイアウトの問題が大きい。

実例をご覧に入れたい。

 

◆ まず、中島敦(1909~1942年)の『山月記』。

1942年2月発表、中島のデビュー作である。
全3巻の全集(ちくま文庫)を外注自炊した。
『山月記』は、第1巻に収録されている。

新字新仮名を用いた版なので、OCRも大丈夫だろう
と予想したが、結果は以下の通り。

全11ページの短篇。
OCR部分を「全選択」の上、ハイライト(緑)した。

傍線や囲みは、自炊前の「紙」で読んだ際に、
ボールペンで書き込んだものである。

1993年7月に購入した第一刷。 税込1,000円。

25年後にスキャンすることになるなんて、思いもよらなかった。
だから、気兼ねなく書き込んでいる。

所々に<塊>状の箇所があるのに、お気づきだろうか。
ハイライトが濃くなっている部分である。

文字認識されていないので、検索してもヒットしない。
OCRの<抜け>も目立つ。

ルビが非常に多いことに加えて、中島特有の漢文調の格調
高い文体がその原因かと推量するが、詳細は不明である。

 

◆ 次に、坂口安吾(1906~1955年)の『石の思い』。

1946年11月発表、隠れた名作と言われる短篇である。
全26ページあり、そのうち5ページを掲げる。

収録する『風と光と二十の私と』 (講談社文芸文庫
を自炊した。

結論から述べると、OCRの仕上がりは上出来である。
自分の施した傍線が多いのにも関わらず、ちゃんと
処理できている。

と思いきや、1ページだけ、とんでもない不具合を発見!

今まで、気づかなかったぞ。


なんじゃこりゃ。

外注してから1年以上経ち、業者規定の保存期間は過ぎている。

後の祭。 ああ、悔しい!  しかたない。 これが現実だ

 

◆ 以上、不都合を指摘してみた。

不満に違いないが、私としては我慢できる支障である。

繰り返すが、いずれも業者側のせいではなく、日本語に
対するOCRソフトの限界であると推定できる。

自炊依頼した洋書には、ほぼ問題がみられないのが、
その一つの証左となる。

さらに、自己所有する「Adobe Acrobat」を用いて、
欠陥本に再度OCRをかければ、改善することがある。

つまり、自己救済の余地もある。
何冊か試みて、効果は確認している。

 

2)電子書籍が新発売される名作の増加

自炊する理由はいくつかあるが、最大級の理由は
その本の電子版(電子書籍)が販売されていないから。

電子化されていないからこそ、わざわざ自炊している。
購入時点で電子版があれば、そちらを選ぶはず。

だが、アマゾンなどが展開する電子書籍を購入
することは 「無期限レンタル」に近い。

利用者は、サービス提供者に全面的に依存し続ける。
※ PDF版を除く

出典元:『モバイルワーカーの超愛用品』枻出版社、2018年刊

使用は自在にできるが、自由に処分(譲渡など)できない。

購読権のみを買うことであり、そこに所有権はない
※ 2019年10月時点

すなわち、   書籍自体を購入しているのではない。

例えば、一部のキンドル本に明記されている文言がこちら。
蔵書の「自炊」記録(5)より再掲

  • 有償・無償にかかわらず
    本作品を第三者に譲渡することはできません。
  • 有償・無償にかかわらず
    このデータを第三者に譲渡することを禁じます。

  自由に処分できない以上、所有権はない。

実は「自分のもの」でないということ。

これが、

自炊本との決定的な違い

法的整備や会社間連帯が未成熟である現状では、
購入者の  継続使用を担保するシステムは不十分。

特定企業のサービス持続を前提とした構造に他ならない。

電子書籍ストアのサービス終了に伴い、その利用権まで
失う事例は、過去に複数発生している。

今年2018年には、トーハン「Digital e-hon」及び
オーム社「eBook Store」が終了した。

※ 具体的事例は、蔵書の「自炊」記録(5)

◆ このような不安定な権利関係を嫌がり、電子書籍に一切
手を出さず、せっせと自炊している読書家を何人も知っている。

自炊本ならば、提供会社や専用端末・アプリに依存する
ことなく、
著作権法の規定内で自由にできる。

その結果、他者都合により読めなくなるリスクが皆無に近い。

本連載においても、法律と権利関係については考察してきた。
自炊着手にあたり、最も気がかりな側面であったのだ。

※ 詳細は、蔵書の「自炊」記録(2)

 

◆ 自炊開始後、2年半が経った。

自炊本と電子書籍の読み心地をたっぷり堪能してきたと思う。

ざっと目を通した「紙」の本や冊子を含めると、この間に
触れた和書・洋書は、それぞれ数百冊に達している。
同時に電子書籍も劣らず手にしている。

現段階(2018年4月30日 初稿時)の結論として、
自炊本よりも、電子書籍の方が読みやすいと考える。

最初から電子版として構成されている方が、
何かと便利との印象である。

たとえ、上掲の権利関係の不備を考慮しても、
択一であれば、今なら電子書籍を選ぶ。

そこで、自炊本とアマゾン「キンドル」(電子本の代表格)
の比較をしてみたい。


◆ 再び、坂口安吾のお出まし。

『日本文化私観』 (講談社文芸文庫)の冒頭4ページ。

堕落論』と並び称される名エッセイで、
戦時中の1942年2月発表。

外注自炊後の2018年、同文庫としてキンドル版が
発売された。 こちらも最初の4ページ。

先例にならい、まずはOCRからチェック。


OCRの仕上がりはまずまず。

私の拙い書き込みまで、処理されている(右下)。

だが、一部の傍線にはかかっていない。
やはり、OCRは中途半端と評すべきか。

 

◆ それでは、実際の見た目はどんな感じか。

自炊本の向かって左側に、キンドル版の
同一ページを並べてみた。

その上で、自炊前の「紙」に入れた傍線に合わせて、
キンドル版の同一箇所にも、ハイライト(赤)を入れてみた。



いかがだろうか。

どちらも、まあまあ見やすいだろう。

※ 両者の進捗に一部ずれがみられるが、微差なので、
ご了承ください。

ガンガン書き込みするテキストのような勉強道具
でなければ、キンドル版の方が扱いやすい気がする。

 

◆ この2年半で、今回挙げた「講談社文芸文庫」のような
良質のシリーズものが、次々とキンドル入りしている

もし同シリーズの電子版が発売されることを事前に
知っていれば、手垢のつくほど愛読した紙の本は、
そのまま手元に置いておきたかった。

こう切実に感じる自炊本が、この2年半で数十冊も生じた。

おまけに、特筆大書すべき事実として、上述のパブリックドメイン
にある著書が、立て続けにデジタル全集として販売されている。

底本やら解説やら仮名遣いやら、細かい要件を度外視し、
代表作の通読を主目的とするならば、これで用が足りる。

こうした作家の場合、月報つきの全集が、かつてはあり得ない
低価格で、オークションに出品されていたりする。

少々複雑な気持ち。 切ないものだ。

「座右の書」のみは、当初から自炊対象より外している。
今後も幾多も再読する「愛読書」も、できれば自炊せずに
そのまま残したい。

ただ、私の愛惜する「愛読書」は何百冊もある。

きりがないということで、これまで思い切って自炊してきた。
ところが、発売されたばかりのキンドル版をいざ手にすると、
このところ迷いが生じるようになってしまった。

  • 自炊したけど、キンドル版も買うべきか。
  • 今後キンドル版が出そうだから、今回自炊に出すの
    はやめようか。
  • 自炊したけど、紙の本も持っていたい。

どれも自炊開始までには、深く考えなかったこと。
ふと思ったとしても、それは本気ではなかった。

その頃はまだ何も分かっておらず、現実味が欠けていたから。

坂口安吾のような好きな作家については、自炊本と
キンドル本がそろった。後者を後から買ったためである。


◆ 自炊を開始して、2年半。

※ 2018年4月30日 初稿時点 → その後の進捗状況

1,500冊の自炊本のデータ、そして同一シリーズの
キンドル版を入手して以降に生じたためらいの数々。

今後、どのように心境が変わっていくだろうか。

とは申せ、先述の通り、自炊の実行は後悔していない。

本の増殖から解放された快適さと便利さが上回る。

今回は和書を取り上げたが、次回は洋書を比較する。
同様に切り込んでいきたい。

 –

Sponsored Link




Jetpack

 - 本の「自炊」, 読書