コンテンツにスキップ

テキスト抽出

テキスト抽出モジュールは、ファイルからテキストを抽出して、検索可能で機械が読み取り可能な形式にします。

有効にすると、テキスト抽出は、アイテムレベルおよびメディアレベルの両方で、"抽出されたテキスト"という名前とextracttext:extracted_textというスラッグを持つ、テキストデータ型の1つのフィールドを持つ新しいメタデータボキャブラリーを追加します。アイテムビューページではデフォルトで公開に設定されています。

各アイテム編集ページに「テキスト抽出」タブを追加し、ここで抽出されたテキストを更新または削除することができます。また、データベース内の既存のファイルからテキストを抽出またはクリアするためのバッチ編集オプションも追加します。有効な場合、CSVインポートでアップロードされたファイルから自動的にテキストを抽出します。

モジュールが非アクティブ化された場合でも、「抽出されたテキスト」というフィールドにテキストが含まれるアイテムは変更されません。フィールドは表示されたままです。

一つのアイテムに複数のファイルが添付されている場合、抽出されたテキストは、ファイルが追加された順番に、アイテムレベルの1つのフィールドに累積されて表示されます。新しいファイルは、フィールドの最後に抽出されたテキストを追加します。

システム要件

以下のファイル形式がこのモジュールでサポートされる可能性があります:

  • doc
  • docx
  • html
  • odt
  • pdf
  • rtf
  • txt
  • bmp, gif, jp2, jpg, png, tiff, および webp(Tesseractを使用)。

これらのファイルタイプに対してモジュールが動作するためには、サーバー上に必要な抽出ツールが利用可能でなければなりません。どのファイルタイプがあなたのインストールで動作するかを確認するには、「Extract Text」をモジュールの下で見つけ、「Configure」ボタンをクリックしてください。これにより、サーバー上でどの抽出ツールが利用可能かを表示するテーブルが読み込まれます。

設定

設定ページで、ほとんどの抽出器が利用可能であり、Tesseractがバックグラウンドで実行され、2つの抽出器が無効になっていることを示しています。

このページでは、どの抽出ツールがインストールされ、アクティブで、バックグラウンドで実行されているかを確認できます。特定の抽出ツールを有効または無効にすることができ、サーバーの効率を高めるためにバックグラウンドジョブとしてのみ実行するように設定することができます。

Tesseractは非常に処理が重いため、バックグラウンドでのみ実行されます。PDFファイルなどの他のファイルのサイズによっては、他の抽出ツールもバックグラウンドでのみ実行するよう設定したい場合があります。バックグラウンド専用の抽出器は、新しいメディアがアップロードされたときには実行されませんが、CSVインポートジョブやバッチ編集ツールを使用する際には実行されます。

「バックグラウンド専用」にチェックが入っていない場合、抽出器はファイルアップロード時、「テキストの更新」および「テキストの更新(バックグラウンド)」で実行されます。

必要な抽出ツールは以下の通りです:

  • catdocは、DOCおよびRTFファイルからテキストを抽出するために使用されます。
  • docx2txtは、DOCXファイルからテキストを抽出するために使用されます。
  • lynxは、HTMLファイルからテキストを抽出するために使用されます。
  • odt2txtは、ODTファイルからテキストを抽出するために使用されます。
  • pdftotextは、PDFファイルからテキストを抽出するために使用されます。
  • filegetcontentsは、TXTファイルからテキストを抽出するために使用されます。
  • tesseractは、画像ファイルからテキスト文字を認識するために使用されます。

Tesseractは、必要なライブラリでコンパイルされている場合、以下の画像ファイルをサポートします:

  • BMP (image/bmp)
  • GIF (image/gif)
  • JP2 (image/jp2)
  • JPG (image/jpeg)
  • PNG (image/png)
  • TIFF (image/tiff)
  • WEBP (image/webp).

あなたのグローバル設定でいくつかのファイル拡張子またはメディアタイプが許可されていない可能性があることに注意してください。

サーバーに望ましい抽出ツールが1つ以上インストールされていない場合、ホスティングサービスまたはローカルサーバーの管理者に確認してください。

メディアからテキストを抽出する

メディアからテキストを抽出するために、いくつかのアクションを選択できます:

  • メディアがアップロードされたとき、またはそれ以降そのメディア編集画面から、一つのメディアから手動でテキストを抽出する
  • アイテム編集画面から、一つのアイテムに関連するすべてのメディアから手動でテキストを抽出する
  • バッチ編集ページから、複数のアイテムに関連するすべてのメディアからバッチでテキストを抽出する
  • メディアアップロードを含むCSVインポートからバッチでテキストを抽出する。

テキスト抽出は、CSVインポートによるものであろうと、アイテムに一つ以上のメディアをアップロードすることによるものであろうと、新しいメディアがどこにアップロードされたかに関係なく、自動的に実行されるように設定されています。

編集モードのアイテムで、中身のあるextracttext:extracted_textフィールドを示しています。

アイテムまたはメディアを編集することで、手動で抽出されたテキストを消去するか再実行することができます。自動出力を変更するには、アイテムまたは特定のメディアの「テキスト抽出」タブに移動します。

編集モードのアイテムで、「テキスト抽出」タブにある、テキストをクリアまたは更新するオプションを示しています。

extracttext:extracted_textフィールドに現在ある認識されたテキストをすべてクリア(消去)することができますし、それを更新することもできます。アイテムレベルでは、アイテムのすべてのメディアから新鮮なテキストを抽出し、順番に、それをすべて1つの値としてフィールドに出力します。

メディアレベルでは、そのメディアのテキストのみを消去または更新します。更新されたテキストは、メディアファイルの順番にアイテムメタデータに表示されます。

「テキストの更新」を選択すると、抽出器はフォアグラウンドで実行され、数分かかることがあります。抽出が完了するとページは自動的に再読み込みされます。

「テキストの更新(バックグラウンド)」を選択すると、バックグラウンドでのみ実行される設定になっている抽出器を含む、すべての抽出器が実行されます(Tesseractを含む)。これにより、「ジョブ」タブにジョブが表示されます。左側にありますから、そこで完了またはエラーを確認してください。

アイテム上のメディアが再配置されると、テキスト抽出は自動的に出力を再配置するように設定されています。

バッチ編集

一度に複数のアイテム(または手動で選択された複数のメディア)からテキストをクリアまたはリフレッシュすることができます。テキスト抽出はバッチ編集画面