我想从PDF链接中提取PDF的关键字值。我正在爬行一个页面,其中包含一些PDF的链接。我想建立一个虚拟文档,在那里我必须将这些PDF入队。我不想抓取这些PDF的内容,但我只想从这些PDF中提取关键字。当我使用inspect source打开这些PDF链接时,它确实有一个关键字字段。但是它没有任何关键字的值。它看起来是这样的:
<div class="row">
<span data-l10n-id="document_properties_keywords">Keywords:</span> <p id="keywordsField">-</p>
</div>有没有办法从PDF中提取关键字?我看到那些PDF有关键字,当我下载那些PDF的时候,Open PDF属性和关键字都有一些值。
发布于 2017-03-12 19:38:28
我不知道一种开箱即用的方式,但你可以尝试实现一个爬虫插件或你自己的爬虫。有一些钩子可以添加提取元数据并将其添加到索引中,例如,在爬虫插件中,您可以执行以下操作
@Override
public CrawledData updateDocument(CrawledData crawledData) throws CrawlerPluginException {
List<FieldMetadata> metadataList = crawledData.getMetadataList();
String MyPDFProperty= getFromOriginalContent(crawledData.getOriginalContents());
//getFromOriginalContent method you need to implement for your PDF document
if (metadataList == null) {
metadataList = new ArrayList<FieldMetadata>();
}
FieldMetadata pdfFieldMetaData = new FieldMetadata("pdfextractedpropertyr", MyPDFProperty);
metadataList.add(pdfFieldMetaData);
crawledData.setMetadataList(metadataList);
} catch (ClientServicesException e) {
logger.error(e.getMessage());
throw new CrawlerPluginException(e);
}
}
return crawledData;
}https://stackoverflow.com/questions/42428717
复制相似问题