我在Laravel 5.4项目中使用'PDF Parser‘来获取pdf文件的内容。但是当我转储内容时,我得到了一些编码的文本,当悬停在上面时,读取的是'5868个二进制或非UTF-8字符‘。
这是用于读取文件内容的代码。
$file = $request->file('file');
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile($file);
$scannedText = $pdf->getText();
dd($scannedText);它会转储如下内容:
x00i\x00n\x00g\x00ª\x00t\x00h\x00i当“编码类型”设置为"auto“时,PHP的mb_detect_encoding()函数返回false。utf8_encode()也不能工作,所以我知道它不是ISO-8859-1编码。
这就是我现在被卡住的地方。任何帮助都是非常感谢的。
发布于 2018-12-16 02:04:30
在我的项目中,我得到了类似的错误'PDF解析器‘。
但是我不再有这个错误,使用:https://github.com/spatie/pdf-to-text。
您可以使用composer安装它:
composer require spatie/pdf-to-text它是这样工作的:
use Spatie\PdfToText\Pdf;
$pdf = (new Pdf())->setPdf('sample.pdf');
$pdf->setOptions(['layout']);
dump($pdf->text());https://stackoverflow.com/questions/50487249
复制相似问题