我试图从存储为云存储块/对象的PDF中获取人类可读的文本。文档告诉我,不推荐使用download_as_string()方法来使用download_as_bytes()作为字节对象下载blob的内容。
json_string = blob_list[0].download_as_bytes()
print(json_string)当我运行上面的代码时,blob的内容是作为一个字节对象下载的,但是这不是人类可读的,也不是我想要的。

接下来,我尝试同时使用download_as_text()和download_as_text().decode(),但是这两个方法都引发了以下错误:return data.decode("utf-8") UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 10: invalid continuation byte

我的最后一次尝试是使用download_as_bytes().decode('ISO-8859-1'),它不会导致错误,但不会返回人类可读的文本。

我做错了什么?如何从云存储块/对象获取文本?
发布于 2022-05-31 22:35:24
PDF文件是由二进制数据而不是文本组成的。这意味着它们不能以任何有意义的方式表示为Unicode字符串。Google和vision.Feature.Type.DOCUMENT_TEXT_DETECTION可以用于来自PDF的拿到课文。要阅读PDF,云视觉是过头了。
程序可以读取和处理PDF,因为它们具有结构化的格式。还有许多库可以读取和解释PDF文件。
https://stackoverflow.com/questions/72416512
复制相似问题