文章/答案/技术大牛

发布

社区首页 >问答首页 >来自Google / Object的download_as_text导致UnicodeDecodeError

问来自Google / Object的download_as_text导致UnicodeDecodeError
EN

Stack Overflow用户

提问于 2022-05-28 14:35:29

回答 1查看 625关注 0票数 1

我试图从存储为云存储块/对象的PDF中获取人类可读的文本。文档告诉我，不推荐使用download_as_string()方法来使用download_as_bytes()作为字节对象下载blob的内容。

json_string = blob_list[0].download_as_bytes() 
print(json_string)

当我运行上面的代码时，blob的内容是作为一个字节对象下载的，但是这不是人类可读的，也不是我想要的。

接下来，我尝试同时使用download_as_text()和download_as_text().decode()，但是这两个方法都引发了以下错误：return data.decode("utf-8") UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 10: invalid continuation byte

我的最后一次尝试是使用download_as_bytes().decode('ISO-8859-1')，它不会导致错误，但不会返回人类可读的文本。

我做错了什么？如何从云存储块/对象获取文本？

google-cloud-storage

decode

google-cloud-platform

google-cloud-functions

character-encoding

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-05-31 22:35:24

PDF文件是由二进制数据而不是文本组成的。这意味着它们不能以任何有意义的方式表示为Unicode字符串。Google和vision.Feature.Type.DOCUMENT_TEXT_DETECTION可以用于来自PDF的拿到课文。要阅读PDF，云视觉是过头了。

程序可以读取和处理PDF，因为它们具有结构化的格式。还有许多库可以读取和解释PDF文件。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72416512

复制

相似问题

问来自Google / Object的download_as_text导致UnicodeDecodeError
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问来自Google / Object的download_as_text导致UnicodeDecodeErrorEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问来自Google / Object的download_as_text导致UnicodeDecodeError
EN