首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >来自Google / Object的download_as_text导致UnicodeDecodeError

来自Google / Object的download_as_text导致UnicodeDecodeError
EN

Stack Overflow用户
提问于 2022-05-28 14:35:29
回答 1查看 625关注 0票数 1

我试图从存储为云存储块/对象的PDF中获取人类可读的文本。文档告诉我,不推荐使用download_as_string()方法来使用download_as_bytes()作为字节对象下载blob的内容。

代码语言:javascript
复制
json_string = blob_list[0].download_as_bytes() 
print(json_string)

当我运行上面的代码时,blob的内容是作为一个字节对象下载的,但是这不是人类可读的,也不是我想要的。

接下来,我尝试同时使用download_as_text()download_as_text().decode(),但是这两个方法都引发了以下错误:return data.decode("utf-8") UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 10: invalid continuation byte

我的最后一次尝试是使用download_as_bytes().decode('ISO-8859-1'),它不会导致错误,但不会返回人类可读的文本。

我做错了什么?如何从云存储块/对象获取文本?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-05-31 22:35:24

PDF文件是由二进制数据而不是文本组成的。这意味着它们不能以任何有意义的方式表示为Unicode字符串。Google和vision.Feature.Type.DOCUMENT_TEXT_DETECTION可以用于来自PDF的拿到课文。要阅读PDF,云视觉是过头了。

程序可以读取和处理PDF,因为它们具有结构化的格式。还有许多库可以读取和解释PDF文件。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72416512

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档