我使用Scrapy从新闻网站抓取文章,并将其添加到mongoDB。但是在插入时,我在MongoDb中得到了如下的unicode字符
“文章”:“微软云与企业执行副总裁萨蒂亚·纳德拉(Satya Nadella )刚刚被任命为微软下一任首席执行官。
我试过了
FEED_EXPORT_ENCODING = "utf-8"但是它只在我以JSON的形式运行爬虫和导出数据时起作用,而不是在MongoDB中存储数据时起作用。
在spider.py文件中,我编写了这一行代码以获取文章
item["article"]=response.xpath('//p/text()').getall()
item["article"] =' '.join(item['article'])如何将这些字符替换为它们的ASCII等价物?
发布于 2019-05-03 11:42:34
这个解决方案对我有效(Character encoding in python to replace 'u2019' with ')
import unidecode
a=unidecode.unidecode( "Satya Nadella, Microsoft\u2019s executive vice president of cloud and enterprise, has just been named the company\u2019s next CEO.")https://stackoverflow.com/questions/55967845
复制相似问题