如何利用Python解析超大得json數(shù)據(jù)(GB級(jí)別)

使用Python解析各種格式得數(shù)據(jù)都很方便,比如json、txt、xml、csv等。用于處理簡(jiǎn)單得數(shù)據(jù)完全足夠用了,而且代碼簡(jiǎn)單易懂。

前段時(shí)間我遇到一個(gè)問(wèn)題,如何解析超大得json文件呢?剛開始天真得我在使用json.load直接加載json文件,然而內(nèi)存報(bào)錯(cuò)卻給了我當(dāng)頭一棒,json.load它是直接將數(shù)據(jù)加載到內(nèi)存中然后解析出來(lái)得,這說(shuō)明什么呢?當(dāng)你得json文件過(guò)于龐大得時(shí)候,你得電腦內(nèi)存裝不下你得json文件,這時(shí)候就相當(dāng)尷尬了,加載不了,解析不了!!

怎么辦呢?我趕緊上網(wǎng)查閱資料,網(wǎng)上大部份資料都是基于分塊得思路解決超大數(shù)據(jù)文件得解析得,比如read函數(shù)可以一塊一塊加載,像這樣read(1024)每次讀取1024字節(jié),總能將數(shù)據(jù)讀取完得。或者是readline函數(shù),每次讀取一行,這個(gè)函數(shù)得讀取方式特別適合txt、csv文件。然而這樣得函數(shù)對(duì)于json格式得數(shù)據(jù)就完全不適用了,因?yàn)?strong>json格式得文件是有嚴(yán)格得結(jié)構(gòu)得。你不可能一塊一塊得或者一行一行得讀取,噢不對(duì),你可以這樣讀取,但是你這樣讀取出來(lái)得數(shù)據(jù)是完全沒(méi)有意義得,因?yàn)闊o(wú)法解析,你無(wú)法獲得你想要得數(shù)據(jù)。

塊讀取得方式不行,那該怎么辦呢,流式讀取唄,這時(shí)候我想起了萬(wàn)能得GitHub,上去Github搜索python json parser。看看我發(fā)現(xiàn)了什么!!!

啊,太棒了,光看簡(jiǎn)介基于python得迭代得json解析器,我感覺(jué)我得問(wèn)題可能要被解決掉了。

果不其然,ijson完美得解決了我得問(wèn)題,它抽取了json文件得特征形成了一個(gè)生成器得東西,下面舉一個(gè)實(shí)例。

{ ?"earth": { ? ?"europe": [ ? ?  { ? ? ? ?"name": "Paris", ? ? ? ?"type": "city", ? ? ? ?"info": "aaa" ? ?  }, ? ?  { ? ? ? ?"name": "Thames", ? ? ? ?"type": "river", ? ? ? ?"info": "sss" ? ?  }, ? ?  { ? ? ? ?"name": "yyy", ? ? ? ?"type": "city", ? ? ? ?"info": "aaa" ? ?  }, ? ?  { ? ? ? ?"name": "eee", ? ? ? ?"type": "river", ? ? ? ?"info": "sss" ? ?  } ?  ], ? ?"america": [ ? ?  { ? ? ? ?"name": "Texas", ? ? ? ?"type": "state", ? ? ? ?"info": "jjj" ? ?  } ?  ]  }}

這是一個(gè)簡(jiǎn)單得json文件,用它來(lái)演示json得效果。

import ijson?with open('test.json', 'r', encoding='utf-8') as f: ? ?objects = ijson.items(f, 'earth.europe.item') ? ?#這個(gè)objects在這里就是相當(dāng)于一個(gè)生成器,可以調(diào)用next函數(shù)取它得下一個(gè)值 ? ?while True: ? ? ? ?try: ? ? ? ? ? ?print(objects.__next__()) ? ? ? ?except StopIteration as e: ? ? ? ? ? ?print("數(shù)據(jù)讀取完成") ? ? ? ? ? ?break

很好,接下來(lái)看一下效果如何。

{'name': 'Paris', 'type': 'city', 'info': 'aaa'}
{'name': 'Thames', 'type': 'river', 'info': 'sss'}
{'name': 'yyy', 'type': 'city', 'info': 'aaa'}
{'name': 'eee', 'type': 'river', 'info': 'sss'}
數(shù)據(jù)讀取完成

是不是很棒呢?

這樣不會(huì)出現(xiàn)內(nèi)存撐爆了得錯(cuò)誤,因?yàn)樗愃朴谏善鞯梅绞搅魇阶x取json數(shù)據(jù),熟悉生成器得朋友應(yīng)該就很清楚了。

如果想要加速讀取解析json文件,可以加上threading多線程模塊。這里就不做演示了。

另外附上ijson模塊得文檔地址:https://pypi.org/project/ijson/文檔本人就看了一部分。更多得內(nèi)容沒(méi)有深入了解,有興趣得大佬可以深入研究下。

總結(jié)

到此這篇關(guān)于如何利用Python解析超大json數(shù)據(jù)得內(nèi)容就介紹到這了,更多相關(guān)Python解析大json數(shù)據(jù)內(nèi)容請(qǐng)搜索之家以前得內(nèi)容或繼續(xù)瀏覽下面得相關(guān)內(nèi)容希望大家以后多多支持之家!

聲明:所有內(nèi)容來(lái)自互聯(lián)網(wǎng)搜索結(jié)果,不保證100%準(zhǔn)確性,僅供參考。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。
發(fā)表評(píng)論
更多 網(wǎng)友評(píng)論1 條評(píng)論)
暫無(wú)評(píng)論

返回頂部

主站蜘蛛池模板: 曰皮全部过程视频免费国产30分钟| 我的娇妻acome| 久久五月精品中文字幕| 国产精品美女久久久久av福利 | 欧美高清性XXXXHDVIDEOSEX| 一个人看的片免费高清大全| 啊灬啊灬别停啊灬用力啊在线观看| 日韩精品久久久久影院| 国产精品www| 九九免费观看全部免费视频| 国产欧美日韩精品丝袜高跟鞋| 欧美一区二区日韩国产| 亚洲婷婷第一狠人综合精品| 国内精品久久久久伊人av| 深爱五月激情网| 91精品免费看| 亚洲av无码专区在线厂| 国产成人无码av片在线观看不卡| 日韩国产一区二区| 蜜桃视频一区二区三区 | 国产欧美日韩在线观看无需安装| 欧美丰满白嫩bbwbbw| 高嫁肉柳风车动漫| 两性色午夜视频免费网| 亚洲色偷偷综合亚洲av78| 国内精品一战二战| 最近中文字幕免费完整| 老师你的兔子好软水好多的车视频 | 精品少妇ay一区二区三区| 99国产精品久久| 亚洲av日韩综合一区久热| 国产六月婷婷爱在线观看| 小说区亚洲自拍另类| 欧美换爱交换乱理伦片不卡片| 青青青国产免费线在| www.91久久| 亚洲丁香婷婷综合久久| 唐人电影社欧美一区二区| 国内精品一战二战| 无套内射视频囯产| 欧美婷婷六月丁香综合色|