GitHub上最全中華古詩(shī)詞數(shù)據(jù)庫(kù)又火了
近期,GitHub 上最全中華古詩(shī)詞數(shù)據(jù)庫(kù)再次登上熱榜,又火了一把。根據(jù)介紹,chinese-poetry 最全中華古詩(shī)詞數(shù)據(jù)庫(kù)集合了唐宋兩朝近一萬(wàn)四千古詩(shī)人, 接近 5.5 萬(wàn)首唐詩(shī)加 26 萬(wàn)宋詩(shī). 兩宋時(shí)期 1564 位詞人,21050 首詞。該項(xiàng)目已經(jīng)獲得了 22.6k 個(gè)「star」以及 4.2k 個(gè)「fork」。
GitHub 項(xiàng)目:https://github.com/chinese-poetry/chinese-poetry
最全的中華古典文集數(shù)據(jù)庫(kù),包含 5.5 萬(wàn)首唐詩(shī)、26 萬(wàn)首宋詩(shī)、2.1 萬(wàn)首宋詞和其他古典文集。詩(shī)人包括唐宋兩朝近 1.4 萬(wàn)古詩(shī)人,和兩宋時(shí)期 1.5 千古詞人。數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)。
為什么要做這個(gè)倉(cāng)庫(kù)? 項(xiàng)目作者表示,古詩(shī)是中華民族乃至全世界的瑰寶,我們應(yīng)該傳承下去,雖然有古典文集,但大多數(shù)人并沒(méi)有擁有這些書(shū)籍。從某種意義上來(lái)說(shuō),這些龐大的文集離我們是有一定距離的。而電子版方便拷貝,所以此開(kāi)源數(shù)據(jù)庫(kù)誕生了。此數(shù)據(jù)庫(kù)通過(guò) JSON 格式分發(fā),可以讓你很方便的開(kāi)始你的項(xiàng)目。
古詩(shī)采集沒(méi)有記錄過(guò)程,因?yàn)楣旁?shī)數(shù)據(jù)龐大,目標(biāo)網(wǎng)站有限制,采集過(guò)程經(jīng)常中斷超過(guò)了一個(gè)星期。2017 年新加入全宋詞,全宋詞爬取過(guò)程及數(shù)據(jù)分析。
高頻詞分析圖
宋詞受歡迎的詞牌名
宋詞高頻詞
宋詞作者作品榜
唐詩(shī)高頻詞
唐詩(shī)作者作品榜
宋詩(shī)高頻詞
宋詩(shī)作者作品榜
數(shù)據(jù)集
- 全唐詩(shī) json
- 全宋詩(shī) json
- 全宋詞 ci
- 五代·花間集 wudai/huajianji
- 五代·南唐二主詞 wudai/nantan
- 論語(yǔ) lunyu
- 詩(shī)經(jīng) shijing
- 幽夢(mèng)影 youmengying
- 四書(shū)五經(jīng) sishuwujing
- 蒙學(xué) mengxue