來源 |?Analytics Vidhya
整理 |?磐石
【磐創(chuàng)AI導(dǎo)讀】:Github是全球最大的開源代碼社區(qū)。接下來磐創(chuàng)AI將為大家介紹幾個(gè)六月Github熱點(diǎn)項(xiàng)目庫。歡迎大家關(guān)注我們的公眾號(hào):磐創(chuàng)AI。
目錄
對(duì)于數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)而言,GitHub無疑是最受歡迎的平臺(tái)之一。它是在代碼和項(xiàng)目之間共享和協(xié)作的絕佳工具,它降低了進(jìn)入開源世界的壁壘,并在傳播知識(shí)和擴(kuò)展機(jī)器學(xué)習(xí)社區(qū)方面發(fā)揮了巨大的作用。
在六月份,有一些驚艷的python項(xiàng)目開放了源代碼。從可以定位5000個(gè)關(guān)鍵點(diǎn)的姿態(tài)估計(jì)模型(DensePose)到用一種模型實(shí)現(xiàn)多個(gè)NLP任務(wù)的Salesforce's decaNLP再到包含由詳細(xì)注釋的強(qiáng)化學(xué)習(xí)算法集合的git庫Reinforcement Learning Notebooks。下面將一一進(jìn)行簡單介紹。
接下來,讓我們一起看看六月份的熱點(diǎn)Git倉庫。
今年,人體姿態(tài)估計(jì)在深度學(xué)習(xí)界引發(fā)了廣泛關(guān)注。這一趨勢(shì)在Facebook開放他們的姿態(tài)估計(jì)框架'DensePose'的源代碼后更是被推到了一個(gè)新的高度。該技術(shù)可識(shí)別人體中超過5000個(gè)關(guān)節(jié)點(diǎn)(對(duì)于上下文來說,其他方法以10或20個(gè)關(guān)節(jié)進(jìn)行操作)。從上圖中可以看出該技術(shù)的實(shí)現(xiàn)結(jié)果。
DensePose已經(jīng)在目標(biāo)檢測平臺(tái)Detectron中創(chuàng)建好并由Caffe2提供支持。除了代碼之外,此存儲(chǔ)庫還包含用于可視化DensePose-COCO數(shù)據(jù)集的notebook。
盡管自然語言處理(NLP)有吸引力,但它無疑是一個(gè)很難步入一個(gè)領(lǐng)域。你需要去處理大量非結(jié)構(gòu)化文本,這并不容易。而這個(gè)NLP Progress存儲(chǔ)庫就是專門用于跟進(jìn)NLP領(lǐng)域最新進(jìn)展的倉庫。它列舉了一些非常有用的數(shù)據(jù)集和當(dāng)前依存句法分析(depency parsing)、part-of-speech tagging(詞性標(biāo)注)和閱讀理解(reading comprehension)的最優(yōu)方法(state-of-the-art)。
如果你對(duì)NLP領(lǐng)域感興趣或者茫然的話,可以star這個(gè)存儲(chǔ)倉庫并持續(xù)關(guān)注它的動(dòng)態(tài)。同時(shí),將來還會(huì)有一些技術(shù)補(bǔ)充到列表里,如信息提取技術(shù),關(guān)系抽取技術(shù),語法錯(cuò)誤糾正技術(shù)(grammatical error correction)等。
模型的大規(guī)模應(yīng)用是數(shù)據(jù)科學(xué)家進(jìn)入該領(lǐng)域時(shí)面臨的挑戰(zhàn)之一,設(shè)計(jì)和構(gòu)建模型又是數(shù)據(jù)科學(xué)家們進(jìn)行機(jī)器學(xué)習(xí)的原因。但如果你不能將這個(gè)模型應(yīng)用到實(shí)際應(yīng)用中去,它本質(zhì)上就變成了一塊無用的代碼。
因此,Databricks(由Spark創(chuàng)建者創(chuàng)建)決定為這些機(jī)器學(xué)習(xí)(ML)模型應(yīng)用難題構(gòu)建開源解決方案--名為MLflow,它是一個(gè)管理整個(gè)機(jī)器學(xué)習(xí)生命周期(從開始到生產(chǎn))的平臺(tái),并且被設(shè)計(jì)可以使用任何庫。自從它發(fā)布以來,它獲得了極大的關(guān)注(GitHub上star數(shù)1,355)。
本文另一個(gè)NLP存儲(chǔ)庫推薦。當(dāng)涉及到情感分析或機(jī)器翻譯等自然語言處理任務(wù)時(shí),一般來說是需要建立專門針對(duì)該任務(wù)的模型。那么,你有沒有建立一個(gè)同時(shí)可以進(jìn)行情感分析、語義分析和問答的模型呢?這就是Salesforce研究人員企圖用此存儲(chǔ)庫去實(shí)現(xiàn)的效果。
他們發(fā)表了一篇研究性論文,概述了一個(gè)可以同時(shí)完成10個(gè)不同NLP任務(wù)的模型。在論文中,他們還向社區(qū)發(fā)起了一個(gè)挑戰(zhàn)(decaNLP)--你能建立一個(gè)這樣的模型并改進(jìn)“我們”提供的方法嗎?Salesforce建造的模型被稱為“自然語言處理領(lǐng)域的瑞士軍刀”。
強(qiáng)化學(xué)習(xí)日益流行,在開源社區(qū)中同樣是如此。該存儲(chǔ)庫是來自Richard Sutton和Andrew Barto的書和其他研究論文中的強(qiáng)化學(xué)習(xí)算法的集合。這些算法以notebook的格式提供給大家。
存儲(chǔ)庫的創(chuàng)建者建議大家邊看書邊實(shí)踐這些算法,以達(dá)到更好的學(xué)習(xí)目的。這些notebook有著很詳細(xì)的注釋都,很適合有意向進(jìn)入強(qiáng)化學(xué)習(xí)的領(lǐng)域的人去學(xué)習(xí)。
總結(jié):
以上是對(duì)六月份github上幾個(gè)熱點(diǎn)的項(xiàng)目倉庫的整理總結(jié),涵蓋計(jì)算機(jī)視覺、自然語言處理、強(qiáng)化學(xué)習(xí)多個(gè)領(lǐng)域。希望對(duì)你有所幫助,同時(shí)歡迎在評(píng)論中留言討論和推薦一些其他不錯(cuò)的git存儲(chǔ)庫。

? 2025. All Rights Reserved. 滬ICP備2023009024號(hào)-1