參賽時間
全年滾動,隨時可以報名
Kaggle是一個全球知名的數(shù)據(jù)科學(xué)學(xué)術(shù)活動在線平臺。由Anthony Goldbloom和Ben Hamner創(chuàng)立于2010年,是一個進行數(shù)據(jù)發(fā)掘和預(yù)測學(xué)術(shù)活動的在線平臺,也是全球最大的數(shù)據(jù)科學(xué)社區(qū)和數(shù)據(jù)科學(xué)學(xué)術(shù)活動平臺,2017年被Google收購。從公司的角度來講,可以提供一些數(shù)據(jù),進而提出一個實際需要解決的問題;從參賽者的角度來講,他們將組隊參與項目,針對其中一個問題提出解決方案,最終由公司選出的最佳方案可以獲得5K-10K美金的獎金。
Kaggle以數(shù)據(jù)挖掘起家,為了快速高效的解決最棘手的問題,該平臺發(fā)布了眾多數(shù)據(jù)科學(xué)、機器學(xué)習(xí)相關(guān)的學(xué)術(shù)活動。Kaggle的多數(shù)學(xué)術(shù)活動由企業(yè)或者研究機構(gòu)發(fā)布,以學(xué)術(shù)活動獎勵的方式向全球征集解決方案,通過眾包的方式解決建模問題,諸如Google、Facebook、Microsoft等知名科技公司均在Kaggle上舉辦過數(shù)據(jù)挖掘比賽。除此之外,Kaggle官方每年還會舉辦一次大規(guī)模的學(xué)術(shù)活動,獎金高達一百萬美金,吸引了廣大的數(shù)據(jù)科學(xué)愛好者參與其中。但是不同于傳統(tǒng)的低層次勞動力需求,Kaggle一直致力于解決業(yè)界難題,因此也創(chuàng)造了一種全新的勞動力市場——不再以學(xué)歷和工作經(jīng)驗作為唯一的人才評判標(biāo)準(zhǔn),而是著眼于個人技能,為頂尖人才和公司之間搭建了一座橋梁。
全年滾動,隨時可以報名
高中生/計算機背景的大學(xué)生
比賽全英文,可以練習(xí)英語
其難度從初學(xué)到高階以及求職均有涉及,最常見的競賽可以劃分為以下類型
特色
研究
入門比賽
游樂場比賽
類別/職業(yè)
分析
可以以個人或組隊的形式參加比賽,在參賽時可以相互分享經(jīng)驗
01注冊賬號(一人只能有一個賬號)
02選擇想要參賽的項目
03下載題目的數(shù)據(jù)
04時間截止,評出最優(yōu)者
05獲獎的隊伍必須提交源代碼
一段帶獎金高難度的Kaggle比賽的 Prize Winner經(jīng)歷并不會比一段互聯(lián)網(wǎng)大廠數(shù)據(jù)分析實習(xí)經(jīng)歷遜色,大大提高你的錄取概率。
最基礎(chǔ)的入門學(xué)者也需要學(xué)會初步使用一門編程語言。對于毫無基礎(chǔ)的新手,推薦使用Python,因為Python作為一種強大的膠水語言,可迅速入門。
光有編程語言是不夠的,還需要學(xué)習(xí)如何探索性分析你手上的數(shù)據(jù),這是進入數(shù)據(jù)科學(xué)的第一步。因為通常到手的數(shù)據(jù)都多到不可思議,你要學(xué)會取舍和迅速獲取最有用的信息。
熟悉使用機器學(xué)習(xí)庫,培養(yǎng)良好的習(xí)慣,為之后的工作做鋪墊實戰(zhàn),從初級可以逐漸增加難度。
Simple Competitions:
遵循標(biāo)準(zhǔn) Kaggle 格式的比賽。在簡單的比賽中,用戶在接受比賽規(guī)則后,可以在比賽開始時訪問完整的數(shù)據(jù)集。作為競爭對手,您將下載數(shù)據(jù),在本地或筆記本中構(gòu)建模型,生成預(yù)測文件,然后將您的預(yù)測作為提交上傳到 Kaggle。到目前為止,Kaggle 上的大多數(shù)比賽都遵循這種格式。
Two-stage:
分為第一階段和第二階段,第二階段建立在團隊在第 1 階段取得的成績的基礎(chǔ)上。第 2 階段涉及在階段開始時發(fā)布的新測試數(shù)據(jù)集。第 2 階段的資格通常需要在第 1 階段提交。在兩個階段的比賽中,閱讀和理解比賽的具體規(guī)則和時間表尤為重要。
Code Competitions:
在這些比賽中,所有提交都是在 Kaggle 筆記本內(nèi)部提交的,并且無法直接將提交上傳到比賽。
這些比賽有兩個吸引人的特點。競爭更加平衡,因為所有用戶都有相同的硬件限額。獲勝模型往往比其他比賽中的獲勝模型簡單得多,因為它們必須在平臺施加的計算限制內(nèi)運行。對您可以提交的筆記本配置了自己獨特的約束。這些可能受到以下特征的限制:CPU 或 GPU 運行時、使用外部數(shù)據(jù)的能力以及對 Internet 的訪問。要了解您必須遵守的限制,請查看該特定比賽的要求。
這是傳奇的Titanic ML比賽——對你來說是深入ML比賽并熟悉Kaggle平臺如何工作的最好的第一個挑戰(zhàn)。
比賽很簡單:使用機器學(xué)習(xí)來創(chuàng)建一個模型,預(yù)測哪些乘客在泰坦尼克號沉船中幸存下來。
在愛荷華州艾姆斯市,有79個解釋變量(幾乎)描述了住宅住宅的每個方面,這項競賽要求你預(yù)測每個住宅的最終價格。
你的工作是預(yù)測每棟房子的銷售價格。對于測試集中的每個 ID,必須預(yù)測 SalePrice 變量的值。
歡迎來到2912年,這里需要你的數(shù)據(jù)科學(xué)技能來解決一個宇宙之謎。我們收到了來自四光年外的信號情況不妙。
為了幫助救援人員并找回失蹤的乘客,你面臨的挑戰(zhàn)是利用從飛船受損的計算機系統(tǒng)中恢復(fù)的記錄來預(yù)測哪些乘客被異常運送。
Allstate索賠預(yù)測挑戰(zhàn)?- 使用客戶的購物歷史記錄來預(yù)測他們購買的保險單
有害評論分類挑戰(zhàn)?- 預(yù)測維基百科上有害評論的存在和類型
Zillow獎?- 構(gòu)建一個機器學(xué)習(xí)算法,可以挑戰(zhàn)Zesow,Zillow房地產(chǎn)價格估算算法
谷歌地標(biāo)檢索挑戰(zhàn) - 如果有圖像,您能在數(shù)據(jù)集中找到所有相同的地標(biāo)嗎?
右鯨識別 - 識別航空照片中瀕臨滅絕的露脊鯨
大規(guī)模分層文本分類 - 將維基百科文檔分類為約300,000個類別之一
泰坦尼克號:從災(zāi)難中進行機器學(xué)習(xí),預(yù)測泰坦尼克號的生存幾率
房價預(yù)測:回歸方法
貓與狗:創(chuàng)建一種算法去區(qū)分貓與狗
紐約出租車行程持續(xù)時間:通過數(shù)據(jù)改善乘車時間預(yù)測
kaggle的評價體系 kaggle的用戶評價體系是基于三個維度的:學(xué)術(shù)活動、代碼以及社區(qū)參與
新 Kagglers 提問和討論的第一站
新 Kagglers 提問和討論的第一站
告訴我們您喜歡什么、討厭什么或希望什么
來自其他數(shù)據(jù)科學(xué)家的技術(shù)建議
對開放數(shù)據(jù)的請求和討論
Kaggle Learn課程相關(guān)問題答案請求
Kaggle是計算機科學(xué)領(lǐng)域中最知名的學(xué)術(shù)活動之一,為學(xué)習(xí)計算機科學(xué)的人提供了一個絕佳的平臺。如果你在計算機科學(xué)領(lǐng)域從未聽說過Kaggle,就好比在學(xué)習(xí)數(shù)學(xué)專業(yè)的過程中從未聽說過AMC,簡直難以置信。 Kaggle學(xué)術(shù)...
在人工智能盛行的時代,STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))已經(jīng)成為最受矚目的學(xué)科領(lǐng)域。作為人工智能的核心學(xué)科,計算機領(lǐng)域成為了眾多留學(xué)生爭相涌入的申請賽道。雖然STEM領(lǐng)域有很多學(xué)術(shù)活動活動,但專注于人工智...
在這個信息技術(shù)爆炸的時代,理工高中生需要掌握許多關(guān)鍵技能。其中一個非常重要的技能就是數(shù)據(jù)能力。隨著人工智能和機器學(xué)習(xí)的不斷發(fā)展,這些前沿科技離不開大數(shù)據(jù)的支持。無論是AI機器學(xué)習(xí)訓(xùn)練,還是生物、物理...
Kaggle是一個全球知名的數(shù)據(jù)科學(xué)學(xué)術(shù)活動平臺,也是當(dāng)今最大的數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)開發(fā)者社區(qū)之一。成立于2010年,Kaggle致力于舉辦在線數(shù)據(jù)科學(xué)學(xué)術(shù)活動,為數(shù)據(jù)科學(xué)領(lǐng)域的專業(yè)人士提供了一個交流與學(xué)習(xí)的平臺...
1、參賽者背景如何?
從比賽目標(biāo)出發(fā),參賽者主要分為2種:
① 一種是以獎金和排名為目的,包括靠獎金為生的職業(yè)Kaggler;
② 另外一種就是以提升相關(guān)skills和背景為目的業(yè)余愛好者甚至在校學(xué)生了。從背景來看,前者的來源主要有豐富data science、data mining、machine learning工作經(jīng)驗的業(yè)內(nèi)人士,或者是實力強勁的民間“技術(shù)宅”;而后者則往往是一些有一定技術(shù)能力,但經(jīng)驗欠缺,從中進行學(xué)習(xí)和鍛煉的“長江后浪”。
2、在比賽中獲勝或者拿到好的排名難嗎?
在Kaggle比賽中,贏得一個獎項甚至贏得一個好位置的難度非常高,通常有數(shù)千人參與一個項目,只有Top1才能獲得獎金,可以說是高手中的高手。
一般來說,幾個人在行業(yè)內(nèi)有一定水平在臨時組團的情況下最多能拿到20個左右的排名成績,排名還想要往前走就需要有一定的默契和合作經(jīng)驗。
我在哪里可以獲得我的比賽數(shù)據(jù)集?
我們建議您使用自己的數(shù)據(jù),因為通常最好使用參與者無法訪問的數(shù)據(jù)(以盡量減少作弊的誘惑)。
但是,如果你不介意參與者完全可以訪問它(例如純粹的教育競賽),可以考慮瀏覽Kaggle的數(shù)據(jù)集平臺。它擁有數(shù)千個公共數(shù)據(jù)集,并擁有豐富的搜索和過濾工具,可以幫助您找到適合您需求的內(nèi)容。每個數(shù)據(jù)集都應(yīng)該包含一個數(shù)據(jù)使用許可,這將表明您是否可以將其用于您的競爭。
我收到(一個錯誤),我該如何解決?
從閱讀本安裝指南開始。如果你仍然不能解決這個問題,試著在Kaggle論壇上詢問其他社區(qū)競賽的主持人。
我想再次參加同樣的比賽。我需要從頭開始嗎?
現(xiàn)在,你還不能復(fù)制過去的比賽。您需要從頭開始安裝。
誰能看到我的比賽?
這取決于您選擇的隱私設(shè)置。Kaggle有2個隱私設(shè)置-公共和有限。公開意味著你的競爭對手會在kaggle.com上被列出和發(fā)現(xiàn)。有限的意思是只有提供URL的人才可以觀看和參加比賽。
我在哪里可以找到邀請鏈接?
如果你選擇了“公開”,你可以在你的瀏覽器標(biāo)簽上分享你的比賽——任何人都可以看到比賽。如果您的比賽設(shè)置為有限隱私,請訪問您的比賽>主機>隱私>共享URL(如果您選擇了有限)。
Kaggle禁止作弊
在Kaggle上,作弊是不會被輕視的。我們會在比賽期間監(jiān)控我們的合規(guī)賬戶(舉報作弊者或因作弊行為提起移除請求的正式渠道)。我們還會在每場比賽結(jié)束時花大量時間審查可疑活動,并將違反規(guī)則的人從排行榜上刪除。當(dāng)我們認(rèn)為我們有足夠的證據(jù)時,我們會通過刪除甚至可能封禁帳戶來采取行動。
我們還會在一周內(nèi)監(jiān)控和調(diào)查審核報告(抄襲、投票圈等),并采取適當(dāng)?shù)男袆樱ㄒ瞥勁坪屯耆帘钨~戶。
如果您認(rèn)為您有證據(jù)表明某個隊伍違反了競賽規(guī)則,請將其報告給競賽合規(guī)賬戶,以便進行徹底調(diào)查。