Home » 國際課程 » AP課程 » Details

AP統計置信區間要涼？假設檢驗要跪？

Category: AP課程, 國際課程 Date: 2018年5月15日下午6:57

快要考試了，腦子里對統計各種概念還是一團漿糊？問答題完全不知道在問什么，也不知道怎么回答？

廢話不多說，潘老師給大家梳理AP考試常見題型和解題思路，干貨直接奉上！大腿趕緊抱起來，拒當炮灰！

近年來統計的題目考察知識點越來越細，對學生統計概念的考察難度也越來越大。因此要想拿到5分，對統計知識的理解絕對是要透徹、深刻。下面我們就來盤點選擇題題型與常見的坑：

回顧歷年題目，選擇題常見的題型主要分為：

1.???圖表判斷、描述題（對應考點是統計各類圖表的理解與描述）
2.???數據收集，樣本分析以及實驗設計（對應考點為數據收集）
3.???數據分析（對應考點包括Z-score, regression analysis）
4.???概率計算以及分布概率計算（對應考點為概率計算）
5.???置信區間概念與計算（對應考點為置信區間理解與計算）
6.???假設檢驗（對應考點為統計推斷與p-value）

我們每個題型都進行分析，總結這類特點以及對應的思路策略

圖表判斷題給出的圖表多為histogram, boxplot,scatter plot。不少同學可能忽略了另外一個圖，叫cumulative frequency plot（累計頻率圖）。這個可能出現的考點是通過圖來判斷數據是skewed to left or right。例如，

764799-1eb39a2a10594e97bbcc9202388147e0

764799-896f78c9052926dadf4710449dbe33b6

這類型的考點還會結合BOXPLOT，讓你根據Q1,median以及Q3的位置判斷數據的shape.

764799-ad97de2fb5650d1687027d2d62f58b60

我們看這里，當skewed to the left，Q1與median的距離比median到Q3的距離近，說明數據集中在前面。

764799-2ae94c828e4a4008df427a4a1d57b81c

另外，題目可能會給boxplot Q1到median與median到Q3之間距離相等，讓我們判斷數據的shape。這種情況極有可能是bell-shape，也有可能會是uniform，所以大家要小心。

總體來說，這類題型相對比較簡單，只要平時做好積累，仔細判斷問題就不會太大。

考到數據收集和實驗的題目，無外乎兩點：是不是足夠random,是不是足夠representative，可能存在的bias是什么。另外這類型題目考得最多的是區分observation study and experiment。大家只要注意出現assign,arrangement等干涉性的字眼，或者提到研究有人為分配東西給實驗對象，這種就是experiment跑不了了。

數據分析部分的題目大部分會圍繞regression進行考察。

這里，大家需要注意以下幾個細節：

correlation coefficient的計算方式是x與y變量的z-score計算的，

764799-a5d7c37c4dfa5be2fdeffd24970a9db0

所以當x或y變量的單位改變時，他們的z-score不變，同時他們的r也是不會改變的。

我們看看這個例題：

Consider the following three scatterplots:

764799-f43edffa42eef10346c05327561f6da4

Which has the greatest correlation coefficient?

A.????Ⅰ

B.????Ⅱ

C.????Ⅲ

D.????They all have the same correlation coefficient

E.????This question cannot be answered without additional information

例如這道題，大家注意看里面數據的點與scale的變化關系。這里相當于他們的測量單位變化了，但是他們的z-score還是恒定的，因此r算出來也是不變的。

第二個細節是（coefficient of determination，也就是correlation coefficient r的平方）。這個大家都知道是proportionof variation of y explained by the regression model。但是這個proportion是什么呢？

我們知道，在regression model中，, 因此，我們有

764799-c0ea579f024e300ac2bfd7d023aa4a7d

(因為與residual independent)。所以大家可以理解為

764799-c563909e23b2bb68b3f0714086f9405d

764799-b3d8f7181dba7a6068db0410e4f71342

如果某道題給你var(residual),也就是大家常見的regression output table里面的 s，同時再給你var(y)，問你如何計算。你只需要計算

764799-279d41ffcec6115c168a6ebec5513a3a ，?即可算出

第四部分的概率計算難點在于reversecondition probability，也就是公式的應用。

764799-bcf6f54eedd777340424ddd9650b2f1b

764799-3549920aab50aea240a516596a67ae36

這道題就是典型的reverse conditionprobability題目。假設警報會響是T，不響是NT，有違禁品是C，沒有違禁品是NC，那么題目要算的是P(C|T)，給的條件是P(T|C)=97%, P(T|NC)=15%，P(C)=1/1000。根據公式，

764799-dec16465a8a7852b4ac061392642e47a

我們發現題目并沒有P(T)，怎么辦？這也是所有這類題型的難點所在，常常是公式的分母需要在題目中挖掘和計算出來。

大家可以思考一下，警報會響，有可能是有違禁品，也有可能是沒有違禁品。在這1000個包裹里，1個是含違禁品的，那么這1個包裹會響的個數就是1*P（T|C），而999個是沒有的，那么他會響的個數就是999*P(T|NC)，因此，會響的個數總共就是1*P（T|C）+999*P(T|NC)=150.82, 764799-277280391a3e56a3da641cc38dcfd82b ,代進剛才的公式即可算出結果。

對于置信區間，絕大部分的題目都是需要同學們進行計算，另外有些比較常見的題目會讓大家計算至少需要多少樣本數量才能讓95%的margin of error 小于某個值。大家只要心中記好計算公式，帶進去就可以了。

764799-37ef24b5e2acce642725edfd508a48cb

另外一種常見的考法是考察大家對不同的置信區間的用法以及對應的條件是什么。

764799-9e58b77bbc99ef0c87234eb6585390c9

總結起來就是，只要是proportion，那么一定用z-interval,如果是mean, 那么只要population standard deviation不知道就用t-interval。

千萬把里面的公式與應用條件背熟！背熟！背熟！所有的選擇題難點就是考察大家對公式的熟練程度。

另外還有關于regression的slope and intercept置信區間計算。

764799-929c73ceca6feba01d81da8a2401ca5c

斜率的置信區間就是 764799-3236f4cd947e3ab52d7cca0e9f964cab , 上面這個例子我們可以直接進行計算： 764799-b0a7c2c91170012806cd52121a6ef4fc 。這里的t取對應的confiden celevel和degree of freedom=n-2即可。

同理，intercept的置信區間為： 764799-a97c9f2934b6560542eddc52df2d8323

最后的hypothesis test與置信區間類似，要求大家計算test-statistics，所以關鍵的公式還是得背！得背！得背！對于不同的情況用什么test,與置信區間一樣，只要是proportion，那么一定用z-test,如果是mean, 那么只要populationstandard deviation不知道就用t-test。

764799-652b005d43cec195fe2382e86d9e6afc

764799-ff078d5440e3b634f534f7dddd801e5a

764799-672a12c12bbc97286d4c466a33dc43b4

764799-d60d12a834c7c589ba989454697ec8bc

最后就是p-value的理解。P-value指的是，如果你的null hypothesis test是對的話，那么你做出來的sample mean(or proportion) 作為極端情況出現的概率。也就是說，如果我們假設中國人平均身高是170cm,你去做一個100人的抽樣調查后，得到的平均身高是168cm。P-value指的就是如果咱們中國人平均身高真的就是170cm，你做出來這個168cm的樣本，作為極端情況出現的概率時多少。假設是0.003，說明如果我們中國人平均身高真的是170cm的話，你能做出這個樣本的概率只有0.003，那么說明中國人平均身高就非常不可能是170cm了。

好了，以上就是潘老師給大家帶來的一點小分享。希望對大家有幫助，祝大家考出好成績！

咨詢或AP報名請添加顧問微信

翰林主站-趙鑫磊組活碼