近年社會上大大小小的數據研究調查,如雨後春筍般,由經濟數據到各大機構發表的民調,魔鬼總在細節中。單以投資市場而論,筆者曾見一位老師,指出他的監察股票系統非常有效,並列舉出十年數據印證,不過細看涵蓋的年份,卻只有2006-2007年、2009-2011年、2012-2015年,某些年份或月份不見了。前文「真數據都可以騙人」提及孕婦與咖啡因的遺漏參數,今天再談如何在細節中找出魔鬼。
數據的正反意義
筆者社會學的啟蒙老師,煙癮甚大。當年初接觸社會學,實在不明白,為甚麼學富五車的有識之士會抽煙的呢?筆者在美國國家癌症研究所(NCI)官方網站中,看到一個專欄,提供了大量關於二手煙致癌的資訊,結論是身體暴露於二手煙的環境中會引發癌症。當中引用海量數據去證明兩大論點:一,不抽煙的成年人會因吸入二手煙而誘發癌症,引致肺癌的機率會提高20-30%不等。二,每年美國因吸入二手煙而致癌的非吸煙人士接近三千人。
筆者在網上搜尋資料時,有關NCI的文章,有一篇在搜尋高位,反映應有很多人搜尋及閱讀這篇文章。該文刊於NCI的《國家癌症研究所月刊》2013年12月5日號,標題是 No Clear Link Between Passive Smoking and Lung Cancer(https://academic.oup.com/jnci/article/105/24/1844/2517805)。面對完全矛盾的分析結論,我們應如何自處?筆者沒有細閱NCI官網上的727頁研究報告,但對於NCI並未得到任何確切證據,支持二手煙會影響不吸煙人士的健康,令支持全面禁煙,反對抽煙的筆者甚感失望。對數據筆者是客觀理智的,雖然結論有違本人的價值觀及信念。不過,故事未完,同樣亦沒有決定性數據支持二手煙對人體沒有影響!
用分布圖捕捉機率
市場中有各式各樣的操作方法,招式可能都有數據支持!大家應用原始資料(Raw Data)作為統計數據的正確方法時,務須明白「統計顯著性」(Statistical significance)的意思。例如,有一些朋友用上某種數據組合,構成一個在恆生指數操作時,近期成功率頗高的買入訊號,但卻未必適合長年期,更加不會適用於未來市況。結果便認為,數據要不停更新,人要不停努力,不停改進云云。筆者不是叫大家不用努力,而是要大家把努力用在對的地方!不要曲線套入,不要自欺欺人!
「統計顯著性」是指某件事為真的機率,而計算機率比較易明理想的方法,便是用分布圖。筆者把分布圖融會於股市、指數及商品的價格中,成為獨門的睇圖及操作方法──向心系統。統計學上,真機率的意思是真正發生的可能性,而不是碰巧發生的,通常會用「P值」(Probability)來衡量。當P值愈細,就愈不可能是巧合。如前文所述,大市長線見趨勢,短線是隨機,惟隨機事件就像V2導彈的目標一樣,並不常見。在市場上,大部分情況均是資金部署的結果,假設資金部署後期望10天可升10%,那麼在過程中偶爾急跌急升都沒甚問題,只要最終達標便可以。由於隨機事件出現的機率比想像中細,只要嚴控注碼,專心捕捉高機率事件,雖不可能100%全中,但在複息效應下反覆操作,仍然十分理想。
別死得不明不白
再談No Clear Link Between Passive Smoking and Lung Cancer一文,文中研究了76,000名女性,其中只有152名肺癌患者從未抽煙。為什麼只集中研究女性呢?在研究中只測試有否接觸二手煙的機會,而沒有涉及接觸二手煙的頻率、濃度等問題,即一周吸一次二手煙,跟每天吸十數次二手煙都歸為同類。美國男性抽煙的比率很高,如果一位先生回家便猛抽煙,跟一位先生回家後,只在飯後抽煙一支,大家可以推想,兩者對太太患癌的影響應不一樣。這項研究無法證明二手煙和癌症之間在統計學上有任何關連,但並不表示兩者無關,只是統計問卷在設計上出問題!
筆者在研究之路上,花了最多時間,便是為一些準則、指標作出定義。例如升市但收陰燭,跌市收陽燭,升市時期指轉低水,跌市轉高水…… 林林種種,這些現象背後代表什麼?什麼是收集?什麼是超買?超買要在什麼情況下,去到什麼程度,才值得反手?如不先弄清楚,再去量化這些定義,便難以研究出一個客觀、準確的方法,在市場中暢泳了。