香港中文書面語語料庫
Corpus of Chinese Written Language in Hong Kong
簡介

「香港中文書面語語料庫」(Corpus of Chinese Written Language in Hong Kong)是由香港教育大學中國語言及中文教育研究中心(Centre for Research on Chinese Language and Education)開發的非盈利性在綫語料庫。該語料庫匯集了多種能夠反映當代香港書面中文發展與現狀的資料,以此為香港中文書面語的教育與研究提供參考。

「書面語」的涵義素來有廣狹之分。廣義的書面語指代一切用文字形式記錄、表達的語言,而狹義的書面語則專指那些經過處理、加工的正式語體語言;長期以來,語言學界談論的書面語通常取用狹義的定義,這種定義下的書面語與口語相對,具有自身的詞彚和語法特徵(胡明楊 1957、馮勝利 2010、汪平 2013、崔希亮 2020)。

香港中文書面語是指通行於香港地區的中文書面語形式。這種書面語在以往文獻中也被稱作「港式中文」。一般認爲,香港中文書面語是一種深受粵語、英語及文言影響的中文書面語變體(石定栩、朱志瑜、邵敬敏 2006;田小琳主編 2022),它對於研究中文書面語的發展規律以及瞭解香港地區的社會文化均具有很高的參考價值。以往研究採用的香港中文書面語語料大多來自香港本地的中文報刊,此語料庫則集中收羅由香港特別行政區政府的下屬部門發出的中文書面資料。與報刊語料相比,這些書面資料往往採用更加規範的語文表達,在語體風格上也更加正式,因而也更加貼合學界對於狹義書面語的定義。

此語料庫收錄的中文書面資料包括《文訊》(Word Power)、《香港年報》(Hong Kong Year Book)和香港特別行政區政府新聞公報(The Government of Hong Kong Special Administrative Region Press Releases)。具體收錄内容為:(1)《文訊》第一期(2000年)至第九十三期(2023年)刊載的絕大部分中文文章;(2)《香港年報》(中文版)1997年至2022年的正文内容;(3)香港特別行政區政府新聞公報1997年至2023年的部分新聞(每月1號、15號隨機選取1篇)。上述語料總計約8,672,663字,語料内容覆蓋政治、金融、科技、文化、民生等多個領域,在時間上跨越了香港回歸以來的26年。

我們希望能通過開放此語料庫,為香港中文書面語的教育與研究提供參考。如果您在使用語料庫的過程中遇到問題,或有任何意見或建議,歡迎致函香港教育大學中國語言及中文教育研究中心電郵crcle@eduhk.hk

使用說明

1. 此語料庫支持繁體中文及英文檢索,每次檢索的字符數範圍為1-49。

2. 此語料庫支持使用SQL LIKE Pattern進行檢索。例如檢索「香港%經濟」可以得到同時包含「香港」和「經濟」兩個詞條,且「香港」出現在前,「經濟」出現在後的語料。檢索「香港_經濟」可以得到同時包含「香港」和「經濟」兩個詞條,且「香港」出現在前,「經濟」出現在後,兩者中間相隔1個字符的語料(依此類推,「香港__經濟」代表「香港」和「經濟」中間相隔2個字符)。

3. 在進行檢索之前,使用者可通過勾選「來源」和「年份」中的選項對檢索範圍進行篩選。例如僅勾選「香港年報」和「2023」兩個選項,即代表僅在2023年的《香港年報》中進行檢索。

4. 檢索結果呈現後,使用者可點擊語料條目以查看該語料所出現的上下文語境。

5. 此語料庫支持下載檢索結果,下載文件默認為CSV格式。若無法正常打開,可嘗試以下方法:打開一個新的EXCEL工作表 > 數據(Data) > 從文本/CSV(From Text/CSV),再按指示選擇下載的CSV文件即可。

引用格式

如需引用本語料庫,可參考以下格式:

香港教育大學中國語言及中文教育研究中心,香港中文書面語語料庫,訪問日期:xxxx年xx月xx日,http://ccwlhk.eduhk.hk

Centre for Research on Chinese Language and Education, The Education University of Hong Kong, Corpus of Chinese Written Language in Hong Kong, access date: yyyy-mm-dd, http://ccwlhk.eduhk.hk

鳴謝

本研究得到香港教育大學人文學院發展基金項目的資助(項目名稱:Strengthening Interinstitutional Collaborations with Renowed Regional Academia and Enhancing Digital Humanities,E0483)。

開發團隊:朱慶之教授、梁源博士、武大真博士、丁泓棣博士。感謝香港教育大學語言學及語言研究中心(Centre for Research on Linguistics and Language Studies)的劉擇明博士、黃俊鑫先生建設網站。感謝莊寶苗小姐幫忙整理語料。

參考文獻

崔希亮(2020)。正式語體和非正式語體的分野。《漢語學報》,2,16-27。

馮勝利(2010)。論語體的機制及其語法屬性。《中國語文》,5,400-412。

胡明楊(1957)。書面語和口語之間的關係。《教學與研究》,2,27-30。

石定栩、朱志瑜、邵敬敏(2006)。《港式中文與標準中文的比較》。 香港:香港教育圖書公司。

田小琳主編(2022)。《港式中文語法研究》。香港:中華教育。

汪平(2013)。試論書面語與口語、方言、普通話的關係。《中國方言學報》,3,201-207。