人文科普:花1年隻為訂正1個單詞:沉澱的"牛津詞典"開始求變
來源:網易科技
發布時間:2020-10-31
瀏覽次數:2178

 出品|網易科學人欄目組 晗冰

  據國外媒體(ti) 報道,幾個(ge) 世紀以來,詞典編纂者都試圖捕捉整個(ge) 英語語言的所有單詞。而技術發展可能很快就會(hui) 將這個(ge) 夢想變為(wei) 現實,但這會(hui) 終結傳(chuan) 統的詞典嗎?

  2009年2月,一位名為(wei) @popelizbet的推特用戶向名叫科林的人提出了一個(ge) 具有明顯曆史性的問題:她問科林是否能夠對她“自以為(wei) 是地解釋”( mansplain)一個(ge) 概念。,事實上,去年夏天發表mansplain這個(ge) 詞的詞典編纂者伯納德特佩頓(Bernadette Paton)相信這是第一次有人以可記錄的形式使用這個(ge) 詞。 “它已被刪除了,但我們(men) 抓住了它,”帕頓滿意地告訴我。

  在牛津大學出版社的辦公室裏,帕頓正在為(wei) 牛津英語詞典《牛津英語詞典》起草一個(ge) 全新的條目。當我造訪這裏的時候,她的文件托盤上還有關(guan) 於(yu) “雪花“(snowflake)等詞條,這個(ge) 略帶有千禧年色彩的詞來自於(yu) 1983年的基督教文本(“你們(men) 都是一片雪花,沒有兩(liang) 個(ge) 人一樣” You are a snowflake. There are no two of you alike)。在《牛津英語詞典》編纂者的列表中,大約有30,000個(ge) 這樣的詞條;而每年還會(hui) 再增加7000個(ge) 。 “每個(ge) 人都認為(wei) 我們(men) 很慢,但實際上處理的速度已經相當快了,”帕頓說,“雖然我們(men) 有一位同事確實花了一年的時間修改'去'(go)這個(ge) 詞”。

  聽起來花費12個(ge) 月的時間去追溯僅(jin) 僅(jin) 由兩(liang) 個(ge) 字母組成的單詞曆史似乎非常愚蠢。但是,像牛津英語詞典這樣基於(yu) 史實的字典編纂的目的就是賦予這種問題應有的莊嚴(yan) 。作為(wei) 牛津英語詞典的編纂者,他們(men) 可能需要瀏覽十年前在Twitter的使用痕跡,亦或拚湊出堪稱英語中最古老動詞之一的詞義(yi) 變化(在英語中,go前前後後有多達537種不同的語義(yi) )。 “那麽(me) ,我們(men) 必須把事情做好,” 牛津英語詞典現任總編輯邁克爾·普羅菲特(Michael Proffitt)告訴我。

  從(cong) 一個(ge) 層麵上講,再沒有東(dong) 西比字典更簡單的了:隻是人們(men) 使用或已經使用的單詞列表,並解釋這些單詞現在的含義(yi) 或者是曾經的含義(yi) 。然而,從(cong) 另一個(ge) 層麵上講——也就是詞典編纂者煩惱和迷戀的層麵——很少有事情會(hui) 更複雜。誰使用過這些詞,何時何地使用這些詞?你如何知道的?其中還包括哪些詞,以什麽(me) 語義(yi) 語境為(wei) 基礎?你如何從(cong) 中辨明這個(ge) 詞的語義(yi) ?到底什麽(me) 是“英語”?

  對於(yu) 像牛津英語詞典這樣的詞典——其聲稱為(wei) 公元1000年到現在的英語中的每一個(ge) 單詞提供一個(ge) “確定”記錄——這個(ge) 問題甚至更難回答:我們(men) 能否全麵理解、調查和分析這種處於(yu) 不斷發展之中的活的語言?與(yu) 詞典編纂人員交談會(hui) 讓人有些擔心再使用“字麵意思”這個(ge) 詞,但是對於(yu) 一本明確的詞典來說,實際上並沒有所謂的字麵意思。即便你到達了山頂,也會(hui) 發現需要探索的內(nei) 容又擴大了100英尺。然後你意識到它甚至不僅(jin) 僅(jin) 是一座山,而是地球上一係列連貫的山脈。 (在這個(ge) “英語全球化”的時代,這種比喻似乎很恰當。)

  盡管如此,正如作家西蒙溫徹斯特(Simon Winchester)在其關(guan) 於(yu) 《牛津英語詞典》曆史的書(shu) 中所描述的那樣,對“一切語義(yi) ”的追求已經吸引了幾代詞典編纂者。從(cong) 維多利亞(ya) 時代設立一個(ge) “委員會(hui) 用於(yu) 收集未登記英語單詞“的發起者,到《牛津英語詞典》第一位稱職編輯,不知疲倦的詹姆斯默裏(James Murray)都是如此。默裏曾為(wei) 第一版《牛津英語詞典》的出版花費了長達36年的時間。打造一本完美英語字典的夢想可以追溯到啟蒙運動時期,即通過對語言進行分類和規範,人們(men) 可以,也許是可能提煉出人類思想的本質。 1747年,塞繆爾約翰遜(Samuel Johnson)在他即將開始的英語詞典“計劃”中宣稱,他將創造的不僅(jin) 僅(jin) 是“一本可以固定我們(men) 的語言發音的詞典,也將促進英語的學術影響力;通過詞典英語的純粹性可以得到保存,用途被確定,並延長其持續時間“。詞典使得英語不會(hui) 僅(jin) 按字母順序排列,也將使得語言得以永久保存。

  在第一版出版後的第90年,比約翰遜詞典更久遠《牛津英語詞典》目前正在進行第三版,這是一個(ge) 涉及每個(ge) 詞條大修的浩大工程(其中許多詞的語義(yi) 要追溯到維多利亞(ya) 時代晚期),並添加至少30,000個(ge) 遺漏的單詞,以及將詞典完全數字化。原計劃整個(ge) 詞典的修訂工作將在2000年完成,然後推遲到2005年,然後又一次推遲到2010年。從(cong) 那以後,牛津英語詞典編纂委員會(hui) 就不再提及完成日期。我問普羅菲特他們(men) 的進度。 “大約48%,”他回答。

  這本字典的權威性和存在意義(yi) 毋庸置疑。20世紀80年代後期的某個(ge) 時候,普羅菲特的前任主編約翰辛普森(John Simpson)曾向英籍牙買(mai) 加作家及詩人本傑明·澤凡尼(Benjamin Zephaniah)請教名詞“skanking”的原始語義(yi) 。澤凡尼認為(wei) 最合適的解釋方法是到《牛津英語詞典》總部進行麵對麵的交流。決(jue) 定唯一解釋的方法是到《牛津英語詞典》總部進行私人的一對一表演。 Skanking正式被收錄進《牛津英語詞典》,被定義(yi) 為(wei) “一種搭配雷鬼音樂(le) 的西部印度舞風格舞姿,腰部以上身體(ti) 向前彎曲,同時膝蓋向上抬起,雙手順勢抓拍空氣。”

  這個(ge) 故事觸及到了一些深刻的東(dong) 西:在捕捉一個(ge) 詞時,可以就此觀察和定義(yi) 真實的生活體(ti) 驗。也就是說隻要你能夠理解所有的詞,也許就可以定義(yi) 真實存在。

  然而,第一批英文詞典編纂者製作者對捕捉整個(ge) 文化毫無幻想。漢語和古希臘語等語言相早在幾千年前就存在係統的,字典式的作品,但相比之下最早的英語詞匯直到16世紀才開始出現。英語詞匯過於(yu) 零碎,且繼承了多種語言,堪稱老盎格魯日耳曼語,挪威語,拉丁語、希臘語,以及諾曼法語的混合體(ti) 。

  這種雜交的語言已經足夠令人困惑了。但在16世紀中葉,由於(yu) 時局動蕩以及殖民貿易引發的新一輪移民潮,英語變得越來越混亂(luan) 。同期也帶來了很多新詞匯:諸如“酒精”( alcohol)誕生於(yu) 1543年,源自阿拉伯文以及拉丁文;“放棄”( abandonment)誕生於(yu) 1593年,來自法語。科學和醫學的發展加劇了這種混亂(luan) 。 1582年,理查德·馬爾卡斯特(Richard Mulcaster)呼籲學者“將我們(men) 在英語中使用的所有詞匯編成一本字典”。這樣一來可以規範拚寫(xie) ,另外也最終建立“適於(yu) 使用”的詞匯規則。

  1604年,一位名為(wei) 羅伯特·考德雷(Robert Cawdrey)的神職人員創造了一個(ge) 臨(lin) 時解決(jue) 方案:麵向“女士、名媛淑女以及其他技能不熟練人”出版了單一語言的《字母表》(Table Alphabeticall),在其中列出了大約2,500個(ge) “較難使用的詞匯”,這還不到當時常用語的5%。而且詞義(yi) 比較模糊,其中的“飲食”(diet)一詞被描述為(wei) “進食的方式”,也沒有任何解釋性的引用,更不用說追溯語源了。《字母表》的詞匯量非常少,甚至沒有關(guan) 於(yu) 字母W的條目。

  圖示:羅伯特·考德雷(Robert Cawdrey)於(yu) 1604年出版的《字母表》

  詞典編纂者一直在努力,但大多數時間的不斷嚐試都是徒勞。約翰·布魯卡爾(John Bullokar)於(yu) 1616年編纂的《詞匯書(shu) 》共有5000個(ge) 單詞,而亨利·科克蘭(lan) (Henry Cockeram)在1623年編纂的《字典》有8000個(ge) 單詞,這也是第一次作者將自己的作品命名為(wei) “字典”。而托馬斯·布朗特(Thomas Blount)在1656年編纂的字典有11000個(ge) 單詞。但似乎沒有人能夠用英語來捕捉“所有問題”,大家對於(yu) 詞義(yi) 並沒有達成一致。隨著時間推移,英語的發展速度比以往更快。你到底該從(cong) 哪裏開始?

  這個(ge) 時期,法語、意大利語以及西班牙語都已經出版了綜合字典,但英語卻沒有。1664年,英國皇家學會(hui) 組織成立了一個(ge) 22人的“改進英語”委員會(hui) ,僅(jin) 僅(jin) 召開了幾次會(hui) 議就宣告解散。 1712年,喬(qiao) 納森斯威夫特(Jonathan Swift)針對這個(ge) 問題發表了一番言論,對輕率使用英語的情況大加撻伐,堅持認為(wei) “應該考慮采用某種方法來明確和修複我們(men) 的語言” - 認為(wei) 英語需要進行詳實考證,英語使用者應該遵守一些規則。這個(ge) 提議撼動了每個(ge) 人。直到1746年,當一個(ge) 出版商財團設法說服塞繆爾約翰遜(Samuel Johnson?)接受這個(ge) “偉(wei) 大而艱巨的工作”時,英語綜合字典的完成似乎值得期待了。

  約翰遜的詞典最終在1755年完成,堪稱壯舉(ju) 。他收集了43500多個(ge) 單詞,估計囊括了當時慣用詞匯的80%。但在某些人看來,這不僅(jin) 僅(jin) 是編纂者的失敗,也是一次英雄式的失敗。與(yu) 他1747年計劃的自信滿滿和樂(le) 觀主義(yi) 相比,其在前言中關(guan) 於(yu) “固定”和“保存”的談話使得字典成為(wei) 了一個(ge) 純粹的現實主義(yi) 作品,。約翰遜解釋說,馴服快速發展的生物(如英語)的想法不僅(jin) 是不可能的,而且是荒唐可笑的:

  “我們(men) 往往會(hui) 嘲笑那些誇口能讓人活一千年的長生不老藥,並且藉此平等的所謂正義(yi) 驅使下,也會(hui) 嘲笑那些從(cong) 無到有創造的詞典的編纂者,而這一詞典是在不斷變化中保存我們(men) 這個(ge) 國度的語言。但是編纂者更樂(le) 於(yu) 想象,他的字典保證他們(men) 的語言不會(hui) 墮落和衰變,可以讓它們(men) 被銘記於(yu) 心。“

  正如約翰遜曾經幻想過的那樣,詞典編纂者可能會(hui) 幻想捕捉和固定詞匯的意義(yi) 。然而,對於(yu) 一種不斷變化的語言來說,將永遠不斷超越原有內(nei) 容。

  盡管如此,夢想仍在繼續。如果一本詞典能夠囊括從(cong) 有文字記錄到現在為(wei) 止的所有英語詞匯呢?業(ye) 界也提到了約翰遜詞典的修訂本或競爭(zheng) 對手的可能性,但事實上鮮有這種作品問世。1828年,一位名為(wei) 諾亞(ya) 韋伯斯特(Noah Webster)的美國康涅狄格州教師出版了第一本《美國英語詞典》(其中包含7萬(wan) 個(ge) 英語詞匯)後,英國人的自豪感再次受到威脅。

  1857年11月,倫(lun) 敦語言學會(hui) 召開會(hui) 議,聽取威斯敏斯特院長理查德·切尼維克斯·特倫(lun) 奇(Richard Chenevix Trench)所撰寫(xie) 的題為(wei) 《關(guan) 於(yu) 我們(men) 英語詞典中存在的一些缺陷》一文。這是一個(ge) 重磅炸彈:特倫(lun) 奇爭(zheng) 辯說,英國英語詞典是如此不可靠,以至於(yu) 需要推倒重來。站在現有立場上,他簡要介紹了關(guan) 於(yu) “一本字典的真實想法”。這種柏拉圖式的資源應該嚴(yan) 格按照學術上的曆史線索進行匯編,甚至要深入到古語源學語言的洞穴之中。它應該客觀描述而不是硬性規定,對於(yu) 從(cong) 盎格魯-撒克遜單音節詞到最新的技術術語都應當秉持客觀公正的態度。最重要的是,它應該是全麵的,給予特倫(lun) 奇所謂“我們(men) 的母語”以榮譽感。

  對語言整體(ti) 性的追求可能已有數百年曆史,但是,像一條偉(wei) 大的鐵路或重要橋梁一樣,這本新字典將是徹底的維多利亞(ya) 時代產(chan) 物:科學態度,冒險精神,史詩般宏大和代價(jia) 高昂。編纂這樣一本字典完全是是愛國義(yi) 務的使然。特倫(lun) 奇堅持說:“字典是曆史豐(feng) 碑,是一個(ge) 民族的曆史”。

  在最初的二十年裏,所謂的“新英語詞典”看起來好像會(hui) 走以前許多類似項目的老路。第一位總編輯在入職一年後離世,留下了一個(ge) 爛攤子;第二個(ge) 總編輯是一位女性,注意力完全沒有在字典編纂上。事實上,直到牛津大學出版社在1879年說服一位小有名氣的蘇格蘭(lan) 教師和文學家詹姆斯默裏(James Murray)擔任主編後,新英語詞典的編纂工作才開始走上正軌。

  圖示:詹姆斯默裏(James Murray)組織編纂了第一版《新英語詞典》,於(yu) 1928年出版

  默裏的主旨思想是通過誌願者在報紙和圖書(shu) 館書(shu) 籍中尋找引語,以此來說明單詞隨著時間而變化的方式 - “語料庫”將使字典盡可能準確。來自世界各地和各行各業(ye) 的2000多名英語愛好者聚集了大約500萬(wan) 條詞匯引語,為(wei) 默裏的詞典編纂者團隊提供了大量幫助,而編纂者們(men) 則一邊翻閱字母表,一邊界定詞匯。即使一個(ge) 單詞的此以明確,相應工作都會(hui) 花費很長時間,比預定的時間要長得多——項目正式實施五年之後,工作進度仍然處於(yu) 字母A的一半——而默裏督促著詞典的編纂工作。“如果沒有他,這是不可能的,”編劇以及《牛津英語詞典》曆史學家Peter Gilliver說。

  詞典的第一部分於(yu) 1884年出版,從(cong) A到Ant,並在接下來的40多年中定期結集出版。盡管默裏於(yu) 1915年去世——這時詞典已經編纂到“Turndun”和“Tzirid”之間的某個(ge) 地方——但相關(guan) 編纂工作依然持續下去。 1928年這部詞典的完整版終於(yu) 問世:一共10卷,涵蓋了約414,800個(ge) 詞條和短語,每個(ge) 詞都有一個(ge) 定義(yi) ,詞源,此外共有180萬(wan) 條引用語,用於(yu) 讀者了解該詞匯的使用情況。

  這是有史以來用現有語言編寫(xie) 的最大書(shu) 籍之一:如果你把所使用的活字金屬首尾相連,它將從(cong) 倫(lun) 敦延伸到曼徹斯特。這部詞典的問世或許遲到了60年,但出版商最大程度地宣傳(chuan) “牛津字典是最高權威,沒有競爭(zheng) 對手”。

  然而如果仔細研究一番,它的缺點也是顯而易見的。1928年出版時,這個(ge) 維多利亞(ya) 時代的大部頭已經過時了。A-C條目的詞匯是在近50年前編製的;其他詞匯依托的學識已經過時,特別是科技領域的詞匯非常明顯。在詞典編纂者內(nei) 部,人們(men) 也承認字典(M-Z)後半部分的質量要好於(yu) 前麵(A-L)。字母E相關(guan) 的詞匯被認為(wei) 是特別差的。在其他缺陷中,默裏反對“杏仁蛋白軟糖”( marzipan)一次,寧可將它拚成了“碎杏仁製成的餅”( marchpane)。默裏還認為(wei) 不應該收錄形容詞“非洲的”( African),因為(wei) 它不是一個(ge) 單詞。

  唯一的解決(jue) 辦法是對詞典進行修訂。 《牛津英語詞典》的第一個(ge) 增補版於(yu) 1933年問世,收錄了編輯在星空体育官网入口网站過渡期間發現到的新詞以及原始遺漏問題。第二次增補於(yu) 1957年開始,最終在1972年至1986年期間分四期出版,共計69,300多項新詞條。然而,這似乎是一場失敗的戰鬥,也算是芝諾悖論(Zeno's paradox)的一種特殊形式:《牛津英語詞典》詞典編纂者離終點線越近,終點線看起來就越遠。

  與(yu) 此同時,他們(men) 前進的方式有所改變。到了20世紀60年代後期,計算機主導的方法被稱為(wei) “語料庫語言學”,迫使詞典編纂者重新審視他們(men) 對語言運作方式的深刻假設。它不是以舊式的方式製作字典——在已有的單詞/定義(yi) 列表中進行工作,並尋找證據證實你所認為(wei) 的詞義(yi) ——語料庫語言學則將過程放在首位:您使用數字技術來獲得人們(men) 真正書(shu) 寫(xie) 或說話的詞匯,並據此編纂詞典。第一部現代語料庫是標準美國英語的布朗語料庫,於(yu) 1964年編纂,一共收錄了100萬(wan) 字,其中包括浪漫主義(yi) 小說,宗教短片以及當代“流行星空体育官网入口网站”和日常用語在內(nei) 的500多個(ge) 文本。其中的每一個(ge) 來源都未被詞典編纂者谘詢過,語料庫的體(ti) 量也不可能被審核。事實上,當前為(wei) 詞典提供原材料的通用語言語料庫包含數百億(yi) 字,超過了詞典編輯最瘋狂的想象。

  如何構建語料庫並沒有限製:去年在伯明翰舉(ju) 行的語料庫語言學會(hui) 議上,我看到研究人員會(hui) 瀏覽大學Twitter用戶的慣用語,也會(hui) 通過分析英國法官的判決(jue) 言論來梳理性別偏見的相關(guan) 證據。

  對於(yu) 詞典編纂者來說,語料庫語言學最讓人興(xing) 奮的是它可以讓你窺探非正規用語。整理出現特定詞匯的短語可以讓你解開這個(ge) 詞不同的意義(yi) 。探究一個(ge) 詞是如何被“誤用”的,暗示著它的重心可能在發生變化。例如,比較代表性的語料庫可以讓你看到特朗普支持者頻繁地部署一個(ge) 名詞,比如說“自由”,以及這個(ge) 詞在Black Lives Matter運動中的用法有多不相同。 “這完全改變了我們(men) 所做的事情,”詞典編纂者邁克爾·潤德爾(Michael Rundell)告訴我,“這產(chan) 生了自下而上的影響。你必須重新思考幾乎所有的事情。“

  但是,盡管其他詞典出版商推崇語料庫語言學,但《牛津英語詞典》的編輯們(men) 則堅持他們(men) 所了解的,抵製電腦化並依靠大學圖書(shu) 館和研究人員提供的引用語進行編纂。在20世紀70年代和80年代,很少有人想到要徹底改變這最偉(wei) 大的曆史詞典,更不用說讓它保持最新狀態:它的漏洞和原來一樣多。當《牛津英語詞典》第二版於(yu) 1989年3月出版時——一共20卷,其中包含291,500個(ge) 詞條以及240萬(wan) 條引用語——有人抱怨說這根本不是真正的新版詞典,隻是一個(ge) 換了排版的舊版詞典。關(guan) 於(yu) “計算機”( computer)的詞條將其定義(yi) 為(wei) “計算用機器;尤其是用於(yu) 執行數學或邏輯運算的自動化電子設備“。這是從(cong) 1897年的一本期刊中引用的。

  令人吃驚的巧合是,就在《牛津英語詞典》第二版問世的當月,一條爆炸性消息撼動了世界:一位英國計算機科學家蒂姆·伯納斯-李(Tim Berners-Lee)提出的“大型超文本數據庫”的概念。這個(ge) 稱之為(wei) 萬(wan) 維網的技術為(wei) 詞典化未來提供了一條閃亮道路。數據庫可以共享,並相互連接;用戶可以掃描整個(ge) 圖書(shu) 館,並可以檢索其中的內(nei) 容。人們(men) 使用電腦和調製解調器就可以獲取所有現存的文本。

  隨之而來的可能性令人目不暇接。在紐約客於(yu) 1989年發表的一篇文章中,牛津大學出版社一位管理人員興(xing) 奮地說,如果詞典能夠與(yu) 語料庫語言學資源恰當結合,那麽(me) 可以實現一些特殊的事情:“柏拉圖式的概念 - 理想的數據庫”。這正是《牛津英語詞典》創編人特倫(lun) 奇在132年前所提出的理想:一千年甚至更長時間內(nei) 的每一個(ge) 英語單詞都被展現出來。

  事實上,現在可以從(cong) 網上獲得如此多的文本,這是最為(wei) 劇烈的變化。現在已經講過的單詞現在在社交媒體(ti) 上輸入。俚語專(zhuan) 家強納森·葛林(Jonathon Green)說:“長期以來俚語詞典專(zhuan) 家一直夢想能夠追蹤詞匯的不同使用形式。”現在,通過Facebook或Instagram,這實際上是可以實現的。詞典編纂者幾乎可以在詞語誕生的那一刻發現:在此之前,編纂者針對諸如“mansplain”之類的詞語將不得不尋找能夠證實其存在的印刷記錄。

  當《牛津英語詞典》在19世紀50年代首次被構想時,英語是不列顛群島、北美洲大部以及海外殖民地的官方語言。如今,世界上近四分之一的人口,也就是15億(yi) 人口把英語作為(wei) 第二語言。英語也有許多區域性變體(ti) ,從(cong) 西印度群島到西非再到威爾士都是如此。所有這些區域性英語比以往任何時候都有更加明顯的特征,每種英語都以更大更快的速度互相交織。

  “英語圈有一個(ge) 明確的中心,但沒有明顯的界限,”詹姆斯默裏(James Murray)曾寫(xie) 道,但現代詞典編纂者並不同意這一點。不是一個(ge) 中心,而是有許多相交的區域,每個(ge) 區域使用不同的英語,還受到地理背景或遺產(chan) ,價(jia) 值觀,其他語言,以及幾乎無法估量的變量影響。區域的變化比以往任何時候都快。如果如《牛津英語詞典》詞典編纂者所說,每年的確會(hui) 出現約7,000個(ge) 新單詞,那麽(me) 在你閱讀這篇文章的時候,可能還會(hui) 再出現兩(liang) 個(ge) 新詞。

  當然,大多數人現在從(cong) 不使用詞典。他們(men) 隻需在維基百科上鍵入短語(比百科全書(shu) 更常用,而不是百科全書(shu) ,研究表明),或者依賴於(yu) 穀歌搜索。穀歌通過與(yu) 牛津英語詞典的合作為(wei) 用戶提供詞義(yi) ,發音,詞源,隨時間的變化和翻譯。如果你想知道一個(ge) 詞的含義(yi) ,你可以對著智能音箱的Siri或Alexa上大喊一番。

  詞典網站Dictionary.com的簡薩洛蒙(Jane Solomon)指出,詞典更新的速度太慢了。 “信息檢索正在發生如此之快的變化,”她說,“為(wei) 什麽(me) 詞典無法對語義(yi) 或用戶環境做出反應,比如弄清楚你正在尋找食物詞匯,並且給你相關(guan) 的詞匯或食譜?”她認為(wei) 詞典展示的不僅(jin) 僅(jin) 是文字:“我喜歡表情符號,這非常有創意。表情符號已經成為(wei) 一門完全獨立的語言。人們(men) 有時需要解釋;如果你給女兒(er) 發送茄子表情符號,她可能會(hui) 覺得這很奇怪。”

  圖示:出版於(yu) 1928年的第一版《新英語詞典》

  有些人的想法更大。其中一位是羅馬Sapienza大學的計算機教授Roberto Navigli,他在2013年開發了一個(ge) 名為(wei) Babelnet的網站,該網站的目標是成為(wei) 擊敗所有現有詞典的詞典。這要歸因於(yu) 它並不是真正意義(yi) 上的詞典,其被稱之為(wei) “語義(yi) 網絡”,可將現有資源(包括維基百科,維基詞典和微軟術語)匯集到一起,旨在創建一個(ge) 不僅(jin) 包含英語而且包含271種語言的全麵層次化根映射,使其成為(wei) 最大的詞庫和百科全書(shu) 。 Navigli告訴我他的真正目標是使用“語義(yi) 技術”為(wei) 各地的軟件工程師提供終極武器:自動化文本閱讀器。 “這是夢想,對吧?”他說,“可以閱讀文字並理解我們(men) 所說的一切的機器。”

  當然,機器已經理解了很多。有些人曾談到了“文化經濟學”,這是算詞匯學的一種計形式,它使用語料庫工具來分析和預測人類行為(wei) 的趨勢。一項為(wei) 期31個(ge) 月的Twitter用語研究試圖衡量英國民眾(zhong) 對緊縮政策的反應情緒。至少在大數據環境下,計算機和掌握數據的信息巨頭可能比我們(men) 自己更能理解語言的本質。

  對於(yu) 詞典編纂者和穀歌之流來說,探究語言仍然存在固有的障礙。現在構建書(shu) 麵文本語料庫,在特定環境中理解語言作用相對容易,但是關(guan) 於(yu) 口語的處理就要困難得多。原因很明顯:錄製語音,然後創建一個(ge) 可用的數據庫既費時又昂貴。語音語料庫確實存在,但體(ti) 量小且不具代表性。

  對於(yu) 詞典編纂者而言,發音是所有人最寶貴的資源,也是最難以捉摸的。如果你能夠捕捉到大量樣本——從(cong) 操場,辦公室食堂到超市,人們(men) 會(hui) 在每一種可以想象到的環境中講話——你就可以更加準確地監控人們(men) 日常使用語言的方式。 “如果我們(men) 破解了用於(yu) 轉錄正常對話的技術,”邁克爾朗德爾(Michael Rundell)說,“它確實會(hui) 改變遊戲規則。”

  對於(yu) 《牛津英語詞典》的編輯們(men) 來說,這個(ge) 世界既令人振奮又令人感覺有壓迫感。數字時代使得牛津英語詞典的編纂者能夠獲取關(guan) 於(yu) 該語言更深層次的信息,但它也有可能導致操作失誤。當你製作一本曆史詞典並被要求審查每一種資源時,例如當審查關(guan) 於(yu) 17世紀手寫(xie) 體(ti) 信件的相關(guan) 信息時,信息量堪稱噩夢。單詞使用比以往更可見,變化速度要更快,相關(guan) 信息也會(hui) 以指數形式增加。 “在數字化的早期,我們(men) 有點失控,”彼得·吉利弗(Peter Gilliver)告訴我,“這是永無止境的,”一位《牛津英語詞典》文字學家也同意這一點,“你可以感覺到自己正在掉入蟲洞。”

  此外一個(ge) 挑戰讓人難以理解:當越來越多的人更頻繁地查閱類似於(yu) 詞典的資源時,幾乎沒有人願意為(wei) 此掏腰包。印刷版詞典的銷售已經瀕臨(lin) 崩潰,這一形勢遠遠超過其他行業(ye) 。邁克爾·朗德爾(Michael Rundell)告訴我,牛津英語出版社拒絕給我提供相關(guan) 數字,表示牽扯到“商業(ye) 敏感性”。雖然實體(ti) 參考書(shu) 目的出版商紛紛合並或走到了盡頭,但諸如穀歌和蘋果等科技巨頭卻在通過搜索資源以售賣信息。對於(yu) 用戶來說,如果完全可以通過操作智能手機來查找詞義(yi) ,那為(wei) 什麽(me) 還要拿起一本書(shu) 呢?

  “現在去詞典學術會(hui) 議,你會(hui) 看到很多行外人,”朗德爾說。盡管他接受過詞典編纂者的培訓,但他現在主要擔任顧問,為(wei) 出版商提供建議,該如何使用基於(yu) 語料庫的資源。 “它曾經是一種職業(ye) ,”他接著說,“但是30年前的工作並不是那麽(me) 簡單。”他指著他空無一物的架子,“但是,我對印刷業(ye) 的凋零不是太傷(shang) 感,我把大部分詞典都帶走了。“

  即使關(guan) 於(yu) 詞典編排的基礎設施已經完全失效或完全被改造,但有些東(dong) 西仍保持著一致性。每一位與(yu) 我交談的詞典編纂者都明確表達了對“單詞愛好者”的厭惡,在詞典界,所謂的單詞愛好者對單詞的解釋不會(hui) 多於(yu) 十個(ge) 詞條,還常常向人賣弄自己讀得出“世界上最長的英語單詞”。一向對人和藹可親(qin) 的約翰辛普森(John Simpson)毫不客氣地指出:“我認為(wei) 這種並不是在’享受’語言,而隻是在使用語言。”

  或許人們(men) 最不願承認是的,愛好才是讓人們(men) 花費畢生精力去篩選和分析語言的主要原因。要成為(wei) “關(guan) 於(yu) 單詞的偵(zhen) 探”需要特殊的才能:他們(men) 普遍是語言學學者,檔案史學家,記者和傳(chuan) 統偵(zhen) 探的綜合體(ti) 。盡管語料庫語言學家與(yu) 傳(chuan) 統的詞典編纂者相比,語料庫語言學家和學術語源學家之間的矛盾還不是很大,但詞典編纂似乎是一種特殊的專(zhuan) 業(ye) 的專(zhuan) 業(ye) ,參與(yu) 的人們(men) 有著一種揮之不去的共同目標感:我們(men) 反對那種不斷擴張的多頭英語。英語。 “這是一種強迫症,”簡·所羅門(Jane Solomon)如是指出。

  她繼續說,大多數詞典編纂者都知道,所謂製作完美語言資源的想法是非常愚蠢的。“我從(cong) 過去的詞典學了太多東(dong) 西,以至於(yu) 曾經把這個(ge) 想法當作個(ge) 人目標。”但是,成為(wei) 詞典編纂者的興(xing) 奮之處在於(yu) ,他們(men) 知道這項工作永遠不會(hui) 完成。英語總是變形、發展、演變;不安分的活力讓它是如此得引人入勝。“英語總是在變化,”所羅門說,“你必須喜歡它。”

  關(guan) 於(yu) 詞典編纂還有其他的樂(le) 趣:捕捉到新釋義(yi) 的激動,或者創造出一個(ge) 不完美、至少正確的定義(yi) 。 “這聽起來很俗氣,但它可以像詩歌一樣,”邁克爾·朗德爾(Michael Rundell)反思道, “編纂一本詞典和其他手藝一樣都是一門藝術。”

  盡管他對這個(ge) 行業(ye) 持悲觀態度,但他對於(yu) 自己即將加入的項目感到非常興(xing) 奮。他與(yu) 來自澳大利亞(ya) 土著語言中心的專(zhuan) 家一起合作研究當地土著語言,其中不少專(zhuan) 家都是詞典編纂者。 “詞典可以做出真正的改變,”他說,“它們(men) 可以為(wei) 過去的偏門語言帶來更多影響力;它們(men) 可以幫助保存和分享語言。我真的相信這一點。”

  在詞典發展的整個(ge) 過程中,《牛津英語詞典》都在努力,想要比遺忘更完美地完成今天的任務。詞典編纂團隊現在更傾(qing) 向於(yu) 將其稱為(wei) “移動文檔”,隻添加單詞,但不會(hui) 刪除。他們(men) 永遠不會(hui) 被刪除。我向邁克爾·普羅菲特(Michael Proffitt)說,現在的《牛津英語詞典》就像一艘驕傲而又漏水的維多利亞(ya) 式戰艦,船員們(men) 試圖在阻止其漏水,同時保證其安全,他看上去反應冷淡。“我過去常說,這就像在為(wei) 福斯橋塗油漆,永無止境。但後來他們(men) 又停了下來——我想是有了一種新的油漆。”他停頓了一下,“但現在隻有我們(men) 。”

  現在《牛津英語詞典》每年在線更新四次;雖然《牛津英語詞典》還沒有正式放棄印刷版的想法,但這個(ge) 想法正在消失。在我第一次問《牛津英語詞典》進度的七個(ge) 月後,我又問了一次;現在已經完成了48.7%。“我們(men) 會(hui) 把它完成的,”普羅菲特堅持說,我想詹姆斯·默裏(James Murray )可能會(hui) 對此報以微笑。如果說此次再版確實需要到2037年才能完成,那麽(me) 它的時間將會(hui) 與(yu) 第一版《牛津英語詞典》所花費的49年相匹敵。

  幾天前,我通過電子郵件查看“mansplain”是否已經被收錄進《牛津英語詞典》。雖然已經有了,但還是有一些障礙——更進一步的研究把這個(ge) 詞的起源向後回溯了六個(ge) 月,從(cong) 2009年2月倒推到了2008年8月。然後今年1月份帕頓公開結果時,就有人發郵件指出這樣還是不準確:他們(men) 在2008年5月的一篇博客文章中發現了“mansplain”。普羅菲特向我保證,將盡快確定最新的詞義(yi) 。

關(guan) 注【深圳科普】微信公眾(zhong) 號,在對話框:
回複【最新活動】,了解近期科普活動
回複【科普行】,了解最新深圳科普行活動
回複【研學營】,了解最新科普研學營
回複【科普課堂】,了解最新科普課堂
回複【科普書(shu) 籍】,了解最新科普書(shu) 籍
回複【團體(ti) 定製】,了解最新團體(ti) 定製活動
回複【科普基地】,了解深圳科普基地詳情
回複【觀鳥星空体育官网入口网站】,學習(xi) 觀鳥相關(guan) 科普星空体育官网入口网站
回複【深圳科普月】,了解更多科普月活動詳情

聽說,打賞我的人最後都找到了真愛。
做科普,我們是認真的!
掃描關注深i科普公眾號
加入科普活動群
  • 參加最新科普活動
  • 認識科普小朋友
  • 成為科學小記者