① ccl語料庫的檢索方法
咨詢記錄 · 回答於2021-12-11
② 量化研究中語料庫的研究方法的優點和缺點
摘要 量化研究方法有以下優點:
③ 怎麼利用語料庫做古代漢語語法化研究
詞語轉類在各種語言現象中普遍存在。它指的是不經過任何詞形變化直接用於其它詞性的詞。現代漢語中的名轉動詞現象一直是語言學家關注的焦點。回顧以往的研究可以發現,研究者們主要從結構主義語言學、轉換生產語言學、認知語言學和功能語言學等不同的理論出發,對名轉動詞現象做出了不同程度的描寫和解釋,他們的研究對更好地理解這一語言現象有重要意義。語言的轉變處於一個持續變化的連續系統,而非一成不變的封閉系統。名詞徹底轉換為動詞要經過活用和兼類兩個階段才能成功完成。活用具有臨時性,是偶然出現的用法,詞典不會對其活用詞性加以標注;而兼類具有穩定性,詞典上會對其新詞性加以標注。以往研究多側重於不同理論對名轉動詞現象的解釋,對轉換過程中處於活用和兼類這兩個不同階段的詞語的使用特點則研究較少。為彌補該不足,本文將藉助《現代漢語詞典》(第五版和第六版)以及北大漢語語料庫(CCL)在以下方面做出有益嘗試。第一,搜集第五版現代漢語詞典中名轉動詞的活用詞;第二,藉助第六版現代漢語詞典找出這些詞中哪些已經變為兼類詞;第三,對仍是活用詞的和已經變為兼類的這兩類詞在北大漢語語料庫中的語料進行比較和研究,通過定性和定量分析,對它們被用作動詞的頻率、分布以及語料來源進行比較,結果發現兼類被用作動詞的平均頻率大約是活用被用作動詞的平均頻率的十倍,而活用和兼類被用作動詞的頻率在不同的文本體裁中也呈現不同的特點。最後,本文藉助認知語言學中的凸顯理論和轉喻對名轉動詞的活用和兼類做進一步比較,發現活用詞的動詞意義並不穩定,只適用於一些特定語境,而兼類詞的動詞意義比較固定,已成為中心詞義的一部分。
④ 如何評價語料庫語言學的研究方法
通過定性與定量相結合的研究發現,網路體育英語新聞標題在詞彙、結構、時態和修辭方面具有自身獨特文體特徵:新聞標題的平均詞長比一般文體稍長,並常通過省略虛詞、使用縮略語、短小詞彙、復合詞、詞性轉換、大量動詞片語、一般現在時態以及暗喻、換喻和雙關等多種修辭手法來豐富新聞的描寫。
⑤ 如何建立自己的語料庫
基本上沒有辦法建立相應的語料庫,優質的原語料是優質語料庫的前提。
動態變化的語料庫:大眾傳播媒體的情況是在不斷變化的,語料庫也要相應變化.(例如:1978年,中國報紙只有186種,基本上是單一的黨委機關報,到1995年底,已經增加到2202種,平均期印數增加4倍,總印張增加3·5倍,報紙的品種,功能,發行都有了相當大的變化如果要科學地反應語言的流通應用情況,語料庫的容量,選材,抽樣等怎麼可能一成不變呢)。
(5)語料庫研究的方法擴展閱讀:
語料庫的分類:
1、是研究雙語語料的對齊技術(Alignment),國內外學者就此提出多種策略和方法,已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993];
2、是研究雙語語料的各種應用,如在基於統計的機器翻譯技術[Brown 1990]、基於實例的機器翻譯技術[Nagao 1984],雙語詞典編纂[Klavans and Tzoukermann 1990]技術中,雙語語料庫都發揮著十分重要的作用;
3、是雙語語料庫的設計、採集、編碼和管理問題。比較著名的語料庫編碼方案有TEI 文本編碼標准以及CES標准,兩者均基於SGML標記語言研究
指不只有一種語言的語料庫。分為平行語料庫和對照語料庫兩種。平行語料庫指庫中的兩種或多種文本互相是對方的譯文,因此可以用於翻譯或者機器翻譯研究;對照語料庫中兩種或多種語言的文本不構成對譯關系,只是領域相同,主題相近。通常只能用於兩種或多種語言的對比。
⑥ 什麼是語料庫
語料庫中存放的是在語言的實際使用中真實出現過的語言材料。
⑦ 如何建立自己的語料庫
1.建立單語語料庫比較簡單,只需要准備好相關語料(古代漢語/現代漢語/英文/其他語言),將語料導入AntConc軟體進行檢索即可。知乎上有大神的帖子寫過具體方法:建立你自己的專屬英語語料庫,媽媽再也不擔心你的寫作。
2.建立雙語語料庫,你需要先准備雙語對照(如中英對照)的原文和譯文,進入Tmxmall在線對齊頁面,將語料導入進行句級對齊,再導出為tmx格式,即為自己的雙語語料庫,可以用於後續的學習和研究。
⑧ 怎樣創建語料庫
首先要明確建立的是單語語料庫還是雙語語料庫,因為用到的建庫軟體和方法不一樣,單語語料庫的建立過程相對簡單一些。
語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠在語料採集的原則和方式上有所體現。有人曾經把語料庫分成四種類型:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各種語料。
⑵同質的(Homogeneous):只收集同一類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;⑷專用的(Specialized):只收集用於某一特定用途的語料。
除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的採集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文本收集到一起,多用於語言對比研究。
已經累積了大量各種類型的語料庫,如:葡萄牙語料庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據(OpenSubtitles Corpus)、《聖經》雙語語料庫("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服務(SMS)語料)等。
⑨ 怎麼建立語料庫
1. 多做翻譯,之後把翻譯對齊(可以用Tmxmall做在線對齊,比較簡單),對齊後的文件便是tmx語料庫格式
2. 自己到網上下載相關語料,然後做對齊,製作tmx雙語文件
3. 倘若公司以前有做過的翻譯語料,直接可以用Tmxmall做對齊,復用以前的翻譯
4. 用TMROBOT管理語料,防止語料太亂以及語料丟失
建立語料庫最大的任務就是做對齊,對齊效率越高,准確率越高,用處就越大。
Tmxmall對齊方式是先基於段落對齊,然後再細化為句對齊,很好的提高了工作效率及准確。
其次,在線對齊使得對齊工作變得更為簡單,易操作。
⑩ COCA語料庫是如何建設的
語料庫建設過程包括規劃階段、需求分析階段、資料庫框架設計、語料收集、語料導入、雙語句子對齊、雙語句子分詞、語料校對。
語料庫的總體設計和框架設計是語料庫研究和創建的第一步,決定著今後語料庫研究和應用,是和研究需要和目的緊密相關的。在通過分析研究需求明確建庫目的後,要設計語料庫的規模和語料收集范圍,在對語料進行收集和加工整理過程中要系統地整理,清理雜志,去除多餘的無用信息,統一格式和存放方式。