導航:首頁 > 研究方法 > 英漢語料庫採集及翻譯方法研究

英漢語料庫採集及翻譯方法研究

發布時間:2022-05-06 00:41:16

什麼是語料庫

語料庫中存放的是在語言的實際使用中真實出現過的語言材料。

② 語料庫的概述

名詞(corpus,復數corpora)
指經科學取樣和加工的大規模電子文本庫。藉助計算機分析工具,研究者可開展相關的語言理論及應用研究。
corpus
n. (pl. corpora)
refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be concted with the aid of computer tools.
語料庫是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。應用於詞典編纂,語言教學,傳統語言研究,自然語言處理中基於統計或實例的研究等方面。 語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠體現在語料採集的原則和方式上。有人曾經把語料庫分成四種類型:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各種語料;⑵同質的(Homogeneous):只收集同一類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;⑷專用的(Specialized):只收集用於某一特定用途的語料。
除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的採集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文本收集到一起,多用於語言對比研究。已經累積了大量各種類型的語料庫,如:葡萄牙語種樹庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據(OpenSubtitles Corpus)、《聖經》雙語語料庫(Bible bilingual corpus)、Short messages service(SMS) corpus(短消息服務(SMS)語料)等。 語料庫有三點特徵
⒈語料庫中存放的是在語言的實際使用中真實出現過的語言材料,因此例句庫通常不應算作語料庫;
⒉語料庫是承載語言知識的基礎資源,但並不等於語言知識;
⒊真實語料需要經過加工(分析和處理),才能成為有用的資源。
語料庫的發展經歷了前期(計算機發明以前),第一代語料庫,第二代語料庫,到第三代語料庫

③ 英譯漢語料語庫在哪裡

1、Tmxmall語料商城上有用戶已上傳的各類雙語語料庫,你需要英漢財經新聞語料庫,按語言對和類別檢索,或者直接搜索關鍵詞即可。

3、自己去各大貼吧和翻譯網站找資源,看看有哪位大牛分享。不過這個看運氣了,一般專業語料庫資源都是有「版權」的。

4、搜集英漢雙語語料,然後自己建庫吧。

如何利用語料庫輔助語言教學與研究

除了單語語料庫,網上還有英漢平行語料庫(parallel Corpora)。平行語料庫能對源語文本和其譯語文本進行檢索,並對照顯示。大量語境充分的雙語對照語言實例是單語語料庫和詞典(包括雙語詞典)無法比擬的。這為了解語言規律,特別是從漢語角度看漢英轉換,提供了全新的視角。中科院計算所軟體研究室開發的網上雙語句對資料庫(mtgroup.ict. ac. cn/corpus/query_process.php)有18萬對已對齊的中英文句子,提供簡單中英文查詢服務,能幫助學習者查詢翻譯時(尤其是漢譯英)的疑難表達,並往往能提供某一詞語或結構在語際轉換時的多種表達,這為翻譯時根據不同語境選擇最佳對等詞

⑤ 什麼是「語料庫語言學

語料庫語言學以語料庫為手段研究語言 ,是一門獨具特色的語言研究學科。語料庫是大量可用計算機處理的語料的集合。

⑥ 語言研究方法在語言研究中起什麼樣的作用求答案

一、引 言在歐洲,語料庫語言學已經成為語言學的主流分支。語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。它是一個由大量的語言實際使用的信息組成的、專供語言研究、分析和描述的語言資料庫。語料庫語言學是在語料庫的基礎上對語言進行分析和研究的科學。它是隨著計算機和網路技術發展應運而生的新的語言學研究領域和研究手段。經過科學選材和標注、具有適當規模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言事實,分析和研究語言系統的規律。
語料庫語言學為語言研究與教學提供了一種全新的方法和思路。它以真實的語言數據為研究對象,對大量的語言事實進行系統分析。它研究的是語言行為(language performance),而不是語言能力(language competence),也就是說它通過考察語言的實際運用來尋找語言使用的規律。
本文介紹了我國英語語料庫的發展狀況,對我國英語語料庫基礎上的研究進行了概括介紹,並探討了它在語言研究、詞典編纂和教學領域中的作用。期望對進一步展開英語語料庫研究有所幫助。
二、英語語料庫在我國的發展
近年來,英語語料庫語言學在我國取得了巨大進展,出現了眾多各種類型的英語語料庫,我國目前已有不少規模較大的語料庫。如:早在1982年,上海交通大學的黃人傑、楊惠中教授就主持建立了一百萬詞次的專門用途英語語料庫(JDEST)。2003年,桂詩春和楊惠中兩位教授主持完成了中國英語學習者語料庫(Chinese Learner English Corpus,簡稱CLEC),這是國際上第一部公開發布的學習者語料庫,它對研究中國學生的語言應用和使用失誤等特徵,以及它們與外語學習之間的關系等都具有十分重要的指導作用。除了書面語語料庫之外,研究者們也開始建立口語語料庫。如南京大學創建的中國學習者英語口語語料庫(Spoken English Corpus of Chinese Learners,簡稱SECCL)。上海交通大學也建立了大學英語學習者英語口語語料庫。與此同時,隨著個人電腦的普及,許多研究者個人也開始建立適合自己的小型語料庫,許多英語語料庫應運而生。這些英語語料庫大部分是中國英語學習者的中介語語料庫。
隨著英語語料庫數量的增多,我國語料庫基礎上的研究也越來越多。在計算機技術的支持下,語料庫方法被應用於語言研究的許多領域,如:詞彙、語法、語義、語用、語體研究、社會語言學研究、口語研究、詞典編纂、語言教學以及自然語言處理、人工智慧、機器翻譯、言語識別與合成等領域。
對中國學生英語的分析目前主要從兩方面進行:一是對比其他以英語為母語的語料庫來分析學習者的語料特徵;二是對失誤特徵進行分析。但是我國目前在語料庫基礎上的研究還處於起步階段,多使用語料的檢索和頻率統計結果。
三、英語語料庫在我國的應用
隨著計算機技術空前迅速的發展,英語語料庫也在我國迅速發展。語料庫方法在詞典編纂、語言研究和語言教學等方面也得到了越來越多的應用。語料庫是語言研究與教學的重要基礎,是編寫詞典、語法書和教材的重要源泉。
語料庫和語料庫語言學在當今語言研究由高度抽象轉向語言的實際使用這個過渡中起著十分重要的作用:一是提供真實語料;二是提供統計數據;三是驗證現行的理論;四是構建新的理論。提供真實語料是詞典編纂的生命線。現在流行的英語詞典幾乎全部是基於大規模語料庫編纂而成的。基於大規模語料庫的英語語法書也已經問世。在理論建設上,基於英國國家語料庫英語口語庫的研究表明,基於真實英語口語語料的英語口語語法跟基於書面語的語法有很大不同。
在應用語言學領域,詞典編纂和語言教學同是語料庫的最大受益者。目前已有多部詞典在編纂或修訂過程中,不同程度地使用語料庫或電子文檔收集詞語數據,用於收詞、釋義、例句、屬性標注等。南京大學近年來開發了NULEXID語料庫暨雙語詞典編纂系統,涉及英漢兩種語言,在《新時代英漢大詞典》的編纂過程中起了重要作用。
語料庫用於語言教學的一個例子是上海交通大學的JDEST英語語料庫,利用這個語料庫,通過語料比較、統計、篩選等方法為中國大學英語教學提供通用詞彙和技術詞彙的應用信息,為確定大學英語教學大綱的詞表提供了可靠的量化依據。這個語料庫也在英語語言研究中發揮了作用,支持基於語料庫的英語語法的頻率特徵、語料庫驅動的詞語搭配等項研究。

⑦ 語料庫的雙語或多語

大致可分為三類:
一是研究雙語語料的對齊技術(Alignment),國內外學者就此提出多種策略和方法,已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993];
二是研究雙語語料的各種應用,如在基於統計的機器翻譯技術[Brown 1990]、基於實例的機器翻譯技術[Nagao 1984],雙語詞典編纂[Klavans and Tzoukermann 1990]技術中,雙語語料庫都發揮著十分重要的作用;
三是雙語語料庫的設計、採集、編碼和管理問題。比較著名的語料庫編碼方案有TEI 文本編碼標准以及CES標准,兩者均基於SGML標記語言研究
指不只有一種語言的語料庫。分為平行語料庫和對照語料庫兩種。平行語料庫指庫中的兩種或多種文本互相是對方的譯文,因此可以用於翻譯或者機器翻譯研究;對照語料庫中兩種或多種語言的文本不構成對譯關系,只是領域相同,主題相近。通常只能用於兩種或多種語言的對比。

就前兩類研究來說,中國國內做了較多的跟蹤研究工作,而對於第三類研究,即雙語語料庫尤其是涉及漢語的雙語語料庫的建設、編碼和管理研究,探索工作似乎做的相對較少。
目前國內最大的語料交換平台是瓦特開元。

閱讀全文

與英漢語料庫採集及翻譯方法研究相關的資料

熱點內容
有沒有什麼好的祛疤方法 瀏覽:136
奔小康的技巧和方法 瀏覽:931
小龜王摩托車漏汽油解決方法 瀏覽:924
加工尺寸檢測器具使用方法 瀏覽:825
小米運動天氣在哪裡設置方法 瀏覽:594
食品帽佩戴方法圖片 瀏覽:578
浦公英種植方法 瀏覽:275
枇杷膏食用方法 瀏覽:408
眼睛電燒傷用什麼方法能治好 瀏覽:969
簡單調漂方法 瀏覽:68
這8個方法來教你如何進行胎教 瀏覽:25
高二暑假鍛煉方法 瀏覽:684
網球基本技術動作及訓練方法 瀏覽:792
炎症高怎麼治療方法 瀏覽:804
自製木製手機支架的製作方法 瀏覽:778
手機有什麼方法開機 瀏覽:843
電纜絕緣體積電阻率的計算方法 瀏覽:694
有什麼方法減肥快速減肚子 瀏覽:694
搏擊格鬥呼吸的正確方法 瀏覽:879
腰部經絡鍛煉方法 瀏覽:501