① 什么是语料库
语料库中存放的是在语言的实际使用中真实出现过的语言材料。
② 语料库的概述
名词(corpus,复数corpora)
指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。
corpus
n. (pl. corpora)
refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be concted with the aid of computer tools.
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库(Bible bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。 语料库有三点特征
⒈语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;
⒉语料库是承载语言知识的基础资源,但并不等于语言知识;
⒊真实语料需要经过加工(分析和处理),才能成为有用的资源。
语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库
③ 英译汉语料语库在哪里找
1、Tmxmall语料商城上有用户已上传的各类双语语料库,你需要英汉财经新闻语料库,按语言对和类别检索,或者直接搜索关键词即可。
3、自己去各大贴吧和翻译网站找资源,看看有哪位大牛分享。不过这个看运气了,一般专业语料库资源都是有“版权”的。
4、搜集英汉双语语料,然后自己建库吧。
④ 如何利用语料库辅助语言教学与研究
除了单语语料库,网上还有英汉平行语料库(parallel Corpora)。平行语料库能对源语文本和其译语文本进行检索,并对照显示。大量语境充分的双语对照语言实例是单语语料库和词典(包括双语词典)无法比拟的。这为了解语言规律,特别是从汉语角度看汉英转换,提供了全新的视角。中科院计算所软件研究室开发的网上双语句对数据库(mtgroup.ict. ac. cn/corpus/query_process.php)有18万对已对齐的中英文句子,提供简单中英文查询服务,能帮助学习者查询翻译时(尤其是汉译英)的疑难表达,并往往能提供某一词语或结构在语际转换时的多种表达,这为翻译时根据不同语境选择最佳对等词
⑤ 什么是“语料库语言学
语料库语言学以语料库为手段研究语言 ,是一门独具特色的语言研究学科。语料库是大量可用计算机处理的语料的集合。
⑥ 语言研究方法在语言研究中起什么样的作用求答案
一、引 言在欧洲,语料库语言学已经成为语言学的主流分支。语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。它是一个由大量的语言实际使用的信息组成的、专供语言研究、分析和描述的语言资料库。语料库语言学是在语料库的基础上对语言进行分析和研究的科学。它是随着计算机和网络技术发展应运而生的新的语言学研究领域和研究手段。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库语言学为语言研究与教学提供了一种全新的方法和思路。它以真实的语言数据为研究对象,对大量的语言事实进行系统分析。它研究的是语言行为(language performance),而不是语言能力(language competence),也就是说它通过考察语言的实际运用来寻找语言使用的规律。
本文介绍了我国英语语料库的发展状况,对我国英语语料库基础上的研究进行了概括介绍,并探讨了它在语言研究、词典编纂和教学领域中的作用。期望对进一步展开英语语料库研究有所帮助。
二、英语语料库在我国的发展
近年来,英语语料库语言学在我国取得了巨大进展,出现了众多各种类型的英语语料库,我国目前已有不少规模较大的语料库。如:早在1982年,上海交通大学的黄人杰、杨惠中教授就主持建立了一百万词次的专门用途英语语料库(JDEST)。2003年,桂诗春和杨惠中两位教授主持完成了中国英语学习者语料库(Chinese Learner English Corpus,简称CLEC),这是国际上第一部公开发布的学习者语料库,它对研究中国学生的语言应用和使用失误等特征,以及它们与外语学习之间的关系等都具有十分重要的指导作用。除了书面语语料库之外,研究者们也开始建立口语语料库。如南京大学创建的中国学习者英语口语语料库(Spoken English Corpus of Chinese Learners,简称SECCL)。上海交通大学也建立了大学英语学习者英语口语语料库。与此同时,随着个人电脑的普及,许多研究者个人也开始建立适合自己的小型语料库,许多英语语料库应运而生。这些英语语料库大部分是中国英语学习者的中介语语料库。
随着英语语料库数量的增多,我国语料库基础上的研究也越来越多。在计算机技术的支持下,语料库方法被应用于语言研究的许多领域,如:词汇、语法、语义、语用、语体研究、社会语言学研究、口语研究、词典编纂、语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。
对中国学生英语的分析目前主要从两方面进行:一是对比其他以英语为母语的语料库来分析学习者的语料特征;二是对失误特征进行分析。但是我国目前在语料库基础上的研究还处于起步阶段,多使用语料的检索和频率统计结果。
三、英语语料库在我国的应用
随着计算机技术空前迅速的发展,英语语料库也在我国迅速发展。语料库方法在词典编纂、语言研究和语言教学等方面也得到了越来越多的应用。语料库是语言研究与教学的重要基础,是编写词典、语法书和教材的重要源泉。
语料库和语料库语言学在当今语言研究由高度抽象转向语言的实际使用这个过渡中起着十分重要的作用:一是提供真实语料;二是提供统计数据;三是验证现行的理论;四是构建新的理论。提供真实语料是词典编纂的生命线。现在流行的英语词典几乎全部是基于大规模语料库编纂而成的。基于大规模语料库的英语语法书也已经问世。在理论建设上,基于英国国家语料库英语口语库的研究表明,基于真实英语口语语料的英语口语语法跟基于书面语的语法有很大不同。
在应用语言学领域,词典编纂和语言教学同是语料库的最大受益者。目前已有多部词典在编纂或修订过程中,不同程度地使用语料库或电子文档收集词语数据,用于收词、释义、例句、属性标注等。南京大学近年来开发了NULEXID语料库暨双语词典编纂系统,涉及英汉两种语言,在《新时代英汉大词典》的编纂过程中起了重要作用。
语料库用于语言教学的一个例子是上海交通大学的JDEST英语语料库,利用这个语料库,通过语料比较、统计、筛选等方法为中国大学英语教学提供通用词汇和技术词汇的应用信息,为确定大学英语教学大纲的词表提供了可靠的量化依据。这个语料库也在英语语言研究中发挥了作用,支持基于语料库的英语语法的频率特征、语料库驱动的词语搭配等项研究。
⑦ 语料库的双语或多语
大致可分为三类:
一是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];
二是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;
三是双语语料库的设计、采集、编码和管理问题。比较着名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言研究
指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。通常只能用于两种或多种语言的对比。
。
就前两类研究来说,中国国内做了较多的跟踪研究工作,而对于第三类研究,即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究,探索工作似乎做的相对较少。
目前国内最大的语料交换平台是瓦特开元。