① ccl语料库的检索方法
咨询记录 · 回答于2021-12-11
② 量化研究中语料库的研究方法的优点和缺点
摘要 量化研究方法有以下优点:
③ 怎么利用语料库做古代汉语语法化研究
词语转类在各种语言现象中普遍存在。它指的是不经过任何词形变化直接用于其它词性的词。现代汉语中的名转动词现象一直是语言学家关注的焦点。回顾以往的研究可以发现,研究者们主要从结构主义语言学、转换生产语言学、认知语言学和功能语言学等不同的理论出发,对名转动词现象做出了不同程度的描写和解释,他们的研究对更好地理解这一语言现象有重要意义。语言的转变处于一个持续变化的连续系统,而非一成不变的封闭系统。名词彻底转换为动词要经过活用和兼类两个阶段才能成功完成。活用具有临时性,是偶然出现的用法,词典不会对其活用词性加以标注;而兼类具有稳定性,词典上会对其新词性加以标注。以往研究多侧重于不同理论对名转动词现象的解释,对转换过程中处于活用和兼类这两个不同阶段的词语的使用特点则研究较少。为弥补该不足,本文将借助《现代汉语词典》(第五版和第六版)以及北大汉语语料库(CCL)在以下方面做出有益尝试。第一,搜集第五版现代汉语词典中名转动词的活用词;第二,借助第六版现代汉语词典找出这些词中哪些已经变为兼类词;第三,对仍是活用词的和已经变为兼类的这两类词在北大汉语语料库中的语料进行比较和研究,通过定性和定量分析,对它们被用作动词的频率、分布以及语料来源进行比较,结果发现兼类被用作动词的平均频率大约是活用被用作动词的平均频率的十倍,而活用和兼类被用作动词的频率在不同的文本体裁中也呈现不同的特点。最后,本文借助认知语言学中的凸显理论和转喻对名转动词的活用和兼类做进一步比较,发现活用词的动词意义并不稳定,只适用于一些特定语境,而兼类词的动词意义比较固定,已成为中心词义的一部分。
④ 如何评价语料库语言学的研究方法
通过定性与定量相结合的研究发现,网络体育英语新闻标题在词汇、结构、时态和修辞方面具有自身独特文体特征:新闻标题的平均词长比一般文体稍长,并常通过省略虚词、使用缩略语、短小词汇、复合词、词性转换、大量动词词组、一般现在时态以及暗喻、换喻和双关等多种修辞手法来丰富新闻的描写。
⑤ 如何建立自己的语料库
基本上没有办法建立相应的语料库,优质的原语料是优质语料库的前提。
动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,中国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢)。
(5)语料库研究的方法扩展阅读:
语料库的分类:
1、是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];
2、是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;
3、是双语语料库的设计、采集、编码和管理问题。比较着名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言研究
指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。通常只能用于两种或多种语言的对比。
⑥ 什么是语料库
语料库中存放的是在语言的实际使用中真实出现过的语言材料。
⑦ 如何建立自己的语料库
1.建立单语语料库比较简单,只需要准备好相关语料(古代汉语/现代汉语/英文/其他语言),将语料导入AntConc软件进行检索即可。知乎上有大神的帖子写过具体方法:建立你自己的专属英语语料库,妈妈再也不担心你的写作。
2.建立双语语料库,你需要先准备双语对照(如中英对照)的原文和译文,进入Tmxmall在线对齐页面,将语料导入进行句级对齐,再导出为tmx格式,即为自己的双语语料库,可以用于后续的学习和研究。
⑧ 怎样创建语料库
首先要明确建立的是单语语料库还是双语语料库,因为用到的建库软件和方法不一样,单语语料库的建立过程相对简单一些。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料。
⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。
⑨ 怎么建立语料库
1. 多做翻译,之后把翻译对齐(可以用Tmxmall做在线对齐,比较简单),对齐后的文件便是tmx语料库格式
2. 自己到网上下载相关语料,然后做对齐,制作tmx双语文件
3. 倘若公司以前有做过的翻译语料,直接可以用Tmxmall做对齐,复用以前的翻译
4. 用TMROBOT管理语料,防止语料太乱以及语料丢失
建立语料库最大的任务就是做对齐,对齐效率越高,准确率越高,用处就越大。
Tmxmall对齐方式是先基于段落对齐,然后再细化为句对齐,很好的提高了工作效率及准确。
其次,在线对齐使得对齐工作变得更为简单,易操作。
⑩ COCA语料库是如何建设的
语料库建设过程包括规划阶段、需求分析阶段、数据库框架设计、语料收集、语料导入、双语句子对齐、双语句子分词、语料校对。
语料库的总体设计和框架设计是语料库研究和创建的第一步,决定着今后语料库研究和应用,是和研究需要和目的紧密相关的。在通过分析研究需求明确建库目的后,要设计语料库的规模和语料收集范围,在对语料进行收集和加工整理过程中要系统地整理,清理杂志,去除多余的无用信息,统一格式和存放方式。