语料库

Corpus
美国当代英语语料库(单语)

美国当代英语语料库(单语)

美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是一个免费的英语语料库,它由包含5.2亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。
美国杨百翰大学BNC语料库(单语)

美国杨百翰大学BNC语料库
(单语)

由美国杨百翰大学语言学教授创立,下设多个字库,语料极其丰富。
美国国家语料库(单语)

美国国家语料库(单语)

关于美语使用现状的语料库,记录了自1990年起美语口头和书面语,词量达2200万。
BNC (British National Corpus) (单语)

BNC (British National Corpus)
(单语)

英国国家语料库由牛津出版社、朗文出版公司和大英图书馆等机构共同建立。其中包括广泛的书面语和口语,书面语90%,口语10%,总词量超过1亿。
Web Concordance English (单语)

Web Concordance English
(单语)

综合多个语料库,内容包括历届美国总统演讲及电视节目、学术、法律等,有口语和书面语两种形式,词量达数千万。
Michigan Corpus of Academic Spoken English (单语)

Michigan Corpus of Academic Spoken English(单语)

密歇根大学英语语言所建立,内容主要为学术英语口语,词量达184万。
Linggle

Linggle
(单语)

台湾“清华大学”Linggle 系统是少数由学界开发且规模逼近业界搜寻引擎的特例。Linggle检索引擎是一个可用于英语翻译的语法工具和句子工具,可帮助译者根据词性来检索搭配,提高译文的丰富度和准确度。
Sketch Engine(单语)

Sketch Engine(单语)

语料库检索工具Sketch Engine支持单词概览、单词辨析、单词搭配、同义词查找、语料索引、建立语料库等丰富的核心功能,被应用于词典编撰、语言教育和翻译研究等多领域。另外,该工具也能基于网络资源或本地文档,自建特色语料库,提取单词表。
Online BLCKWIC Concordancer(双语,英语、日语)

Online KWIC Concordancer
(双语、英语、日语)

商业信函及其他信函类语料库,由日本人建立,包括商业信函、名人信函、美国总统国情咨文部分名著等。
BOE——柯林斯英语语料库(the Bank of English)

BOE——柯林斯英语语料库
(the Bank of English)

为目前全球三大知名语料库之一,该语料库(The Bank of English)为英国伯明翰大学与Harper Collins出版社合作建立的COBUILD语料库的一部分,目前固定在4.5亿词的规模,可以在线检索。
WebCorp

WebCorp

由伯明翰城市大学英语学院英语研究小组开发的网络语料库WebCorp 除了具有传统语料库检索软件的词表(wordlist)、语篇统计(token与type数目统计)、KWIC索引(语境共现)、搭配统计(Key phrases)、词语型式(pattern)统计等功能以外,还具有网络语料库特有的功能。它能够设定常见词(stop words)排除,将the、a等常见词从搭配中自动去除掉,这样检索出来的词语搭配更加精炼准确;能够设定搜索的域名范围、时间范围,可以提供不同地区、不同时期的语料资源。
现代汉语平衡语料库(单语)

现代汉语平衡语料库(单语)

现代汉语平衡语料库的通用性和平衡性通过语料样本的分布广度和比例控制实现。语料输出可选生语料与标注语料。该语料库共有三种检索模式,分别是:整词匹配、模糊匹配、全文检索。
清华大学中英平行语料库

清华大学中英平行语料库

清华大学中英平行语料库由清华大学自然语言处理与社会人文计算实验室在国家“863 计划” 项目“ 互联网语言翻译系统研制” 的支持下,利用自身研发的互联网平行网页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。
北京语言大学语料库中心BCC语料库”

北京语言大学语料库中心
Bcc语料库

BCC语料库是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。Bcc语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。
中文语言资源联盟

中文语言资源联盟

中文语言资源联盟是由中国中文信息学会语言资源建设和管理工作委员会发起,由中文语言(包括文本、语音、文字等)资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的社会团体,具有完整性、权威性、系统性和开放性的特点,涵盖中文信息处理各个层面上所需要的语言语音资源,包括词典、各种语音语言语料库、工具等。
香港教育学院“LIVAC汉语共时语料库”

香港教育学院
“LiVaC汉语共时语料库”

LiVaC汉语共时语料库以严谨、恒常与「共时」方式,搜索和处理了超常的大量具代表性汉语平面媒体语料,并通过精密的技术,累积了泛华语地区众多语言和语用统计数据。本语料库的特点是采用「共时性」视窗模式,剖析来自香港,北京,上海,台湾,澳门,新加坡等多地有代表性的定量华语媒体语料。直至2016年,LiVaC已累计过滤25亿汉字语料,并已处理逾6亿字,累积并持续提炼出2百多万词条。
汉语中介语语料库”

汉语中介语语料库

汉语中介语语料库由北京语言大学于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731 篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字。
北大法律英文网

北大法律英文网

北大法律英文网并非严格意义上的语料库,但是它可以检索法律新闻、法律法规、司法判例、法律期刊、条约、白皮书、公报与法律术语,支持中英文双语对照查看,方便译者研究、理解和提高用词准确度,进一步提高法律翻译能力,所以一定程度上可以作为语料库使用。
知网翻译助手

知网翻译助手

知网翻译助手是以知网总库所有文献数据为依据,不仅提供英汉词语、短语的翻译检索,还可以提供句子的翻译检索。不但对翻译需求中的每个词给出准确翻译和解释,还给出大量与翻译请求在结构上相似、内容上相关的例句,方便译者得到恰当的翻译结果。
句酷

句酷

句酷致力于帮助非英语母语者寻找地道表达,提高译文准确性。句酷的双语例句库语料量大、覆盖面广、真实地道,目前支持中英、中日、日英三种语言对的检索。不仅可以查找双语例句,同时具备词典功能,提供高频搭配供译者选择。
通译典

通译典

通译典的翻译句库是目前国内较大的翻译例句库,通译典开发小组编撰句库的目的是为广大翻译工作者提供翻译参考。

其他单语语料库

其他双语/多语语料库

Baidu
map