推荐文档列表

国家语委通用语料库·核心库的词表提取及词汇构成分析

时间:2021-12-11 08:16:46 文学艺术论文 我要投稿

国家语委通用语料库·核心库的词表提取及词汇构成分析

在真实语料中提取词表面临着许多技术与理论上的难点与困难,但它又有着特殊的价值."通用语料库"是国家语委组织研制的大型语料库,基本反映了现代汉语的语言面貌,完成对它的词表提取,其过程、做法及词表结果,都有着重要意义.机器分词时会遇到分词的正确性、加工精度的可容性、机器分词的强制性、机器分词的局限性等问题.源于真实语料的词表清楚反映出断代词汇由语言词和言语词两个层面构成,两个层面的词语之间有着互渗作用.源于真实语料的词表存在着书面语与口语的差异,不规范现象也较普遍存在,在词语的普遍性上与断代词汇有着相当的距离.

作 者: 苏新春 SU Xin-chun   作者单位: 厦门大学,中文系,福建,厦门,361005  刊 名: 江苏大学学报(社会科学版)  PKU 英文刊名: JOURNAL OF JIANGSU UNIVERSITY(SOCIAL SCIENCE EDITION)  年,卷(期): 2007 9(1)  分类号: H0  关键词: 通用语料库   核心语料库   词表   词汇统计