linguistictagger — 语言分析
linguistictagger
模块可用于对自然语言文本进行分割,并用信息(例如词性)进行标记。
这个模块只提供了一个功能:
linguistictagger.tag_string(string, scheme)
根据方案标记给定的字符串。查询有效的方案常量,请参见下文。
返回值是一个三元组的列表,每个三元组由标签,带标签的子字符串和原始字符串中子字符串的范围组成·。
例:
1 | import linguistictagger as lt |
输出:
1 | Python: Noun |
常量
linguistictagger.SCHEME_TOKEN_TYPE
根据标记的大致类型对标记进行分类:单词,标点符号,空格等。
linguistictagger.SCHEME_LEXICAL_CLASS
根据类别对标记进行分类:词的词性,标点符号的类型或空格等。
linguistictagger.SCHEME_NAME_TYPE
根据标记是否属于各种类型的命名实体进行分类。
linguistictagger.SCHEME_NAME_TYPE_OR_LEXICAL_CLASS
这个标签方案如下:对名称按照SCHEME_NAME_TYPE
执行然后剩下的其他标记按照SCHEME_LEXICAL_CLASS
执行。
linguistictagger.SCHEME_LEMMA
提供单词的词干形式(如果已知)。
linguistictagger.SCHEME_LANGUAGE
该标记方案根据标记的语言标记标记。标签值将是标准语言的缩写,例如“en”,“fr”,“de”等。请注意,标签生成器通常会尝试在整个句子或段落的级别上确定文本的语言,而不是逐字逐句地字。
linguistictagger.SCHEME_SCRIPT
此标签方案根据标记的脚本来进行标记。标签值将是标准脚本缩写,例如“Latn”,“Cyrl”,“Jpan”,“Hans”,“Hant”等。