linguistictagger — 语言分析

linguistictagger模块可用于对自然语言文本进行分割，并用信息（例如词性）进行标记。

这个模块只提供了一个功能：

linguistictagger.tag_string(string, scheme)

根据方案标记给定的字符串。查询有效的方案常量，请参见下文。

返回值是一个三元组的列表，每个三元组由标签，带标签的子字符串和原始字符串中子字符串的范围组成·。

例：

import linguistictagger as lt
text = 'Python is pretty awesome.'
results = lt.tag_string(text, lt.SCHEME_LEXICAL_CLASS)
for tag, substring, range in results:
    if tag != 'Whitespace':
        print(substring + ": " + tag)

输出：

Python: Noun
is: Verb
pretty: Adverb
awesome: Adjective
.: SentenceTerminator

常量

linguistictagger.SCHEME_TOKEN_TYPE
根据标记的大致类型对标记进行分类：单词，标点符号，空格等。

linguistictagger.SCHEME_LEXICAL_CLASS
根据类别对标记进行分类：词的词性，标点符号的类型或空格等。

linguistictagger.SCHEME_NAME_TYPE
根据标记是否属于各种类型的命名实体进行分类。

linguistictagger.SCHEME_NAME_TYPE_OR_LEXICAL_CLASS
这个标签方案如下：对名称按照SCHEME_NAME_TYPE执行然后剩下的其他标记按照SCHEME_LEXICAL_CLASS执行。

linguistictagger.SCHEME_LEMMA
提供单词的词干形式（如果已知）。

linguistictagger.SCHEME_LANGUAGE
该标记方案根据标记的语言标记标记。标签值将是标准语言的缩写，例如“en”，“fr”，“de”等。请注意，标签生成器通常会尝试在整个句子或段落的级别上确定文本的语言，而不是逐字逐句地字。

linguistictagger.SCHEME_SCRIPT
此标签方案根据标记的脚本来进行标记。标签值将是标准脚本缩写，例如“Latn”，“Cyrl”，“Jpan”，“Hans”，“Hant”等。