SiriBlog

siriyang的个人博客


  • 首页

  • 排行榜

  • 标签115

  • 分类37

  • 归档320

  • 关于

  • 搜索

Pythonista中文文档:linguistictagger

发表于 2020-03-24 更新于 2021-10-29 分类于 计算机 , 技术 , Python 阅读次数: Valine:
本文字数: 1.2k 阅读时长 ≈ 1 分钟

Pythonista中文文档

linguistictagger — 语言分析


  linguistictagger模块可用于对自然语言文本进行分割,并用信息(例如词性)进行标记。

  这个模块只提供了一个功能:

linguistictagger.tag_string(string, scheme)

  根据方案标记给定的字符串。查询有效的方案常量,请参见下文。

  返回值是一个三元组的列表,每个三元组由标签,带标签的子字符串和原始字符串中子字符串的范围组成·。

例:

1
2
3
4
5
6
import linguistictagger as lt
text = 'Python is pretty awesome.'
results = lt.tag_string(text, lt.SCHEME_LEXICAL_CLASS)
for tag, substring, range in results:
if tag != 'Whitespace':
print(substring + ": " + tag)

输出:

1
2
3
4
5
Python: Noun
is: Verb
pretty: Adverb
awesome: Adjective
.: SentenceTerminator

常量

linguistictagger.SCHEME_TOKEN_TYPE
  根据标记的大致类型对标记进行分类:单词,标点符号,空格等。

linguistictagger.SCHEME_LEXICAL_CLASS
  根据类别对标记进行分类:词的词性,标点符号的类型或空格等。

linguistictagger.SCHEME_NAME_TYPE
  根据标记是否属于各种类型的命名实体进行分类。

linguistictagger.SCHEME_NAME_TYPE_OR_LEXICAL_CLASS
  这个标签方案如下:对名称按照SCHEME_NAME_TYPE执行然后剩下的其他标记按照SCHEME_LEXICAL_CLASS执行。

linguistictagger.SCHEME_LEMMA
  提供单词的词干形式(如果已知)。

linguistictagger.SCHEME_LANGUAGE
  该标记方案根据标记的语言标记标记。标签值将是标准语言的缩写,例如“en”,“fr”,“de”等。请注意,标签生成器通常会尝试在整个句子或段落的级别上确定文本的语言,而不是逐字逐句地字。

linguistictagger.SCHEME_SCRIPT
  此标签方案根据标记的脚本来进行标记。标签值将是标准脚本缩写,例如“Latn”,“Cyrl”,“Jpan”,“Hans”,“Hant”等。

-------- 本文结束 感谢阅读 --------
相关文章
  • Pythonista中文文档:scene
  • Pythonista中文文档:cb
  • Pythonista中文文档:contacts
  • Pythonista中文文档:canvas
  • Pythonista中文文档:photos
觉得文章写的不错的话,请我喝瓶怡宝吧!😀
SiriYang 微信支付

微信支付

SiriYang 支付宝

支付宝

  • 本文标题: Pythonista中文文档:linguistictagger
  • 本文作者: SiriYang
  • 创建时间: 2020年03月24日 - 19时03分
  • 修改时间: 2021年10月29日 - 18时10分
  • 本文链接: https://blog.siriyang.cn/posts/20200324194238id.html
  • 版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
Python Pythonista 文档
Pythonista中文文档:motion
Pythonista中文文档:Pythonista URL Scheme
SiriYang

SiriYang

努力搬砖攒钱买镜头的摄影迷
320 日志
33 分类
88 标签
RSS
GitHub E-Mail
Creative Commons
Links
  • 友情链接
  • 作品商铺

蜀ICP备19008337号 © 2019 – 2025 SiriYang | 1.7m | 25:41
0%