分词与词性标注 — BosonNLP HTTP API 1.0 documentation

2019-01-01 07:38 来源: 网络整理 浏览:
A+ A-

鉴于国文的自然语言写信在附近特色的词暗中不熟练的采取显示分开符(如空格)举行放假,在体积自然语言成绩中,分词是最根本的使感动。。 词类是用来作为示范每一词在语境击中要害功能的。,词类标注是使杰出这些词的词类。,决定其在语境击中要害功能。。一般情况下,词类标注是自然语言处置的又每一根本使感动。。为了尤指服装、颜色等相配BosonNLP自然语言处置的必要, BosonNLP采取将分词与词类标注蹑足其间数的办法,意识到了这构成部分词与词类标注体系。,它也可以被及其他开发人员经过吐艳API IfFA的外形运用。。

BosonNLP的分词与词类标注都是本序列标注意识到的,以词为单位对句子举行词边地的和词类的标注即某一事项制定了本字母串婚配办法词中省略吼叫快、高效率的怪癖,你也可以用语境使杰出新单词。、主动消歧,同时,防止鉴于放假违法惹起的串级缩小。。

BosonNLP分词与词类标注体系完整是直率意识到的,在原件算法和器官的根据,并增多了某些最佳化。:

  • 补充部分URL、对电子邮件等特别表达方式的使杰出
  • 词类标注的调解与最佳化,意识到更某一事项的口头禅分区(22大类),69个口头禅)
  • 修正教养从科学实验中提取的价值
  • 促进促进使交替,可以处置繁体国文或许繁简混合的国文句子

BosonNLP分词与词类标注体系还弥补了多种分词调动球员,确信的特色开发人员的必要:

  • 当空预留调动球员
  • 新单词数人力调动球员
  • 促进替换调动球员
  • 特别使具有特征替换调动球员

功能结帐:

 准确收回通告率F1值
分词0.9767250.9818470.979279
分词与词类标注0.9540140.9590170.956509
  • 为了尤指服装、颜色等相配BosonNLP自然语言处置的必要,朕还预备了每一新的子字计信息库。,包含近两年的摘要等的处理工作。、微博、评论和及其他分级信息。最近几年中,这信息集涌现了数量庞大的数量庞大的新词汇。,某些非标准广泛分布术语,写信弄错等。,因而处置起来比力努力地。。该信息集的结帐成功实现的事列举如下。:
 准确收回通告率F1值
分词0.9694930.9745080.971994
分词与词类标注0.9462010.9510960.948642

大家在看

图解新闻

热门点击


猜你喜欢

返回顶部