CUP-Other-info

来自SUDA-HLT
跳到导航 跳到搜索

系统介绍

1. 系统功能:输入一个句子,系统会对文本进行分析,包括分句,分词,词性,依存句法和命名实体识别五个部分。目前默认的输入最大长度为512字符,空白字符均无效。

2. 分句:当前版本仅根据句号,感叹号等一些常见符号进行切分。

3. 分词:基于BIES标签的神经序列标注模型。

4. 词性标注:传统的BiLSTM神经序列标注模型,加上了CharLSTM特征,训练数据集为CoNLL09。

5. 命名实体识别::通用中文命名实体识别,支持13类实体识别。基于BiLSTM模型+词典+规则的方法。

6. 依存句法分析:Biaffine Parser。

7. xx


注意事项:全角半角的转化;所有模型的训练数据、测试文本输入时


其他版本

== 更新记录 ==

=== 2020.2.14 ===
1.  更新NER模型,使用bert feature,增加了类别

=== 2020.1.8 ===
1.  分词模型使用了大规模训练数据:CTB9、PKU

2. 句法模型使用了大规模训练数据:CODT、CTB、HIT、PMT

3. 分词和句法均使用bert feature