CUP-Other-info
跳到导航
跳到搜索
系统介绍
1. 系统功能:输入一个句子,系统会对文本进行分析,包括分句,分词,词性,依存句法和命名实体识别五个部分。目前默认的输入最大长度为512字符,空白字符均无效。
2. 分句:当前版本仅根据句号,感叹号等一些常见符号进行切分。
3. 分词:基于BIES标签的神经序列标注模型。
4. 词性标注:传统的BiLSTM神经序列标注模型,加上了CharLSTM特征,训练数据集为CoNLL09。
5. 命名实体识别::通用中文命名实体识别,支持13类实体识别。基于BiLSTM模型+词典+规则的方法。
6. 依存句法分析:Biaffine Parser。
7. xx
注意事项:全角半角的转化;所有模型的训练数据、测试文本输入时
其他版本
- http://192.168.131.172:8108 1o-labeled-crf C++ 传统离散特征 codt-9w-train (2020-5-10-zhenghua)
- http://192.168.131.172:7101 biaffine C++ codt-9w-train (2020-5-10-zhangbo)
== 更新记录 == === 2020.2.14 === 1. 更新NER模型,使用bert feature,增加了类别 === 2020.1.8 === 1. 分词模型使用了大规模训练数据:CTB9、PKU 2. 句法模型使用了大规模训练数据:CODT、CTB、HIT、PMT 3. 分词和句法均使用bert feature