CCL2021Data

来自SUDA-HLT
跳到导航 跳到搜索

更新过程

BC

1. 更新dev(998->974)、test-answer(1995->1956)。并改成了半角。无标点head
2. 补充train(28119)。全改成了半角。有标点head
3. 构造无答案的test(1956)

PB

1. 改成半角(train、dev、test、test-answer、unlabeled)
2. 更新train(5129->4982)、Dev(1300->1271)、test-answer(2600->2530)的答案,train有标点head,后两者无。
3. 获取test-noAnswer

PC

1. 改成半角(train、dev、test、test-answer、unlabeled)
2. 更新train(6885->6835)、Dev(1300->1291)、test-answer(2600->2585)的答案,train有标点head,后两者无。
3. 获取test-noAnswer

ZX

1. 改成半角(train、dev、test、test-answer、unlabeled)
2. 更新train(1645->1513)、Dev(500->459)、test-answer(1100->1015)的答案,train有标点head,后两者无。
3. 获取test-noAnswer

FN(财经)

1. 全角转半角
2. 更新 train(4938->4624)Dev(1000->933)test(2000->1861)   test-full(800->775)。train有标点head,后两者无。
3. 获取test-noAnswer
4. 用test-full把train补到5000, 其他不动。
5. unlabeld,转半角、转格式、11W(118109)

LG(法律)

1. 全角转半角
2. 更新 train(6846->6568)Dev(1000->955)test(2000->1912)   test-full(800->778)。train有标点head,后两者无。
3. 获取test-noAnswer
4. 把train减少到5000,剩余的另外保存为train-remain
5. unlabeld,转半角、转格式、选15W,
原本 train dev test test-full
财经 4624 933 1861 775
法律 6568 955 1912 778
暂定比例 5000 1000 2000


最终2021-2-10

train dev test unlabeled all-labeled
BC 26,119 974 1,956 29,049
PB 4,982 1,271 2,530 291,481 8,783
PC 6,835 1,291 2,585 349,922 10,711
ZX 1,513 459 1,015 33,792 2,987
FIN 5,000 933 1,861 118,109 7,794
LEG 5,000 955 1,912 150,000 7,867
Total 49,449 5,883 11,859 943,304 67,191