CCL2021Data
跳到导航
跳到搜索
更新过程
BC
1. 更新dev(998->974)、test-answer(1995->1956)。并改成了半角。无标点head 2. 补充train(28119)。全改成了半角。有标点head 3. 构造无答案的test(1956)
PB
1. 改成半角(train、dev、test、test-answer、unlabeled) 2. 更新train(5129->4982)、Dev(1300->1271)、test-answer(2600->2530)的答案,train有标点head,后两者无。 3. 获取test-noAnswer
PC
1. 改成半角(train、dev、test、test-answer、unlabeled) 2. 更新train(6885->6835)、Dev(1300->1291)、test-answer(2600->2585)的答案,train有标点head,后两者无。 3. 获取test-noAnswer
ZX
1. 改成半角(train、dev、test、test-answer、unlabeled) 2. 更新train(1645->1513)、Dev(500->459)、test-answer(1100->1015)的答案,train有标点head,后两者无。 3. 获取test-noAnswer
FN(财经)
1. 全角转半角 2. 更新 train(4938->4624)Dev(1000->933)test(2000->1861) test-full(800->775)。train有标点head,后两者无。 3. 获取test-noAnswer 4. 用test-full把train补到5000, 其他不动。 5. unlabeld,转半角、转格式、11W(118109)
LG(法律)
1. 全角转半角 2. 更新 train(6846->6568)Dev(1000->955)test(2000->1912) test-full(800->778)。train有标点head,后两者无。 3. 获取test-noAnswer 4. 把train减少到5000,剩余的另外保存为train-remain 5. unlabeld,转半角、转格式、选15W,
| 原本 | train | dev | test | test-full |
|---|---|---|---|---|
| 财经 | 4624 | 933 | 1861 | 775 |
| 法律 | 6568 | 955 | 1912 | 778 |
| 暂定比例 | 5000 | 1000 | 2000 |
最终2021-2-10
| train | dev | test | unlabeled | all-labeled | |
|---|---|---|---|---|---|
| BC | 26,119 | 974 | 1,956 | 29,049 | |
| PB | 4,982 | 1,271 | 2,530 | 291,481 | 8,783 |
| PC | 6,835 | 1,291 | 2,585 | 349,922 | 10,711 |
| ZX | 1,513 | 459 | 1,015 | 33,792 | 2,987 |
| FIN | 5,000 | 933 | 1,861 | 118,109 | 7,794 |
| LEG | 5,000 | 955 | 1,912 | 150,000 | 7,867 |
| Total | 49,449 | 5,883 | 11,859 | 943,304 | 67,191 |