-3 Average_R: 0.00243 (95%-conf.int. 0.00000 - 0.00774) 11 ROUGE-3 Average_P: 0.00171 (95%-conf.int. 0.00000 - 0.00545) 11 ROUGE-3 Average_F: 0.00201 (95%-conf.int. 0.00000 - 0.00640) ------------------ -3 Average_R: 0.01023 (95%-conf.int. 0.00114 - 0.02271) 12 ROUGE-3 Average_P: 0.01027 (95%-conf.int. 0.00125 - 0.02146) 12 ROUGE-3 Average_F: 0.00995 (95%-conf.int. 0.00119 - 0.02145) ------------------ -3 Average_R: 0.00887 (95%-conf.int. 0.00250 - 0.01758) 13 ROUGE-3 Average_P: 0.00909 (95%-conf.int.
通常对于摘要评估,只使用ROUGE-1和ROUGE-2(有时候ROUGE-3,如果我们有很长的黄金摘要和模型)指标,理由是当我们增加N时,我们增加了需要在黄金摘要和模型中完全匹配的单词短语的N-gram
常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。
常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。
常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。