生成文本的自动评估。
神经模型的评估有这么几种:看做是匹配任务、看做是回归任务、看做是排序任务、看做是生成任务。
BARTScore就是将生成文本的评估看做是文本生成任务。
代码:https://github.com/neulab/BARTScore.git
This is the Repo for the paper: BARTScore: Evaluating Generated Text as Text Generation
依赖:
!pip install torch transformers
引入:
from bart_score import BARTScorer
例子1
# 复现英文,能不能CPU?可以的
bart_scorer = BARTScorer(device='cpu:0', checkpoint='facebook/bart-large-cnn')
bart_scorer.score(['This is interesting.'], ['This is fun.'])
输出:
[-2.5106496810913086]
作者给的示例:
[-2.336203098297119]
例子2
# 能不能中文?可以的
bart_scorer.score(['这很有趣'], ['真有意思'])
输出:
[-4.391218662261963]
例子3
# 长一些的中文可以不?可以的
bart_scorer.score(['1月11日,人民空军成立72周年。祖国把天空交给我们,我们在天空注满忠诚,天空是哨位,云端是巡逻线。我们执大国佩剑,护海天苍穹。我是一个兵,我就是人民空军!'],
['今天,人民空军迎来72岁生日,72载,穿云破雾,逐梦飞行,72载,长空亮剑,制胜空天,1949年11月11日, 中国人民解放军空军正式成立,他们用航迹丈量祖国山河, 哪里有需要,哪里就有他们的身'])
输出:
[-3.8493220806121826]
结论:
可以中文的,没有问题
也可以使用自己训练或微调之后的pt模型文件。