AI评诗的能力水平比较和发展趋势
郭友琴
一、AI评诗模型成长过程的简要回顾
AI评诗的历史可以追溯到20世纪70年代,当时机器诗歌生成技术开始出现,早期的诗歌生成模型主要依赖简单的词语随机组合。AI真正开始在诗词评价方面崭露头角,是在2018年以来自然语言处理(NLP)和深度学习技术的飞速发展之后,是随着AI写诗能力的提升而逐渐推进的。如在2023年3月15日,《中华文化报》发表卢冷夫的《看了AI评诗,我有话说》一文,表明AI评诗模型已经进入试用阶段。
目前,多个配置有自动作诗评诗功能的AI App逐一出现在大众视野中,AI不仅能够生成具有一定艺术水准的诗词,还能够在一定程度上对诗词进行评价和分析,尽管其评价能力仍存在局限性,但已经展现出很大的潜力。
二、AI诗词评论的特点
AI评论诗词具有以下特点:
一是客观性。AI评诗不受情感干扰,它没有情感,它只会根据诗词的文本内容、创作背景等客观信息进行分析,不会因为自己“喜欢”某种情感风格熟悉某个诗人,就偏向性地评价诗词。它的评论是基于大量的数据和预设的规则来生成的。它会根据这些规则来判断诗词在形式上的规范性,而不是凭借主观感觉。
二是全面性。AI可以从多个维度对诗词进行分析和考虑诗词的字词运用。同时,它还会关注诗词的结构,分析其情节的起承转合。经过大量的诗词数据训练的AI,能够识别和评论各种风格和流派的诗词。都能够根据其风格特点进行评论。它能够指出豪放派诗词的气势磅礴、意境开阔,婉约派诗词的细腻委婉、情感含蓄等特点。
三是高效性。AI可以在短时间内对大量诗词进行评论。它凭借其强大的计算能力,能够迅速提取诗词的关键信息并生成评论。给出每首诗词在主题、艺术手法等方面的特点。
三、不同AI评诗能力水平的比较
为比较不同AI评诗的能力和水平,笔者挑选了春节期间写的三首诗,对Kimi、豆包、DeepSeek R1和百度AI+进行了三轮测试。
第一轮测试测的诗是一首五律《喜雪》,主要测试AI对运用表达技巧和对诗旨的识别分析能力。
喜 雪
岁暮天凝雨,飘扬落玉尘。半含春气息,皆带水精神。
洒洒随风急,纷纷入野频。深知麦田冷,覆被乐农人。
测试情况和结果:
Kimi在赏析中认为描绘“生动形象”。表现手法上“动静结合,富有层次;虚实相生,意境深远”,认为表达上“富有深意”。“不仅描绘了雪景,更关注到雪对农人的益处。雪覆盖麦田,为麦田保暖,预示着来年的丰收,体现了诗人对民生的关注和对自然的感恩。”
豆包在赏析中注意到了“生动的比喻”“巧妙的拟人”“动态描绘”。认为这首诗“体现对民生的关怀”“表达了诗人对农事的关注和对农民的深切关怀,使全诗的情感得到升华,富有社会意义。”
DeepSeek在赏析中提到诗人将雪花比作“玉尘”,“赋予其高贵的气质,形象生动”,“通过动态的描写,展现了雪花随风飞舞、纷纷扬扬的景象,增强了画面的动感与节奏感”,认为“全诗通过对雪的描写,表达了诗人对自然变化的敏锐观察和对农人生活的关怀”。
百度AI+在赏析中只是在对“诗句描绘”和“情感表达”的分析后,认为“《喜雪》一诗通过生动的描绘和真挚的情感表达,展现了诗人对雪的喜爱和对自然、农事的深切关怀。”
根据测试重点和四个AI给出的点评比较,第一轮测试结果Kimi优秀;豆包、DeepSeek次之;百度AI+殿后。
第二轮测试的诗是七绝《上元望月》,主要测试AI对运用“无中生有”表现手法后“铜锣”意象的解释,和特定诗境中“可怜”词语意思的理解。
上元望月
一面铜锣挂柳梢,东风拂动喜声呶。
可怜三五团栾夜,春韵如诗仰可敲。
测试情况和结果:
Kimi在赏析中没有分析出“铜锣”比喻的是月亮,认为“铜锣是中国传统节日中常见的乐器”,但明确指出“‘可怜’在这里是‘可爱’之意,表达了诗人对元宵夜的喜爱。”
豆包在赏析中认为这首诗“意象生动”“将月亮比作铜锣,独特又形象。‘挂柳梢’点明了月亮初升的位置,柳梢这一意象,既体现出春天的季节特征,又营造出一种清新、柔美的氛围,与上元节的欢快气氛相得益彰。”同时也明确指出:“‘可怜’在这里是可爱、令人喜爱之意”“表达出作者对上元节美好夜晚的喜爱与赞美”。
DeepSeek在赏析中认为“将圆月比作铜锣,形象生动,同时“挂柳梢”又暗示了时间和场景,即元宵节夜晚的柳树下”,但又认为“‘可怜’二字表达了对美好时光易逝的感慨。”
百度AI+在赏析中没有提到“铜锣”是月亮的比喻,也没有单独关注“可怜”,只是认为“可怜三五团栾夜”“表达了诗人对上元节夜晚月圆人聚的珍视与感慨”。
根据以上各AI的点评,认为第二轮测试豆包优秀;DeepSeek和Kimi次之;百度AI+殿后。
第三轮测试的诗是五律《蛇》。主要测试AI对典故源流和咏物诗托寄的解析能力。
咏 蛇
发蜇闻雷后,辅龙腾雾时。蜿蜒行草野,勃郁类文螭。
闭口曾吞相,衔珠亦报隋。修鳞今作瑞,盼尔抚疮痍。
测试情况和结果:
Kimi在对《咏蛇》的评论中,先是提出“通过‘闭口曾吞相,衔珠亦报隋’等句,赋予蛇以深厚的文化象征意义。”认为“‘闭口曾吞相’可能暗指蛇吞相的神话故事,体现了蛇的神秘与力量;而“衔珠亦报隋”则可能与隋侯之珠的传说有关,寓意感恩与回报。”认为“将蛇视为吉祥的象征,希望它能够带来祥瑞,抚慰世间的伤痛。这种情感寄托体现了诗人对自然与生命的敬畏之情。”
豆包在对《咏蛇》的评论中写道:“运用两个与蛇有关的典故。‘闭口曾吞相’说的是“蛇吞象”的故事,借此隐喻人心的贪婪;‘衔珠亦报隋’讲的是隋侯救蛇得珠的传说。体现蛇的知恩图报,一正一反,借蛇对人性的善恶进行思考。”豆包认为“诗人把蛇视为祥瑞象征,希望它能抚慰世间的创伤苦难,将对蛇的描写从个体特性升华到对社会的关怀,表达出对美好生活的向往,全诗增添了深沉的情感力量。”
DeepSeek在赏析时指明“ ‘闭口曾吞相’化用汉高祖斩白蛇起义的典故,暗指《史记·高祖本纪》中‘赤帝子杀白帝子。的谶纬叙事’;衔珠亦报隋‘则援引《搜神记》隋侯救蛇得珠的传说。”认为尾联是诗眼,毫无根据地将诗境推到“明嘉靖二十九年(1550)俺答入侵的背景下,”认为修鳞(蛇的别称)“指蛇的鳞片”,认为“诗人以‘疮痍’喻指庚戌之变后的民生凋敝,借灵蛇祥瑞的意象,寄托对灾后重建的深切期盼,使咏物诗突破传统比兴框架,获得深刻的现实指向。”
百度AI+赏析道:“闭口曾吞相,衔珠亦报隋。”这里可能借用了古代关于蛇的典故。“‘蛇吞相’可能暗指某种深层的寓意或历史事件,而‘衔珠报隋’则可能象征着感恩与回报,展现了蛇在传统文化中的丰富象征意义。”认为“诗人以蛇为题材,寄托了自己的情感和愿望,使得这首诗既具有艺术美感,又富含哲理思考。”
“人心不足蛇吞相”的历史典故出自山东寿县。说的是寿州城内穷秀才梅生救下蟒蛇喂养,蟒蛇长大后以心肝报答梅生,梅生因此被封为宰相。但梅生贪心不足,再次要求蟒蛇割心肝,最终被蟒蛇吞食的故事。而“贪心不足蛇吞象”是俗语,非典故。衔珠典故源自《搜神记》卷二十。对于释典,四个AI对“衔珠”都分析无误。对“闭口曾吞相”,Kimi认定是“暗指蛇吞相的神话故事。”豆包虽然指出是“与蛇有关的典故”,却将其误作为“蛇吞象”。DeepSeek误作化用汉高祖斩白蛇起义的典故,百度AI+则是含糊说明是“可能借用了古代关于蛇的典故,”“‘蛇吞相’可能暗指某种深层的寓意或历史事件。”在分析诗的寄托上,Kimi、豆包和百度AI+分析无误,而DeepSeek无端把这首诗的写作背景推到明代嘉靖年间,并将其誉为“堪称明代中期咏物诗中的典范之作。”实属无稽之谈。
据此认为第三轮测试Kimi第一名;豆包第二名;百度AI+第三名;DeepSeek完败。
从以上三轮的测试结果可以得出:Kimi和豆包凭着长期学习训练积累的经验,目前在诗词评论方面已经具有较为高超的鉴赏水平和能力。DeepSeek作为新手,在诗词评论的训练上还需下更大的功夫,付出更多的努力。
四、AI评诗与诗评家评诗的区别和不足
综合目前可以找到看到的资料,AI评诗与人类评诗存在多方面区别,主要体现在以下几点:
一是在评价标准上。AI评诗通常基于对大量诗词数据的学习,分析诗词的语言结构、韵律规则、情感倾向等可量化的特征,并与预定义的模式或标准进行匹配来评价。人类评诗的评价标准更为多元和主观,除了考虑诗词的形式要素外,还会融入个人的生活经验、文化背景、审美情趣等因素,对诗词所传达的意境、情感深度、思想内涵等进行综合考量。
二是在情感理解上。AI评诗虽能识别一些情感词汇和情感倾向,但缺乏真正的情感体验和感知能力,无法像人类一样感同身受地理解诗词中蕴含的复杂情感。人类评诗能凭借自身的情感感知能力,深入体会诗歌中的喜怒哀乐、爱恨情仇等各种情感,与诗人产生情感共鸣,从而更细腻地评价诗歌的情感表达。
三是在思维创新上。AI评诗依据已有的数据和算法进行分析,难以具备人类那样的创造力和敏锐的洞察力,很难发现诗词中独特的、超越常规的艺术价值和创新之处。人类评诗具有创造性思维和独特的洞察力,能够从不同角度解读诗词,发现诗词中的新颖之处,挖掘出诗词潜在的意义和价值,对诗词的艺术创新给予恰当评价。
四是在表达形式上。AI评诗往往以较为刻板、模式化的语言呈现评价结果,通常是对诗词各项指标的罗列和总结。人类评诗的评价语言丰富多样,富有感染力和表现力,能够运用生动形象的文字来传达自己对诗词的理解和感受,使评价本身也具有一定的文学性。
几年前,AI对诗的”评论“大都堆砌名词、解释概念、含糊不清”“说的一般比较笼统,大多数似是而非,谁都可以对号入座,但就是没有确指,没有细节,没有明晰的结论。”(卢冷夫·《看了AI评诗,我有话说》《中国文化报》2023年5月18日)。近几年AI评诗经过大量的诗词鉴赏数据的学习训练,已经取得了巨大的进步。但是,在与人类诗评者相比,仍然有着明显的局限性。主要表现在以下几个方面。首先,理解深度不够。它对于诗词中蕴含的深层文化内涵、作者的情感世界等理解有限。其次,创造性见解不多。AI诗评通常会遵循已有的主流解读模式。再次,缺乏人类评论者可能产生的独特、创造性的见解。此外,还经常出现逻辑不通,甚至会出现“有句无篇”的情况。最后,缺乏细节和明晰结论。很多时候AI评诗往往堆砌名词、解释概念,缺乏对诗境诗意的开拓和解读,评价较为笼统和模糊。
五、AI评诗的发展趋势
目前AI写诗评诗正面临一些挑战和问题,其权威性和公信力也有待进一步建立和提升。但是,随着AI技术以一日千里的速度的加速迭代,AI写诗评诗的能力水平也将不断提升。可以预见的发展趋势是:
1.量化分析将更精准。在“创意指数”“意象密度”等量化指标的分析上会更加精准,能快速对诗词的格律、韵律、句式、意象运用等形式方面进行评判。
2.与人类批评融合得更为紧密。AI评诗会与人类基于情感、思想和生命体验的批评方式相互补充。人类批评家可借助AI的量化分析,更全面地评价诗词,AI也会在一定程度上学习人类的批评标准和方法,使评价更合理。
3.将进一步推动诗词的传播与推广。AI可通过分析诗词的特点和受众喜好,精准地将诗词推送给感兴趣的人群,助力诗词传播。同时,也能帮助出版社、文学平台等更高效地筛选和推荐优秀诗歌作品。
六、结语
AI评诗作为一种新兴的科技与艺术结合的产物,在赏析中可以从技术、艺术、教育、文化等多个角度进行探讨。但是,从目前AI评诗的水平和能力来看,它写出诗评尚不能与优秀的人类诗评家写出的诗评相媲美。诗人和诗评家凭借其情感理解和思维创新方面的优势,依然会在诗词写作评论中占据重要地位。在今后相当一段时间内,AI评诗只是一种辅助工具,还不能成为诗词评论的替代品。相信随着人工智能技术的进步,AI在诗词评论方面的能力水平会不断地提高,对推动诗词的传播与推广将会起到越来越大的作用
2025年2月23日于北京