AI评诗的能力水平比较和发展趋势｜郭友琴

AI评诗的能力水平比较和发展趋势｜郭友琴精华热点

25-02-28 22:38 377阅读

关注

编者按：本文是《AI写诗评诗的能力水平比较和发展趋势》的一部分。因原文长达15000字，故分为《AI写诗的能力水平比较和发展趋势》《AI评诗的能力水平比较和发展趋势》两篇文章推出。

AI写诗的能力水平比较和发展趋势｜郭友琴

AI评诗的能力水平比较和发展趋势

郭友琴

一、AI评诗模型成长过程的简要回顾

AI评诗的历史可以追溯到20世纪70年代，当时机器诗歌生成技术开始出现，早期的诗歌生成模型主要依赖简单的词语随机组合。AI真正开始在诗词评价方面崭露头角，是在2018年以来自然语言处理（NLP）和深度学习技术的飞速发展之后，是随着AI写诗能力的提升而逐渐推进的。如在2023年3月15日，《中华文化报》发表卢冷夫的《看了AI评诗，我有话说》一文，表明AI评诗模型已经进入试用阶段。

目前，多个配置有自动作诗评诗功能的AI App逐一出现在大众视野中，AI不仅能够生成具有一定艺术水准的诗词，还能够在一定程度上对诗词进行评价和分析，尽管其评价能力仍存在局限性，但已经展现出很大的潜力。

二、AI诗词评论的特点

AI评论诗词具有以下特点：

一是客观性。AI评诗不受情感干扰，它没有情感，它只会根据诗词的文本内容、创作背景等客观信息进行分析，不会因为自己“喜欢”某种情感风格熟悉某个诗人，就偏向性地评价诗词。它的评论是基于大量的数据和预设的规则来生成的。它会根据这些规则来判断诗词在形式上的规范性，而不是凭借主观感觉。

二是全面性。AI可以从多个维度对诗词进行分析和考虑诗词的字词运用。同时，它还会关注诗词的结构，分析其情节的起承转合。经过大量的诗词数据训练的AI，能够识别和评论各种风格和流派的诗词。都能够根据其风格特点进行评论。它能够指出豪放派诗词的气势磅礴、意境开阔，婉约派诗词的细腻委婉、情感含蓄等特点。

三是高效性。AI可以在短时间内对大量诗词进行评论。它凭借其强大的计算能力，能够迅速提取诗词的关键信息并生成评论。给出每首诗词在主题、艺术手法等方面的特点。

三、不同AI评诗能力水平的比较

为比较不同AI评诗的能力和水平，笔者挑选了春节期间写的三首诗，对Kimi、豆包、DeepSeek R1和百度AI+进行了三轮测试。

第一轮测试测的诗是一首五律《喜雪》，主要测试AI对运用表达技巧和对诗旨的识别分析能力。

喜雪

岁暮天凝雨，飘扬落玉尘。半含春气息，皆带水精神。

洒洒随风急，纷纷入野频。深知麦田冷，覆被乐农人。

测试情况和结果：

Kimi在赏析中认为描绘“生动形象”。表现手法上“动静结合，富有层次；虚实相生，意境深远”，认为表达上“富有深意”。“不仅描绘了雪景，更关注到雪对农人的益处。雪覆盖麦田，为麦田保暖，预示着来年的丰收，体现了诗人对民生的关注和对自然的感恩。”

豆包在赏析中注意到了“生动的比喻”“巧妙的拟人”“动态描绘”。认为这首诗“体现对民生的关怀”“表达了诗人对农事的关注和对农民的深切关怀，使全诗的情感得到升华，富有社会意义。”

DeepSeek在赏析中提到诗人将雪花比作“玉尘”，“赋予其高贵的气质，形象生动”，“通过动态的描写，展现了雪花随风飞舞、纷纷扬扬的景象，增强了画面的动感与节奏感”，认为“全诗通过对雪的描写，表达了诗人对自然变化的敏锐观察和对农人生活的关怀”。

‌百度AI+在赏析中只是在对“诗句描绘”和“情感表达”的分析后，认为“《喜雪》一诗通过生动的描绘和真挚的情感表达，展现了诗人对雪的喜爱和对自然、农事的深切关怀。”

根据测试重点和四个AI给出的点评比较，第一轮测试结果Kimi优秀；豆包、DeepSeek次之；百度AI+殿后。

第二轮测试的诗是七绝《上元望月》，主要测试AI对运用“无中生有”表现手法后“铜锣”意象的解释，和特定诗境中“可怜”词语意思的理解。

上元望月

一面铜锣挂柳梢，东风拂动喜声呶。

可怜三五团栾夜，春韵如诗仰可敲。

测试情况和结果：

Kimi在赏析中没有分析出“铜锣”比喻的是月亮，认为“铜锣是中国传统节日中常见的乐器”，但明确指出“‘可怜’在这里是‘可爱’之意，表达了诗人对元宵夜的喜爱。”

豆包在赏析中认为这首诗“意象生动”“将月亮比作铜锣，独特又形象。‘挂柳梢’点明了月亮初升的位置，柳梢这一意象，既体现出春天的季节特征，又营造出一种清新、柔美的氛围，与上元节的欢快气氛相得益彰。”同时也明确指出：“‘可怜’在这里是可爱、令人喜爱之意”“表达出作者对上元节美好夜晚的喜爱与赞美”。

DeepSeek在赏析中认为“将圆月比作铜锣，形象生动，同时“挂柳梢”又暗示了时间和场景，即元宵节夜晚的柳树下”，但又认为“‘可怜’二字表达了对美好时光易逝的感慨。”

‌百度AI+在赏析中没有提到“铜锣”是月亮的比喻，也没有单独关注“可怜”，只是认为“可怜三五团栾夜”“表达了诗人对上元节夜晚月圆人聚的珍视与感慨”。

根据以上各AI的点评，认为第二轮测试豆包优秀；DeepSeek和Kimi次之；百度AI+殿后。

第三轮测试的诗是五律《蛇》。主要测试AI对典故源流和咏物诗托寄的解析能力。

咏蛇

发蜇闻雷后，辅龙腾雾时。蜿蜒行草野，勃郁类文螭。

闭口曾吞相，衔珠亦报隋。修鳞今作瑞，盼尔抚疮痍。

测试情况和结果：

Kimi在对《咏蛇》的评论中，先是提出“通过‘闭口曾吞相，衔珠亦报隋’等句，赋予蛇以深厚的文化象征意义。”认为“‘闭口曾吞相’可能暗指蛇吞相的神话故事，体现了蛇的神秘与力量；而“衔珠亦报隋”则可能与隋侯之珠的传说有关，寓意感恩与回报。”认为“将蛇视为吉祥的象征，希望它能够带来祥瑞，抚慰世间的伤痛。这种情感寄托体现了诗人对自然与生命的敬畏之情。”

豆包在对《咏蛇》的评论中写道：“运用两个与蛇有关的典故。‘闭口曾吞相’说的是“蛇吞象”的故事，借此隐喻人心的贪婪；‘衔珠亦报隋’讲的是隋侯救蛇得珠的传说。体现蛇的知恩图报，一正一反，借蛇对人性的善恶进行思考。”豆包认为“诗人把蛇视为祥瑞象征，希望它能抚慰世间的创伤苦难，将对蛇的描写从个体特性升华到对社会的关怀，表达出对美好生活的向往，全诗增添了深沉的情感力量。”

DeepSeek在赏析时指明“ ‘闭口曾吞相’化用汉高祖斩白蛇起义的典故，暗指《史记·高祖本纪》中‘赤帝子杀白帝子。的谶纬叙事’；衔珠亦报隋‘则援引《搜神记》隋侯救蛇得珠的传说。”认为尾联是诗眼，毫无根据地将诗境推到“明嘉靖二十九年（1550）俺答入侵的背景下，”认为修鳞（蛇的别称）“指蛇的鳞片”，认为“诗人以‘疮痍’喻指庚戌之变后的民生凋敝，借灵蛇祥瑞的意象，寄托对灾后重建的深切期盼，使咏物诗突破传统比兴框架，获得深刻的现实指向。”

百度AI+赏析道：“闭口曾吞相，衔珠亦报隋。”这里可能借用了古代关于蛇的典故。“‘蛇吞相’可能暗指某种深层的寓意或历史事件，而‘衔珠报隋’则可能象征着感恩与回报，展现了蛇在传统文化中的丰富象征意义‌。”认为“诗人以蛇为题材，寄托了自己的情感和愿望，使得这首诗既具有艺术美感，又富含哲理思考。”

“人心不足蛇吞相”的历史典故出自山东寿‌县。说的是寿州城内穷秀才梅生救下蟒蛇喂养，蟒蛇长大后以心肝报答梅生，梅生因此被封为宰相。但梅生贪心不足，再次要求蟒蛇割心肝，最终被蟒蛇吞食的故事。而“贪心不足蛇吞象”是俗语，非典故。衔珠典故源自《搜神记》卷二十。对于释典，四个AI对“衔珠”都分析无误。对“闭口曾吞相”，Kimi认定是“暗指蛇吞相的神话故事。”豆包虽然指出是“与蛇有关的典故”，却将其误作为“蛇吞象”。DeepSeek误作化用汉高祖斩白蛇起义的典故，百度AI+则是含糊说明是“可能借用了古代关于蛇的典故，”“‘蛇吞相’可能暗指某种深层的寓意或历史事件。”在分析诗的寄托上，Kimi、豆包和百度AI+分析无误，而DeepSeek无端把这首诗的写作背景推到明代嘉靖年间，并将其誉为“堪称明代中期咏物诗中的典范之作。”实属无稽之谈。

据此认为第三轮测试Kimi第一名；豆包第二名；百度AI+第三名；DeepSeek完败。

从以上三轮的测试结果可以得出：Kimi和豆包凭着长期学习训练积累的经验，目前在诗词评论方面已经具有较为高超的鉴赏水平和能力。DeepSeek作为新手，在诗词评论的训练上还需下更大的功夫，付出更多的努力。

四、AI评诗与诗评家评诗的区别和不足

综合目前可以找到看到的资料，AI评诗与人类评诗存在多方面区别，主要体现在以下几点：

一是在评价标准上。AI评诗通常基于对大量诗词数据的学习，分析诗词的语言结构、韵律规则、情感倾向等可量化的特征，并与预定义的模式或标准进行匹配来评价。人类评诗的评价标准更为多元和主观，除了考虑诗词的形式要素外，还会融入个人的生活经验、文化背景、审美情趣等因素，对诗词所传达的意境、情感深度、思想内涵等进行综合考量。

二是在情感理解上。AI评诗虽能识别一些情感词汇和情感倾向，但缺乏真正的情感体验和感知能力，无法像人类一样感同身受地理解诗词中蕴含的复杂情感。人类评诗能凭借自身的情感感知能力，深入体会诗歌中的喜怒哀乐、爱恨情仇等各种情感，与诗人产生情感共鸣，从而更细腻地评价诗歌的情感表达。

三是在思维创新上。AI评诗依据已有的数据和算法进行分析，难以具备人类那样的创造力和敏锐的洞察力，很难发现诗词中独特的、超越常规的艺术价值和创新之处。人类评诗具有创造性思维和独特的洞察力，能够从不同角度解读诗词，发现诗词中的新颖之处，挖掘出诗词潜在的意义和价值，对诗词的艺术创新给予恰当评价。

四是在表达形式上。AI评诗往往以较为刻板、模式化的语言呈现评价结果，通常是对诗词各项指标的罗列和总结。人类评诗的评价语言丰富多样，富有感染力和表现力，能够运用生动形象的文字来传达自己对诗词的理解和感受，使评价本身也具有一定的文学性。

几年前，AI对诗的”评论“大都堆砌名词、解释概念、含糊不清”“说的一般比较笼统，大多数似是而非，谁都可以对号入座，但就是没有确指，没有细节，没有明晰的结论。”（卢冷夫·《看了AI评诗，我有话说》《中国文化报》2023年5月18日）。近几年AI评诗经过大量的诗词鉴赏数据的学习训练，已经取得了巨大的进步。但是，在与人类诗评者相比，仍然有着明显的局限性。主要表现在以下几个方面。首先，理解深度不够。它对于诗词中蕴含的深层文化内涵、作者的情感世界等理解有限。其次，创造性见解不多。AI诗评通常会遵循已有的主流解读模式。再次，缺乏人类评论者可能产生的独特、创造性的见解。此外，还经常出现‌逻辑不通，甚至会出现“有句无篇”的情况。最后，‌缺乏细节和明晰结论‌。很多时候AI评诗往往堆砌名词、解释概念，缺乏对诗境诗意的开拓和解读，评价较为笼统和模糊‌。

五、AI评诗的发展趋势

目前AI写诗评诗正面临一些挑战和问题，其权威性和公信力也有待进一步建立和提升。但是，随着AI技术以一日千里的速度的加速迭代，AI写诗评诗的能力水平也将不断提升。可以预见的发展趋势是：

1.量化分析将更精准。在“创意指数”“意象密度”等量化指标的分析上会更加精准，能快速对诗词的格律、韵律、句式、意象运用等形式方面进行评判。

2.与人类批评融合得更为紧密。AI评诗会与人类基于情感、思想和生命体验的批评方式相互补充。人类批评家可借助AI的量化分析，更全面地评价诗词，AI也会在一定程度上学习人类的批评标准和方法，使评价更合理。

3.将进一步推动诗词的传播与推广。AI可通过分析诗词的特点和受众喜好，精准地将诗词推送给感兴趣的人群，助力诗词传播。同时，也能帮助出版社、文学平台等更高效地筛选和推荐优秀诗歌作品。

六、结语

AI评诗作为一种新兴的科技与艺术结合的产物，在赏析中可以从技术、艺术、教育、文化等多个角度进行探讨。但是，从目前AI评诗的水平和能力来看，它写出诗评尚不能与优秀的人类诗评家写出的诗评相媲美。诗人和诗评家凭借其情感理解和思维创新方面的优势，依然会在诗词写作评论中占据重要地位。在今后相当一段时间内，AI评诗只是一种辅助工具，还不能成为诗词评论的替代品。相信随着人工智能技术的进步，AI在诗词评论方面的能力水平会不断地提高，对推动诗词的传播与推广将会起到越来越大的作用

2025年2月23日于北京

郭友琴 号林间流水。洛阳人，理工男，教授级高级工程师，一级注册建造师，诗词爱好者。现为中华诗词学会诗教部副主任，河南诗词学会常务副会长，中华诗词高研班导师。

查看全文

支持作者

给作者一点鼓励，您的鼓励是原创的动力！

3.00
5.00
8.00
10.00
20.00
30.00
50.00
100.00
200.00

其他金额

AI评诗的能力水平比较和发展趋势｜郭友琴 精华热点

最新评论

AI评诗的能力水平比较和发展趋势｜郭友琴精华热点