每经记者 王嘉琦 实习记者 宋欣悦 每经剪辑 兰素英
2024年11月14日,“2024智媒体50东说念主成齐会议暨每经20周年财经媒体峰会”在成齐举行。会上,《逐日经济新闻大模子年度评测陈说》负责发布。
6月25日,《逐日经济新闻大模子评测陈说》第一期发布,对15款市面主流大模子在“财经新闻标题创作”“微博新闻写稿”“著述缺欠校对”“财务数据狡计与分析”四个新闻采编期骗场景的智商进行了评测。

9月6日,《逐日经济新闻大模子评测陈说》第二期发布,要点锻真金不怕火大模子在“金融数学狡计”“商务文本翻译”“财经新闻阅读”三个新闻采编期骗场景的智商。
与前两期评测通常,《逐日经济新闻大模子年度评测陈说》陆续以大模子在新闻采编场景的期骗智商为评测标的,为了更精确对接采编东说念主员的实验需求,本次评测以“采写编审和短视频创作的新闻分娩全过程”为场景,包括大模子遐想采访提纲、撰写新闻稿件、校对稿件缺欠、索取稿件标题和改写短视频文本五个细分场景。通过大模子在新闻分娩全过程的介入,评测出“谁是新闻分娩全过程的最优秀大模子”,用直不雅的评测驱散,对采编东说念主员在职责中接纳合适的大模子器用提供实战参考。
12款国内大模子参与评测 各家模子展现出不同上风
本次评测竖立的五个细分期骗场景具体为:1.遐想采访提纲:旨在锻真金不怕火大模子能否匡助记者拟定采访提纲,赞成记者采访职责;2.撰写新闻稿件:旨在锻真金不怕火大模子围绕既定的多份材料,能否创作一篇新闻稿件;3.校对稿件缺欠:旨在锻真金不怕火大模子能否查验出新闻稿件中的错别字,语法、数字、标点标志等缺欠;4.索取稿件标题:旨在锻真金不怕火大模子能否字据稿件内容,索取新闻标题,超越是制作合适在微信等新媒体平台传播的新媒形体调标题;5.改写短视频文本:旨在锻真金不怕火大模子能否字据一篇翰墨新闻稿件,改写成合适短视频发布的案牍。
每经大模子评测小组为五个细分场景制定了对应的评价维度和评分策画。逐日经济新闻10余名首席、高档、资深记者剪辑字据评价维度和评分策画,对各款大模子在五个细分场景中的阐扬进行评分,汇总各场景得分,最终得到参评大模子总分。
需要指出的是,本期评测是通过各款大模子的API端口,并在默许温度下完成。与公众用户使用的大模子C端对话器用存在相反。评测驱散对用户在具体场景中聘用合适的大模子器用,依然具有遑急参考价值。
本期评测均在“雨燕智宣AI创作+”测试台上进行,一共有12款国内大模子参与。评测技巧为2024年10月18日,因此参评大模子均为抛弃10月18日的最新版块。
评测驱散知道,腾讯混元hunyuan-turbo以379.53的总分位居榜首,紧随自后的是智谱GLM-4-Plus赢得368.6分,字节 跳 动 doubao- pro- 32k(240828版块)赢得363分。
在五个细分场景方面,各家模子展现出不同的上风。
在遐想采访提纲场景中,腾讯混元hunyuan-turbo与昆仑万维(维权)天工SkyChat-3.0两款模子均取得了93.33分的佳绩,比肩第一。在撰写新闻稿件场景中,智谱GLM-4-Plus以98分的高分拔得头筹。在校对稿件缺欠场景中,智谱GLM-4-Plus以60分的得益位居首位。在索取稿件标题方面,深度求索DeepSeekV2.5模子以55.2分的得益最初其他模子。在改写短视频文本场景中,腾讯混元hunyuan-turbo再次展现其坚毅实力,以95分的得益位列第一。
寰宇上还莫得“AI记者” 需完善审核与内容把关
论断一:暂无一款大模子能高质地完成采编全过程职责
抛弃刻下,逐日经济新闻一共推出3期大模子评测陈说,粉饰12项新闻采编期骗场景,从驱散来看,莫得一款大模子能在悉数场景中均名次前线。
正如东说念主类通常,各款大模子的所长与短板各不疏通。比如,有的大模子擅长财务数据狡计,但在新闻标题索取中却名次末尾;有的大模子擅长英译汉,却在汉译英方面智商平平。
在新闻分娩的环节门径,如本期评测中的“撰写新闻稿件”“校对稿件缺欠”“索取新闻标题”、第一期评测中的“财务数据狡计与分析”和第二期评测中的“金融数学狡计”等期骗场景,多数大模子生成驱散缺欠频出,要保证新闻稿件高质地、无缺欠,还必须由东说念主工审核、把关。
刻下市面上还莫得一款大模子粗略高质地、全过程完成新闻采编场景的悉数职责,换句话说,寰宇上还莫得“AI记者”。
论断二:大模子“幻觉”未解,子虚更荫藏
尽管各款大模子一经屡次迭代升级,但依然处理不了“一册安静地瞎掰八说念”的幻觉问题。
最初的大模子“幻觉”问题比较昭着。跟着居品不停迭代,大模子生成文骨子量逐步晋升,但文本中的子虚也越发荫藏。比如,在“撰写新闻稿件”场景中,大模子会在不起眼处蜕变东说念主物的职位或杜撰事件发生的技巧。举例在本期评测中,部分大模子将9月24日“星巴克咖啡公司文书转机其中国区结合层结构”的技巧,误写成9月30日。再比如在第二期评测“金融数学狡计”场景中,即即是得分第一的大模子也会在个别题目中给出正确的狡计公式,却依然得出子虚的谜底。
关于一篇高质地新闻稿件来说,上述问题齐可能是“致命”的缺欠。刻下,AI生成内容一经大边界出当今互联网中。这就条目新闻媒体要进一步完善新闻内容真正性审核机制,更需要加强内容把关。
刻下仍需东说念主工介入和打磨 部分场景可终了采编AI化
论断三:“冷面”的大模子难判断新闻价值
阅读一篇稿件,挖掘出最遑急的新闻点,然后索取和制作标题,在这方面,大模子与锻真金不怕火丰富的剪辑比较差距不小。
在本期评测的“索取稿件标题”场景中,大模子得分渊博偏低。其生成的标题多显得中规中矩。举例大模子索取的《“星巴克中国新篇章:80后刘文娟接任CEO,引颈咖啡巨头迎挑战”》《“星巴克中国换帅:80后刘文娟接棒CEO,直面商场挑战与变革”》等标题。
另外,评测中发现,大模子索取的新闻标题,常常充斥着一些“魁岸上”的详尽宗旨词汇,无法挖掘著述中最遑急的新闻点和有价值的信息,翰墨缺乏,很难蛊卦读者的眼球。
此外,在“撰写新闻稿件”场景中,大模子生成的文本较为生硬,“机器思绪”较昭着,阑珊情态和个性化抒发。
从现阶段来看,大模子在阅读著述方面,难以具备对一篇稿件新闻点的准确和深端倪主理,容易停留在浅端倪瓦解。因此,新闻点和新闻价值的判断,包括采写有温度、有故事、多情面味的镇静稿件,仍然离不开记者、剪辑的东说念主工介入和用心打磨。
论断四:不同采编场景聘用最合适的大模子
这三期大模子评测的场景基本不错分为赞成性场景(如财经新闻阅读、文本翻译、遐想采访提纲等)和环节性场景(如撰写新闻稿件、校对稿件缺欠、索取新闻标题等)。
三期评测驱散标明,绝大部分大模子在遐想采访提纲、改写短视频案牍、英汉翻译、著述阅读以及微博新闻写稿等赞成性场景中渊博阐扬精采。举例,“改写短视频案牍”场景中,悉数参与评测的12款大模子均取得越过80分的得益;“遐想采访提纲”场景中,有8款大模子的得分高于80分。在第二期评测的“商务本文翻译”场景中,13款大模子得分齐高于80分,在“财经新闻阅读”场景中,13款大模子得分高于70分。
而在撰写新闻稿件、校对稿件缺欠、索取新闻标题等新闻分娩环节性场景的智商则昭着不及。比如,在“校对稿件缺欠”场景中,仅一款大模子得分达到60分。在“索取新闻标题”场景中,莫得一款大模子得分达到60分。
因此,记者、剪辑不错字据采编职责的不同门径、不同场景,聘用最合适的大模子,让部分场景终了采编职责AI化,晋升职责效果。
陆续探索大模子无穷可能 真挚邀请您加入评测技俩
论断五:新闻媒体主导,打造垂直边界的“AI记者”
对比这三期大模子评测驱散不难发现,国内大模子通过络续迭代,智商稳步晋升。同期,各家大模子之间的差距也在慢慢减轻,每个模子齐展现出私有的上风。这些大模子齐属于通用大模子,并非为新闻媒体、采编职责量身定制。
形成大模子“幻觉”问题严重的一大原因,在于熏陶文本和数据质地不高,其中包含不少信息子虚。而新闻职责瞄准确性条目极高。这一短板径直限度了大模子在新闻边界的期骗。但是,新闻媒体在长期的新闻报说念中一经蓄积的大量高质地新闻稿件和数据,适值为研发合适新闻采编职责的大模子器用提供了后天不良的上风。
因此,自主熏陶和主导研发大模子器用变得尤为遑急,借此,新闻媒体不仅粗略最大限度地确保大模子熏陶数据的质地和生成逻辑的准确性,还能保证大模子生成内容的可控性,使其更好方单合媒体自己的属性和特质。
在研发顺次上,不错将采编全过程拆分红数十个门径,如采访、翻译、稿件写稿、索取摘抄和校对缺欠等。字据各门径的具体职责标的、顺次和条目,对大模子进行专项熏陶,以形成一系列单任务或垂类AI器用。最终,将这些单任务AI器用打包会聚,则不错打造出一整套新闻采编AI器用。
接下来,“逐日经济新闻大模子评测小组”将陆续长远探索大模子的无穷可能,从实验期骗场景开赴,对各个大模子进行全场所评测,并如期推出专科陈说,带来最前沿的知悉和发现。
在此,咱们真挚地邀请您加入评测技俩。要是您是研发企业,思要展示自家大模子的实力,与其他大模子进行比拼,请将参评大模子的注视信息发送至咱们的邮箱:damoxing@nbd.com.cn。要是您是大模子的使用者,请告诉咱们您但愿在哪些场景中使用大模子,或者但愿咱们测试大模子的哪些智商。请翻开逐日经济新闻App,在“个东说念主中心”——“意见反应”栏中留住您的思法和需求。

牵累剪辑:李桐 尊龙凯时体育