Se ha publicado la primera lista de puntos de referencia de la evaluación "AI Search"! El margen de ventaja de 4o es pequeño, y los grandes modelos nacionales rinden brillantemente, con un total de 5 bases, 11 escenarios y 14 modelos.

Noticias AIPublicado hace 6 meses Sharenet.ai
1.1K 0
吐司AI

「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
La publicación de la evaluación comparativa del big model chino "AI Search" (SuperCLUE-AISearch) es una evaluación en profundidad de la capacidad del big model combinado con la búsqueda. La evaluación no sólo se centra en las capacidades básicas del big model, sino que también examina su rendimiento en aplicaciones de escenarios. La evaluación abarca 5 capacidades básicas, como la recuperación de información y la adquisición de información actualizada, así como 11 aplicaciones de escenarios, como las noticias y las aplicaciones de la vida, para probar exhaustivamente el rendimiento del modelo en la combinación de búsqueda en diferentes capacidades básicas y tareas de aplicaciones de escenarios. Para conocer el esquema de evaluación, véase: "AI Search" Benchmark Evaluation Scheme Release. En esta ocasión, hemos evaluado las capacidades de búsqueda de IA de 14 grandes modelos representativos nacionales y extranjeros, y a continuación presentamos el informe de evaluación detallado.

Resumen de la evaluación de la búsqueda por IA

Punto de medición 1chatgpt-4o-latest lidera la lista de búsqueda de IA, seguido de Kimi Explorer, con sólo 0,71 puntos entre ambos En esta evaluación, chatgpt-4o-latest obtuvo 73,41 puntos con un rendimiento excelente, por delante de otros modelos participantes. Por su parte, el gran modelo nacional Kimi El rendimiento de la edición Explorer también es digno de mención, ya que obtiene buenos resultados en los temas de compras y cultura en la aplicación de escenarios, demostrando unas magníficas capacidades de búsqueda de IA, además de mostrar un excelente rendimiento global en múltiples dimensiones.
Punto de medición 2A partir de los resultados de la evaluación, los grandes modelos nacionales como Secret Tower AI Search (Research Mode), Wisdom Spectrum Clear Speech AI Search y Conch AI son más impresionantes en términos de rendimiento general, a la par con el gran modelo extranjero Gemini-1.5-Pro-Search. Aparte de eso, el rendimiento de varios grandes modelos nacionales en el medio del rendimiento general como 360AI Search (respuesta en profundidad), Wen XiaoYin, Tongyi QianQi (búsqueda profunda) y otros grandes modelos no son similares, mostrando una pequeña diferencia.
Punto de medición 3Los modelos muestran distintos grados de rendimiento en diferentes escenarios de aplicación. En la evaluación de la búsqueda de IA, también nos centramos en el rendimiento de cada gran modelo en diferentes escenarios de aplicación. Los grandes modelos nacionales obtuvieron resultados relativamente buenos en escenarios como la ciencia y la tecnología, la cultura, los negocios y el entretenimiento, demostrando una excelente capacidad de recuperación e integración de la información al tiempo que captaban la actualidad de la información. Sin embargo, los big models nacionales aún pueden mejorar en escenarios como el bursátil y el deportivo.

 

Resumen de la lista

「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

Introducción a SuperCLUE-AISearch

SuperCLUE-AISearch es un completo conjunto de evaluación de modelos chinos de búsqueda de IA, cuyo objetivo es proporcionar una referencia para evaluar la capacidad de los modelos de búsqueda de IA en el ámbito chino.
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
Las capacidades fundacionales incluyen cinco capacidades necesarias en las tareas de búsqueda de IA: relevancia entre dominios, recuperación de información, comprensión semántica, adquisición de información actualizada y razonamiento.

Las aplicaciones de escenarios incluyen 11 escenarios comunes a las tareas de búsqueda de IA: tiempo, bolsa, viajes, noticias, compras, deportes, entretenimiento, educación, viajes, negocios, cultura, tecnología, sanidad y vida.

Metodología

En referencia al enfoque de evaluación detallada de SuperCLUE, se construye un conjunto específico de mediciones, y cada dimensión se evalúa a un nivel detallado y se puede proporcionar información de retorno detallada.

1) Construcción del juego de medidas

Proceso de elaboración de la consigna china: 1. Referencia a la consigna existente ---> 2. Redacción de la consigna china ---> 3. Pruebas ---> 4. Modificación y finalización de la consigna china; elaboración de un conjunto de evaluaciones específicas para cada dimensión.

2) Método de puntuación

El proceso de evaluación comienza con la interacción del modelo con el conjunto de datos, que hay que comprender y responder en función de las preguntas planteadas.
Los criterios de evaluación abarcan las dimensiones de proceso de pensamiento, proceso de resolución de problemas, reflexión y ajuste.
Las normas de puntuación combinan la puntuación cuantitativa automatizada con la revisión por expertos para puntuar de forma eficaz, garantizando al mismo tiempo que la evaluación sea científica y justa.

3) Criterios de puntuación

Para la evaluación de la calidad de respuesta de cada macromodelo en las tareas de evaluación, utilizamos dos criterios de evaluación para evaluar las preguntas subjetivas y objetivas del conjunto de evaluación, respectivamente. A estos criterios se les asignaron diferentes pesos en la evaluación para reflejar plenamente el rendimiento de los macromodelos en la tarea de búsqueda de IA.

 

El sistema de evaluación SuperCLUE-AISearch está diseñado para puntuar las preguntas subjetivas sobre 5 puntos, que se evalúan a partir de las dimensiones de utilidad de la información, precisión analítica y claridad de expresión, de las cuales la utilidad de la información supone 60%, la precisión analítica supone 20% y la claridad de expresión supone 20%.Los criterios de puntuación de las preguntas objetivas se puntúan sobre 5 puntos, que se evalúan a partir de las dimensiones de precisión de la información y claridad de expresión, de las cuales la precisión de la información supone 80% y la claridad de expresión supone 20%. Las preguntas objetivas se puntúan sobre 5 puntos, evaluados en dos dimensiones: exactitud de la información y claridad de la expresión, de las cuales la exactitud de la información supone 80% y la claridad de la expresión supone 20%. 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
Ejemplo de evaluación

Prompt word Prompt: ¿cuándo y dónde se lanzó la nave espacial tripulada Shenzhou 19 y quiénes eran los astronautas en esta ocasión?

Respuesta: En la madrugada del 30 de octubre, el lanzamiento de la nave espacial tripulada Shenzhou XIX desde el Centro de Lanzamiento de Satélites de Jiuquan fue todo un éxito. La tripulación de la misión tripulada Shenzhou-19 estaba formada por tres astronautas, Cai Xuzhe, Song Lingdong y Wang Haize.

Respuesta modelo:
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

Supermodelo (chatgpt-4o-latest) árbitro:

Evalúe esta respuesta del siguiente modo:
La respuesta del asistente de IA proporcionó con precisión la hora de lanzamiento y la ubicación de la nave espacial tripulada Shenzhou XIX, así como la lista de astronautas. Sin embargo, la respuesta no mencionaba los objetivos principales ni el contenido de la misión, por lo que no satisfacía plenamente la necesidad del usuario de conocer los detalles de la misión. Además, la sección sobre los perfiles personales de los astronautas, aunque detallada, puede haber excedido el ámbito de interés de los usuarios. Por lo tanto, se recomienda añadir a la respuesta una breve descripción de los objetivos y principales tareas de la misión para satisfacer mejor las necesidades de los usuarios.1. Utilidad de la información (5 puntos):
El asistente de IA proporcionó la hora de lanzamiento, la ubicación y la lista de astronautas de Shenzhou XIX, satisfaciendo la necesidad del usuario de esta información básica. Sin embargo, no se mencionaron los objetivos principales ni el contenido de la misión, lo que no satisfizo plenamente la necesidad del usuario de conocer los detalles de la misión. Por lo tanto, la puntuación de la utilidad de la información fue de 4.
Puntuación: 4/52. Precisión del análisis (5 puntos):
El asistente de IA extrajo con precisión información clave como la hora de lanzamiento, la ubicación y la lista de astronautas a partir de la pregunta del usuario y proporcionó un perfil personal detallado. Sin embargo, no abordó los objetivos ni el contenido principal de la misión, y no logró satisfacer plenamente las necesidades del usuario. Por tanto, la puntuación de la precisión del análisis fue de 4.
Puntuación: 4/53. claridad de expresión (5 puntos):
Las respuestas del asistente de IA están claramente estructuradas, con información bien organizada y fácil de entender. La sección del perfil personal es detallada, lo que facilita a los usuarios la comprensión de los antecedentes del astronauta. Por lo tanto, la claridad de expresión se puntúa con un 5.
Puntuación: 5/5 puntuación compuesta = 4*0,6 + 4*0,2 + 5*0,2 = 4,2 Combinada, la puntuación compuesta para la respuesta del asistente de IA es 4,2. (sobre 5 puntos)

 

Modelos participantes

Para medir de forma exhaustiva el nivel de desarrollo actual de los grandes modelos nacionales e internacionales en cuanto a capacidad de búsqueda de IA, se seleccionaron para esta evaluación 4 modelos extranjeros y 10 modelos nacionales representativos.

En vista de que muchos modelos a gran escala nacionales y extranjeros suelen ofrecer dos o más versiones, incluida la versión ordinaria y la versión de exploración en profundidad, en este proceso de selección de modelos adoptamos un criterio unificado: si un modelo está equipado con una versión de búsqueda o análisis en profundidad, seleccionaremos la versión con mayor capacidad de búsqueda para una evaluación exhaustiva. 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

Resultados de la evaluación

lista general「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
Lista de capacidades básicas
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
Escenario Lista de aplicaciones

「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
Lista de preguntas subjetivas
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
Lista de preguntas objetivas「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

Ejemplo de comparación de modelos

 

示例1 基础能力-推理分析能力

提示词Prompt:「GPT-1 模型的结构为什么用 Transformer 而不是 LSTM?」

模型回答比较(满分5分):
【Kimi 探索版】:4分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
【chatgpt-4o-latest】:3.9分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
【天工AI搜索(高级模式)】:3.4分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

示例2 基础能力-跨领域关联

提示词Prompt:「请你帮我找计算机视觉技术在农业中的应用都有哪些,选择其中3项应用分别简单地介绍一下。」

模型回答比较(满分5分):

【秘塔AI搜索(研究模式)】:4分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
【文小言】:3.4分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
【星火AI搜索】:3分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

示例3 场景应用-股票

提示词Prompt:「请你告诉我近年来A股中的几次重要牛市及其相关数据(如起始时间、持续时间、涨幅、最高最低点等)。」模型回答比较(满分5分):【Gemini-1.5-Pro-Search】:3.2分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
【智谱清言AI搜索】:3.3分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
【Bing Search】:2.6分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
示例4 场景应用-生活

提示词Prompt:「今年1至10月,我国汽车产销量分别达到了多少万辆,并且与去年同期相比增长了多少百分比?」

模型回答比较(满分5分):

【通义千问(深度搜索)】:4.2分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
【360AI搜索(深入回答)】:3.8分 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

人类一致性评估

为确保大模型自动化测评的科学性,我们对GPT-4o-0513在AI搜索评价任务中的人类一致性进行了评估。

具体操作方法为:选取5个模型,每个模型一个人进行独立打分,分别针对主客观题的不同维度进行评分,然后按照评分标准加权求平均。我们计算每道题目人类评分与模型评分的差值,求和取平均后得到每道题的平均差距作为人类一致性评估的评估结果。

最终得到的平均结果如下:平均差异结果为(百分制):5.1 分

因为本次自动化评价有较高可靠性。

测评分析及结论

1.AI搜索综合能力,chatgpt-4o-latest 保持领先。

由测评结果可知,chatgpt-4o-latest(73.41分)综合能力表现出色,领跑SuperCLUE-AISearch基准。较国内最好模型Kimi探索版仅高0.71分。
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
2.国内大模型的整体表现颇为亮眼,各模型之间的差异相对较小

从测评结果来看,秘塔AI搜索(研究模式)、智谱清言AI搜索和海螺AI 等国内模型在基础能力上表现较为不错,有赶超海外大模型 Gemini-1.5-Pro-Search 的势头。总体而言,综合成绩处于中游的几个国内大模型如海螺AI 、文小言 、通义千问(深度搜索),模型间的表现不相上下,展现出较小的差异。
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
3.在不同的场景应用中,模型展现出了不同程度的表现。

在AI搜索的考察中,我们重点关注了模型在不同场景应用下的表现情况。国内大模型在科技、文化、商业和娱乐等场景下表现得较为不错,在可以准确地把握住信息的时效性的同时,展现不错的检索信息与整合信息的能力。但在股票、体育等场景下,国内大模型仍存在明显的提升空间。

例如在AI搜索的过程中,模型需要准确拆解出用户的搜索需求、搜索正确的相关网页与准确的时效性信息,最后将信息进行整合,形成一份对于用户来说有实用性的回答结果。从当前的观察来看,国内的大模型有时无法准确地分析出搜索需求,在整合信息的过程中有时参考了不相关的网页内容,导致国内大模型在某些场景应用中表现不佳。

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...