揭秘大模型“幻觉”:HHEM 排行榜透视 LLM 事实一致性现状

Descubrir la ilusión del gran modelo: las clasificaciones de los HHEM permiten comprender el estado de la coherencia factual en el LLM

Las capacidades de los Grandes Modelos Lingüísticos (LLM) evolucionan constantemente, pero el fenómeno de los errores factuales o "ilusiones" de información irrelevante en su salida siempre ha sido un reto importante que ha impedido su uso más amplio y una mayor confianza en ellos. Para evaluar cuantitativamente este problema, Hughes Hallucinati...
hace 3 meses
06030
必应:AI 驱动的搜索引擎如何提升意图驱动型 SEO 的价值

Bing: Cómo los motores de búsqueda impulsados por IA pueden aumentar el valor de los SEO basados en la intención

Imagina una empresa tecnológica que planea lanzar una innovadora cafetera inteligente ecológica. La cafetera está diseñada para amantes del café expertos en tecnología y profesionales ocupados que buscan comodidad, personalización y sostenibilidad. Para atraer al público objetivo deseado, contratan a una agencia de marketing. Sin embargo, la agencia no...
hace 4 meses
06030
Runway 推出 Gen-4:新一代 AI 视频生成模型,主打世界一致性与可控性

Runway lanza Gen-4: una nueva generación de modelos de generación de vídeo de IA centrados en la coherencia y la controlabilidad mundial

La empresa de investigación en Inteligencia Artificial Runway acaba de lanzar su nueva serie de modelos de IA para la generación de medios, Runway Gen-4, diseñada para abordar los retos de coherencia que prevalecen en la actual generación de vídeo de IA y mejorar la capacidad de control de la generación de contenidos, marcando un avance hacia una...
hace 2 meses
05980
Grok 3 基准测试数据“掺水”? OpenAI 员工爆料 xAI 或虚报性能

¿Los datos de referencia de Grok 3 están "aguados"? Un empleado de OpenAI dice que xAI podría estar falseando el rendimiento

El debate sobre la evaluación comparativa de la IA y la forma en que los laboratorios de IA publican sus resultados es cada vez más público. El rendimiento de la IA se ha medido y comunicado durante mucho tiempo de forma controvertida, y ahora estos debates entre bastidores por fin están saliendo a la luz. Esta semana, un empleado de OpenAI ...
hace 4 meses
05960
微软 Magma 模型:一款 AI 智能体,搞定 UI 操作和机器人控制

Modelo Magma de Microsoft: un cuerpo inteligente con IA que se encarga de las operaciones de interfaz de usuario y los controles robóticos

Recientemente, Microsoft Research ha dado a conocer un importante resultado de investigación: Magma, un modelo básico de agentes de IA multimodal. Este modelo no sólo puede "leer" imágenes y "entender" el lenguaje como los humanos, sino también manejar directamente la interfaz de usuario (UI) y controlar máquinas... No sólo puede "ver" imágenes y "entender" el lenguaje como un humano, sino también manejar directamente la interfaz de usuario (UI) y controlar la máquina...
hace 4 meses
05930
百度幡然醒悟,文心智能体平台将全面接入DeepSeek!

Baidu ha recapacitado y la plataforma Wenshin para el cuerpo inteligente tendrá acceso completo a DeepSeek.

Baidu noticias oficiales: con el fin de servir a la mayoría de los desarrolladores y amigos llamar a todo tipo de capacidades del modelo para crear y poner a punto el cuerpo inteligente, Wenxin plataforma de cuerpo inteligente será plenamente el acceso DeepSeek. A partir del 16 de febrero de 2025 21 años, aún no se ha visto en la plataforma de cuerpo inteligente Wenxin DeepSeek , se estima...
hace 4 meses
05930
o3用实际证明通用推理模型在编程领域优于专用编程模型

o3 Demostración práctica de la superioridad de los modelos de inferencia genéricos sobre los modelos de programación especializados en dominios de programación

ORIGINAL: A Study of Programming Competition Based on Large Reasoning Models A continuación se presenta un breve resumen para facilitar la lectura. 1. INTRODUCCIÓN 1.1 ANTECEDENTES Y MOTIVACIÓN En los últimos años, los Grandes Modelos de Lenguaje (LLMs) han progresado significativamente en la generación de programas y tareas de razonamiento complejas. Concursos de programación, especialmente como el ...
hace 4 meses
05830
WikiTok:当维基百科穿上“抖音”的皮——空有想法的半成品,能否靠AI逆天改命?

WikiTok: Cuando Wikipedia se pone en la piel de "Shakeology", un producto a medio hacer con una idea vacía, ¿puede confiar en la IA para cambiar su destino?

En esta era de explosión de información, las plataformas de vídeos cortos son como un enorme "agujero negro del tiempo", que devora gran parte del tiempo fragmentado de la gente. Para combatir esta adicción digital, se han creado diversas herramientas de gestión de la salud frente a las pantallas y estilos de vida minimalistas digitales, pero los resultados distan mucho de ser satisfactorios. Recientemente, un programa llamado Wiki...
hace 4 meses
05760
新一代 AI 编程工具深度解读与 AutoDev Sketch 的创新实践

Una inmersión profunda en la próxima generación de herramientas de programación de IA y prácticas innovadoras con AutoDev Sketch

Las tecnologías de Inteligencia Artificial (IA) están penetrando en todos los aspectos del desarrollo de software a un ritmo sin precedentes, y la evolución de las herramientas de programación de IA es particularmente convincente. En este artículo, analizaremos las tendencias de desarrollo de la próxima generación de herramientas de programación de IA, y las combinaremos con la práctica de AutoDev Sketch....
hace 4 meses
05650