banner

Noticias

Feb 18, 2024

Un sistema de automatización abierto para la detección de revistas depredadoras

Scientific Reports volumen 13, número de artículo: 2976 (2023) Citar este artículo

11k Accesos

3 citas

57 altmétrico

Detalles de métricas

Se publicó una corrección del autor de este artículo el 8 de mayo de 2023.

Este artículo ha sido actualizado

El creciente número de revistas en línea de acceso abierto promueve los intercambios académicos, pero la prevalencia de revistas depredadoras está socavando el proceso de presentación de informes académicos. La recopilación de datos, la extracción de características y la predicción de modelos son pasos comunes en las herramientas diseñadas para distinguir entre revistas académicas y sitios web de editores legítimos y depredadores. Los autores los incluyen en su propuesta de sistema de verificación predatoria de revistas académicas (AJPC) basado en métodos de aprendizaje automático. El proceso de recopilación de datos del AJPC extrae información de 833 listas negras y 1213 listas blancas de sitios web para identificar palabras y frases que podrían indicar la presencia de revistas depredadoras. La extracción de características se utiliza para identificar palabras y términos que ayudan a detectar sitios web depredadores, y la etapa de predicción del sistema utiliza ocho algoritmos de clasificación para distinguir entre revistas legítimas y potencialmente depredadoras. Descubrimos que mejorar la eficiencia de clasificación del modelo de bolsa de palabras y el algoritmo TF-IDF con puntuaciones de diferencias (una medida de las diferencias en las frecuencias de palabras específicas entre revistas) puede ayudar a identificar palabras destacadas de revistas depredadoras. Los resultados de las pruebas de rendimiento sugieren que nuestro sistema funciona tan bien o mejor que los que se utilizan actualmente para identificar editores y publicaciones sospechosas. El sistema abierto solo proporciona resultados de referencia en lugar de opiniones absolutas y acepta consultas y comentarios de los usuarios para actualizar el sistema y optimizar el rendimiento.

Las revistas depredadoras se consideran una amenaza significativa para la confiabilidad y legitimidad de la investigación y los informes científicos convencionales1,2. Definidas como publicaciones engañosas o escritas únicamente3,4, las revistas depredadoras y las actas de congresos depredadoras satisfacen la creciente demanda entre los académicos de que se publiquen sus investigaciones5,6,7,8. Se promocionan a sí mismos como si tuvieran procesos rápidos de revisión de manuscritos, pero a menudo no mencionan que no cumplen con los procedimientos estándar de revisión por pares. Algunas revistas depredadoras son conocidas por utilizar información falsa para atraer a los investigadores a enviar manuscritos y luego exigir cargos exorbitantes por procesamiento de artículos (APC) antes de su publicación1,9,10. En 2021, la base de datos Predatory Reports de Cabells muestra que había aproximadamente 15.000 revistas depredadoras activas, y los autores pagaban colectivamente cientos de miles de dólares para que se publicaran sus artículos11.

Cuando se publican resultados de investigación inexactos o mal ejecutados en revistas depredadoras, pueden afectar los estudios posteriores y la veracidad de la información difundida al público en general1. En algunos casos, estos y otros resultados de investigación engañosos se publican en sitios web o medios de comunicación como Facebook, Twitter y Line o son reportados por estaciones de radio y televisión locales12. En muchos casos, las personas que leen o escuchan estas historias no reciben suficiente información para verificar las fuentes originales, lo que eventualmente crea una situación en la que los consumidores de noticias no pueden distinguir entre tres tipos de ciencia: legítima, basura y pseudo13. Un ejemplo sencillo proviene de Taiwán, donde un equipo de investigación afirmó haber encontrado datos que indicaban que comer piña todos los días era una alternativa suficiente a los tratamientos médicos para las manchas oculares conocidas como moscas volantes vítreas14. Cuando se publicó el artículo original en 2019, todos los principales canales de noticias de Taiwán informaron sus hallazgos, que se volvieron a publicar en varios sitios web de redes sociales. Sin embargo, los investigadores que revisaron el estudio en detalle encontraron múltiples puntos que cuestionar, como la ausencia total de datos demográficos de los participantes, la falta de un grupo de control, métodos estadísticos incorrectos y una combinación de exageración y errores gramaticales básicos en todo el informe escrito. En un segundo ejemplo del Macedonian Journal of Medical Science, un grupo de investigadores afirmó que “puede haber una estructura similar a un agujero negro en el centro de la Tierra”. El mismo autor de este informe escribió un artículo en el que afirma que los coronavirus son causados ​​por la radiación de la red 5G15. Los expertos que reexaminaron estos estudios especularon que los autores enviaron deliberadamente manuscritos ridículos a una revista depredadora o que se utilizó un programa de inteligencia artificial para insertar términos y frases críticas en un artículo para que pareciera una investigación legítima.

Las últimas dos décadas han sido testigos de un aumento espectacular en el número de revistas de acceso abierto (OA). Dado que el propósito de las revistas científicas y profesionales es transmitir información de manera que permita su verificación y replicación por parte de otros investigadores en comunidades compartidas16, las revistas de acceso abierto pueden desempeñar un papel importante en términos de movilidad y difusión de la información, especialmente porque muchas publicaciones de acceso abierto son gratuitas o gratuitas. económicos y permiten la rápida distribución en línea de los últimos hallazgos7,9,17. Sin embargo, la facilidad de publicación en línea ha resultado en un crecimiento explosivo en el número de revistas en línea, lo que presenta desafíos en términos de determinar la calidad de la investigación publicada8. Dado que las universidades y los institutos de investigación exigen que los académicos publiquen en revistas con altas clasificaciones en SCI, SSCI u otros índices, existe una preocupación particular por identificar y evitar revistas depredadoras y de baja calidad6.

Las revistas depredadoras tienen éxito porque satisfacen las demandas de ascensos y permanencias académicas, evaluaciones académicas anuales y valoraciones de solicitantes de empleo, con evaluaciones basadas en el número de publicaciones, el orden de los autores y el impacto de las revistas5,6,7. Hoy en día, el dicho de “publicar o morir” es especialmente cierto en países en desarrollo como China, India y Sudáfrica, donde los científicos enfrentan una tremenda presión para que se citen sus investigaciones7,18. Ciertas áreas geográficas son reconocidas por su participación en el proceso de publicación; por ejemplo, las ciudades costeras orientales altamente desarrolladas de China. Los investigadores de ciertos países (por ejemplo, India, Nigeria, Turquía) tienen reputación por la enorme cantidad de artículos publicados en revistas depredadoras6. Las comunidades académicas de otros países están tomando medidas para resistir este fenómeno. El Centro para la Educación Ética en Investigación Académica de Taiwán está trabajando con la Universidad Nacional Yang Ming Chiao Tung, la Universidad Nacional de Taiwán y otras escuelas e institutos de investigación para ayudar a los profesores e investigadores a aprender cómo identificar revistas y conferencias depredadoras. La capacitación implica práctica en tres pasos: pensar, verificar y enviar a revistas y editores legítimos. También se muestra a los participantes cómo utilizar recursos de la biblioteca como Beall's List, Stop Predatory Journals List, Directory of Open Access Journals (DOAJ), Master Journals List, International Network for the Availability of Scientific Publications y African Journals Online. Sin embargo, no existe un sistema integral de consulta único para uso de los académicos interesados ​​en publicar sus manuscritos.

Jeffrey Beall, a quien se le atribuye haber acuñado el término “publicación depredadora en acceso abierto”9,19, describe el modelo de negocio de acceso abierto como el cobro de tarifas de procesamiento excepcionalmente altas para los manuscritos que se publicarán en revistas en línea “gratuitas”9. Sus criterios heurísticos para identificar sitios web de revistas depredadoras incluyen la aceptación de artículos sobre temas no relacionados con el campo declarado de la revista, promesas de revisión y publicación rápidas y el cobro de APC excepcionalmente altos sin garantías de servicios editoriales razonables9,20.

Actualmente, los investigadores utilizan una combinación de revisiones sistemáticas y análisis estadísticos al examinar listas de revistas y sitios web. Se aplicaron métodos tanto cuantitativos (frecuencias y porcentajes de características de revistas depredadoras) como cualitativos (análisis temáticos) para detectar marcadores de revistas depredadoras en cinco bases de datos bibliográficas de uso común21. Informaron que en el 78% de los estudios que revisaron para su proyecto, los autores utilizaron comentarios, opiniones, cartas o editoriales para delinear o discutir las características de las revistas. Extrajeron 109 características únicas del 22% restante y las utilizaron para establecer seis categorías analíticas: operaciones del diario; procedimientos de revisión de artículos, editoriales y por pares; comunicación; cargos por procesamiento de artículos; difusión, indexación y archivo; y la aparición de cinco descriptores. Sus hallazgos resaltan una larga lista de señales de alerta: prácticas engañosas o falta de transparencia que indican estándares de calidad deficientes, marcas de investigación o prácticas editoriales poco éticas, el uso de ciertos tipos de lenguaje persuasivo, revistas publicadas por autores para audiencias limitadas en países específicamente identificados, información poco clara sobre las APC y afirmaciones de estar incluidas en índices o bases de datos conocidos, entre otros. Otros análisis bibliométricos para comprobar la literatura médica internacional sobre publicaciones predatorias22 y citas de revistas predatorias23. Se utilizaron métodos bibliométricos descriptivos para analizar la productividad de individuos, instituciones y naciones y la ubicación geográfica y las publicaciones de los autores citantes.

En un artículo aparte, los métodos de clasificación manual tienden a basarse en criterios inadecuados o inherentemente confusos6. Así, existe un pequeño número de programas de identificación que utilizan enfoques diferentes al descrito por Cobey et al.21. Un ejemplo, un complemento web de ispredatory.com, utiliza una combinación de la lista de Beall y datos de editores depredadores compartidos por académicos: una forma de crowdsourcing24. Los usuarios pueden buscar editores por nombre, URL, título o ISSN de la revista y acceder a una lista actualizada manualmente de editores depredadores confirmados. La estrategia de extracción de patrones de datos para la detección de afirmaciones de indexación falsas utiliza elementos de árboles de decisión de bosque aleatorio, RepTree y J48, además de algoritmos relacionados25. Para determinar los vínculos entre artículos individuales y revistas y editores depredadores/legítimos, se utilizó un modelo de capacitación basado en datos, llamado PredCheck, con conjuntos de datos de dos grupos editoriales con sede en la India: OMICS (OPG) y BioMedical Central (BMC)26. En promedio, su ingenuo modelo basado en el clasificador Bayes alcanzó una precisión del 95% y una puntuación F1 de 0,89.

Estos métodos y criterios utilizan el archivo, el contenido de la etiqueta o el complemento web específico y, por lo tanto, requieren intervención humana para recopilar información con fines de verificación. Para los académicos, actualmente no existe un sistema de consulta abierto que no requiera instalación y sea más intuitivo. El presente estudio tiene como objetivo diseñar un sistema analítico intuitivo que cualquiera pueda utilizar sin un complemento para identificar revistas y sitios web de editores depredadores. Nuestra solución propuesta implica el entrenamiento de modelos utilizando conjuntos de datos legítimos y depredadores construidos a partir del contenido del sitio web de la revista. Nuestro sistema propuesto, que utiliza el menor número posible de características para lograr su propósito, utiliza puntuaciones de diferencias (que se describirán en una sección posterior) para identificar palabras características que se encuentran comúnmente en sitios web de revistas depredadoras; en otras palabras, términos que ejercen un efecto positivo. impactos en el rendimiento del modelo. Hemos creado una aplicación web que brinda acceso público completo al sistema AJPC. Este es un sistema de consulta fácil de usar como referencia.

Las revistas depredadoras se aprovechan del entusiasmo de los académicos por enviar artículos para solicitar artículos. Las características incluyen revisión rápida sin un mecanismo de revisión profesional, factor de impacto fraudulento, consejos editoriales falsos que enumeran sin veracidad a científicos respetados, una extensa colección de artículos, títulos de revistas aparentemente similares a los de revistas legítimas e invitaciones agresivas de spam para enviar artículos. Además, las revistas depredadoras obtienen ganancias cobrando altas tarifas de procesamiento de artículos.

Como se muestra en la figura 1, los sitios web de revistas legítimas y depredadoras suelen mostrar bloques de texto denominados "Factor de impacto", "Consejo editorial", "Acerca de la revista" y "Contáctenos". Distinguir entre ellos requiere las mismas tácticas de aprendizaje automático que se utilizan para resolver problemas de clasificación binaria, como identidades falsas en redes sociales27, URL sospechosas en redes sociales y el secuestro de sitios web legítimos25. En el aprendizaje automático, el proceso de clasificación de texto consiste en asignaciones de etiquetas o categorías basadas en el contenido del texto. Aunque el texto puede ofrecer ricas fuentes de información, extraer conocimientos puede resultar difícil y llevar mucho tiempo cuando se trata de datos no estructurados.

Nuestro sistema de verificación depredadora de revistas académicas (AJPC) propuesto identificó la primera revista, Antártida Science, como legítima, y ​​la segunda, International Journal for Development of Computer Science and Technology, como potencialmente depredadora. Las similitudes entre los dos sitios web se observan en los marcos del cuadro de color. 1a fue capturado de https://www.cambridge.org/core/journals/antarctic-science# y 1b fue capturado de http://ijdcst.com/.

Las tácticas utilizadas por los editores depredadores incluyen tergiversaciones de los procesos de revisión por pares, los servicios editoriales y los estados de indexación de las bases de datos1. Las revistas depredadoras con fines de lucro generalmente reducen drásticamente los costos editoriales y de publicación al eliminar por completo procedimientos como revisiones de árbitros, abordar cuestiones de mala conducta académica, señalar posibles casos de plagio y confirmar la legitimidad del grupo de autores29. Sin embargo, a un número sorprendente de revistas depredadoras les resulta fácil atraer presentaciones académicas de autores interesados ​​en rellenar sus CV21,30. Estas acciones intencionadamente engañosas pueden dar lugar a citas y citas incorrectas, desperdiciando así valiosos fondos y recursos de investigación y destruyendo la confianza del público en la investigación universitaria. Los sitios web de revistas depredadoras también tienden a carecer de una indexación de bases de datos creíble con agencias como Journal Citation Reports (JCR) o el Directory of Open Access Journals (DOAJ). Combinados, estos problemas están creando caos en las comunidades académicas, con editores, autores, revisores y personas relacionadas que siguen diversas estrategias para proteger la calidad de la investigación31,32.

Dado que las revistas depredadoras tienden a falsificar la información de sus índices y sus valores de impacto, al tiempo que promueven altas tasas de aceptación33, los investigadores interesados ​​en evitar las revistas depredadoras deben estar familiarizados con las clasificaciones de índices actuales, los indicadores científicos y los anuncios de las bases de datos de publicaciones científicas. Junto con las direcciones de las oficinas editoriales, frases y términos como “indexación en una base de datos [específica]” y “métricas de revistas” parecen indicar legitimidad, pero también se utilizan en publicidad engañosa y correos electrónicos promocionales enviados por revistas depredadoras34. Otras señales de alerta incluyen promesas de una rápida revisión por pares; el uso de correos electrónicos de contacto informales o personales que no estén asociados con un sitio web; páginas web de revistas con múltiples errores ortográficos, gramaticales y de contenido; afirmaciones falsas de factores de alto impacto con indicadores creados por ellos mismos; y falta de listados de editoriales en bases de datos universales como DOAJ, Open Access Scholarly Publishers Association o Committee on Publication Ethics13,19,33,34,35,36. La publicación involuntaria de investigaciones académicas a través de correos electrónicos no deseados y de phishing puede dañar las carreras y provocar la pérdida de dinero. Los investigadores están preocupados por las invitaciones electrónicas que reciben para presentar artículos o asistir a conferencias, y necesitan una buena educación o un sistema de evaluación valioso para evaluar si son depredadoras o no.

Como muestra la figura 1, los propietarios de sitios web de revistas depredadoras son expertos en imitar los estilos de diseño de sitios web legítimos. La Figura 2 muestra las primeras líneas de cartas y correos electrónicos de revistas depredadoras que los académicos reciben regularmente invitándolos a enviar manuscritos; es difícil distinguirlas de las comunicaciones enviadas por revistas legítimas21,30. Ambas figuras contienen ejemplos de textos que ensalzan las virtudes de las revistas invitantes, incluidos valores altos del índice h5; altas tasas de citación; e indexación específica (cuadros verde, rojo y naranja, respectivamente).

Ejemplos de texto potencialmente engañoso en invitaciones enviadas a académicos para enviar manuscritos.

El aprendizaje automático supervisado, no supervisado y de refuerzo para el procesamiento del lenguaje natural son herramientas útiles para resolver numerosos problemas de análisis de texto. El principal desafío para crear un sistema conveniente de identificación de revistas depredadoras es similar a los de las noticias falsas y los problemas de detección de URL maliciosas28,37: ambos tipos de problemas involucran variación de texto, mensajes confusos o poco claros y diseños de sitios web imitativos. Dado que la identificación de la página de inicio de revistas depredadoras es esencialmente un problema de clasificación, nos propusimos modificar uno o más algoritmos para mejorar el proceso de aprendizaje automático centrado en el ser humano asociado con la comunidad UX de Google38. Actualmente, los enfoques de evaluación y clasificación de texto más utilizados son la máquina de vectores de soporte (SVM), el Bayes ingenuo gaussiano, el Bayes ingenuo multinomial, el bosque aleatorio (RF), la regresión logística, el descenso de gradiente estocástico (SGD), el vecino más cercano (KNN) y votación39. Todos utilizan parámetros finamente ajustados para seleccionar la mejor configuración para cada técnica de clasificación. A continuación se presentan breves descripciones de estos enfoques.

Utilizadas con frecuencia para detectar textos engañosos, clickbait y sitios web de phishing, las SVM son herramientas prácticas que utilizan planos de decisión para clasificar objetos según dos categorías: esperados y no esperados37,40,41. Un ejemplo de un enfoque basado en SVM explota características basadas en contenido para entrenar clasificadores que luego se utilizan para etiquetar diferentes categorías (F1 = 0,93)40. Su algoritmo SVM utilizó cada conjunto de datos como un vector, lo trazó en un espacio de alta dimensión y construyó un hiperplano para separar clases. El hiperplano maximizó las distancias entre los aviones y sus puntos de datos clickbait y no clickbait más cercanos.

El RF y dos sistemas ingenuos bayesianos (NB) se aplican con frecuencia a problemas de clasificación de textos debido a su eficiencia computacional y rendimiento de implementación42. Sin embargo, la falta de parámetros específicos del algoritmo significa que los usuarios del sistema NB deben tener un conocimiento profundo del modelo que se está examinando, lo que añade una carga computacional considerable para fines de optimización43. El sistema RF funciona como un hipervínculo aleatorio con parámetros específicos, por ejemplo, árbol específico y números variables para cada división. Siempre que el tamaño total de la entrada sea lo suficientemente grande, su rendimiento se considera suficientemente sólido para manejar cambios de parámetros. En un estudio diseñado para detectar casos de phishing, el clasificador RF tuvo una tasa de precisión del 98,8%41, y en un estudio separado destinado a detectar revistas biomédicas depredadoras, produjo una puntuación F1 de 0,9326. El sistema RF también se ha utilizado con árboles de decisión como estrategia para prevenir la indexación de artículos publicados en revistas depredadoras, ya que algunos individuos se han vuelto expertos en secuestrar sitios web de revistas y cobrar tarifas de procesamiento y publicación de autores desprevenidos25.

Se han utilizado regresiones logísticas para clasificar los titulares y el contenido de las noticias. En un estudio que incluyó noticias falsas y verdaderas en Bulgaria, un enfoque de regresión logística logró una precisión de 0,75 para el conjunto de datos más difícil44. Las regresiones logísticas asignan factores de ponderación a las características de muestras individuales, con resultados previstos iguales al valor de cada característica de la muestra multiplicado por su factor de impacto: el coeficiente de la ecuación. En consecuencia, los problemas de clasificación se transforman en problemas de resolución de coeficientes de optimización.

SGD se ha aplicado con éxito a problemas de aprendizaje automático dispersos y a gran escala que se encuentran con frecuencia en la clasificación de textos y el procesamiento del lenguaje natural. Se puede utilizar para fines de clasificación o cálculo de regresión. En un estudio indonesio, se utilizó un clasificador SGD con un núcleo Huber modificado para detectar engaños en sitios web de noticias y se informó que tenía una tasa de precisión del 86%35.

KNN es un método de aprendizaje diferido o basado en instancias, con aproximaciones locales y con todos los cálculos diferidos hasta después de la clasificación45. Considerado uno de los algoritmos de aprendizaje automático más simples, KNN es sensible a las estructuras de datos locales. Este método se puede utilizar con un conjunto de capacitación para clasificar revistas identificando los grupos más cercanos. Las etiquetas de categoría se asignan según el predominio de una categoría particular dentro de un grupo. Un estudio aplicó representaciones heurísticas de características con el método KNN para clasificar revistas depredadoras y reportó una tasa de precisión del 93%46.

La votación es una de las formas más sencillas de combinar predicciones de múltiples algoritmos de aprendizaje automático. El método no implica un clasificador real, sino un conjunto de contenedores entrenados y evaluados en paralelo para aprovechar las características de cada algoritmo.

La clasificación implica dos objetivos principales: analizar los factores que afectan la clasificación de los datos y asignar elementos a clases preestablecidas mediante predicciones de características39. Cuando un clasificador tiene datos suficientes, un modelo puede identificar las características de las categorías esperadas y utilizarlas para predicciones adicionales de categorías de datos. Para fines de clasificación de texto, si no se consideran las relaciones de orden de palabras y las estructuras gramaticales en un archivo, un método de vectorización común es la bolsa de palabras (BOW), que calcula los pesos asociados con el número de apariciones de palabras en un texto. BOW se ha aplicado con frecuencia a tareas que implican clasificación de reseñas de restaurantes, recuperación de información negativa y filtración de correo no deseado28,37,47. Para utilizar algoritmos de aprendizaje automático, los documentos individuales deben transformarse en representaciones vectoriales. Suponiendo que en todos se utilizan N documentos con T términos, es posible convertir todos los documentos en una matriz vectorial. Por ejemplo, supongamos un vector N3 = [15, 0, 1,…, 3] con la palabra T1 que aparece 15 veces, la palabra T3 una vez y la palabra Tt 3 veces en el documento 3. Aunque BOW se considera un método simple para la transformación de documentos , hay que resolver dos problemas, el primero es que el número total de palabras por documento individual no es el mismo. Si hay 10.000 palabras en total en el documento 2 y 50 en el documento N, y la palabra 3 aparece diez veces en el documento 2 pero sólo dos veces en el documento N, obviamente tendrá un peso mucho mayor en el documento N. El otro problema es que las expresiones idiomáticas y las palabras de uso frecuente ejercen impactos significativos en los documentos individuales. Por ejemplo, si una palabra común como “el” aparece muchas veces en diferentes documentos pero tiene la mayor cantidad de apariciones en uno, se convierte en un vector dominante pero sin significado.

La frecuencia de documentos inversa (TF-IDF) es un método estadístico comúnmente utilizado en escenarios de recuperación de información y relacionados con texto para evaluar la importancia de las palabras en documentos43,49,50. El algoritmo TF-IDF divide las palabras características en términos de peso y reduce la cantidad de palabras de peso cero. Para el problema del sitio web de revistas depredadoras, encontrar mejores pesos de palabras características puede mejorar la eficiencia de la discriminación si se puede identificar que las palabras aparecen con mayor frecuencia en sitios web depredadores. Una breve lista de palabras características que se han identificado como que posiblemente cumplan con este requisito incluye “internacional”, “estadounidense”, “británico”, “europeo”, “universal” y “global”, y algunos investigadores sugieren que son más probables. aparecer en títulos de revistas depredadoras21,34,51. Otras palabras sospechosas están asociadas con métricas: “factor de impacto de calidad”, “factor de impacto global” y “factor de impacto de revista científica” son tres ejemplos. Otras palabras destacadas se refieren a ideas expresadas en una sección anterior de este documento: promesas de procesos de revisión por pares y ciclos de revisión cortos que van desde unos pocos días hasta menos de cuatro semanas.

Dado que la detección temprana de patrones en sitios web es fundamental para identificar revistas depredadoras, determinar la precisión del modelo es una tarea crítica. Generalmente se han utilizado cuatro métricas de desempeño para evaluar los clasificadores: precisión (porcentaje de predicciones de clasificación correctas), precisión (proporción de identificaciones positivas correctas), recuperación (porcentaje de documentos relevantes recuperados con éxito) y puntuación F1 (promedio de precisión y recuperación como índice equilibrado). Para este estudio, utilizamos puntuaciones de recuerdo y F1 como medidas del desempeño del clasificador. Las puntuaciones F1 se pueden utilizar para confirmar los niveles de recuerdo y precisión; las puntuaciones más altas indican menos errores legítimos de clasificación de revistas. Los métodos de cálculo de exactitud, precisión, recuperación y puntuaciones F1 se muestran en la Tabla 1.

La Figura 3 presenta la arquitectura del sistema AJPC, construida utilizando Flask, un marco de aplicación web escrito en Python. AJPC extrae el contenido URL ingresado por un usuario, preprocesa los datos, convierte el contenido del sitio web en vectores de palabras y aplica un modelo de clasificación para la predicción de categorías antes de enviar los resultados a su back-end y mostrarlos. En resumen, AJPC consta de tres módulos principales: recopilación de datos, extracción de características y predicción de modelos. La recopilación de datos durante el preprocesamiento del lenguaje natural se centra en el contenido de la URL para la extracción de características mediante el método BOW. Durante la etapa de predicción del modelo, se aplican ocho clasificadores comunes al entrenamiento del modelo, y se selecciona el mejor modelo en función de la tasa de recuperación y la puntuación F1.

Arquitectura propuesta del sistema de verificación predatoria de revistas académicas (AJPC).

Se estableció una lista única de revistas depredadoras utilizando información recopilada de la lista actualizada de Beall's19 y Stop Predatory Journals52. Las revistas que aparecen en estas listas se analizan en términos de credibilidad según lo establecido por el Comité de Ética en Publicaciones, observaciones a largo plazo y comentarios anónimos de la comunidad19,52. Los datos de la lista de revistas legítimas se recopilaron del sitio web Quest del Instituto de Salud de Berlín (BIH)53, que utiliza datos de las listas de revistas DOAJ y Pubmed Central. Después de verificar manualmente todos los enlaces de revistas legítimas y depredadoras para confirmar los estados activos, se aplicó un rastreador web para crear dos listas. Para este estudio, el AJPC identificó 833 enlaces a revistas depredadoras y 1.213 a revistas legítimas. En el aprendizaje automático supervisado, las muestras normalmente se dividen en conjuntos separados de entrenamiento y prueba, el primero se usa para entrenar el modelo y el segundo se usa para examinar el desempeño del modelo seleccionado como el mejor.

Los procedimientos de preprocesamiento de la recopilación de datos comúnmente implican la eliminación de etiquetas, palabras vacías y puntuación, y la transformación de raíces y texto en minúsculas54. Además de reducir la dimensionalidad del espacio de características, estos procedimientos promueven la eficiencia del sistema de clasificación de textos54,55. En el ejemplo que se muestra en la Fig. 4, se filtran las etiquetas (HTML, CSS) y los scripts innecesarios, y se eliminan algunas de las "palabras vacías" más utilizadas, por ejemplo, "will" y "and" en la oración. “Ciencias de la Información publicará artículos de investigación originales, innovadores, creativos y arbitrados”. “Publicar”, “publicado” y “publicar” son ejemplos de variantes de palabras raíz; AJPC conserva la raíz “publicar” pero elimina las otras dos56. Todo el texto se convierte a minúsculas para reducir la posibilidad de un tratamiento diferente de las palabras que utilizan letras mayúsculas y minúsculas mixtas.

Pasos de preprocesamiento del sistema AJPC.

El módulo de extracción de características utiliza el método BOW, una herramienta eficiente de recuperación de información para datos de texto19,57. BOW convierte texto en valores numéricos y vectores que los algoritmos de aprendizaje automático pueden procesar y utilizar como entrada. Como ejemplo usaremos dos oraciones:

“Era el mejor momento para el control de la epidemia” (frase 1)

"Era el momento de la recuperación económica". (oración 2)

BOW registra todas las apariciones de palabras en ambas oraciones en un diccionario del corpus de entrenamiento. Este método busca en el diccionario cuando la oración se convierte en un vector. Si la palabra de la oración aparece en el diccionario, el valor del vector se almacena como 1; de lo contrario, se almacena como 0. Por ejemplo, “tiempo” se almacena como 1 en cada vector, y las palabras de la oración 2 (es decir, “mejor”, “epidemia” y “control”) no están en el diccionario y se almacenan. como 0. En este ejemplo, los dos vectores binarios se representan como [1, 1, 1, 1, 1, 1, 1, 1, 0, 0] y [1, 1, 1, 0, 1, 1, 0, 0, 1, 1]. Estos vectores se utilizan para crear dos conjuntos de palabras, uno asociado con sitios web de revistas depredadoras y el otro con sitios web legítimos. El método TF-IDF utiliza conjuntos para evaluar el grado de importancia de palabras individuales en una colección de documentos. Se cree que TF-IDF resuelve dos problemas asociados con el algoritmo BOW: lidiar con diferencias en el número total de palabras en dos o más artículos y palabras y expresiones idiomáticas recurrentes que ejercen una influencia significativa en los documentos. Como se explicó en un ejemplo anterior, si la palabra \({w}_{2}\) aparece nueve veces en el documento \({D}_{2}\) y dos veces en el documento \({D}_{t} \), pero \({D}_{2}\) tiene 10,000 palabras y \({D}_{t}\) solo 50 palabras, \({w}_{2}\) es mucho más importante para archivo \({D}_{t}\).

TF se refiere a la frecuencia de una palabra determinada. Con \({tf}_{t,d}\) expresado como

donde \({q}_{t,d}\) denota el número de veces que la palabra t aparece en el documento \(d\) y \({\sum }_{k}{q}_{k,d} \) denota el número total de palabras en el documento \(d\). En otras palabras, el método TF considera la importancia de cada palabra en términos de frecuencia en lugar del número total de apariciones, y las palabras más comunes son preprocesadas por IDF. \({idf}_{t}\) denota una medida de importancia de una palabra, expresada como

donde D es el número total de palabras y \({d}_{t}\) es el número de documentos que contienen la palabra t. \({d}_{t}\) es más grande y \({idf}_{t}\) más pequeño para las palabras que aparecen en muchos artículos. El valor de la palabra t en el documento d se calcula utilizando una combinación de TF e IDF, expresado como

El valor de \({score}_{t,d}\) es mayor cuando la palabra t aparece con más frecuencia en el documento d (es decir, un \({tf}_{t,d}\)) más grande y cuando aparece con poca frecuencia en otros documentos (es decir, un \({idf}_{t}\) más grande). Por lo tanto, si el sitio web de una revista depredadora contiene "esto", "revista", "es" e "internacional" y un sitio web de revista legítimo contiene "esto", "revista", "tiene", "revisión por pares" y "paso" , entonces se dice que los dos sitios web contienen un total de 9 palabras. En el sitio web de la revista depredadora (d = 1), la puntuación2,1 asignada a la palabra “revista” es \(1/4*\mathrm{log}(9/1)\), y en el sitio web de la revista legítima (d = 2) la puntuación2,2 asignada a la misma palabra es \(1/5*\mathrm{log}(9/1)\).

Después de crear conjuntos de datos de sitios web de revistas legítimas y depredadoras para los cálculos de puntuación de TF-IDF, se utilizaron puntuaciones de diferencias para identificar palabras destacadas. Una puntuación diferencial que representa las diferentes apariciones de la palabra t en los documentos 1 (depredador) y 2 (legítimo) se calcula como

Usando el ejemplo anterior, \({diff}_{2}= 1/4*\mathrm{log}(9/1)-1/5*\mathrm{log}(9/1)\).

En este caso, un valor de diferencia mayor indica que la palabra t aparece con más frecuencia en sitios web de revistas depredadoras que en sitios web de revistas legítimas, por lo que puede tener mayor utilidad para identificar el estado legítimo o depredador de un sitio web. Se utilizaron las clasificaciones de palabras individuales en función de sus puntuaciones de diferenciación para crear un conjunto de palabras características que consta de n palabras. La Tabla 2 enumera las 20 palabras destacadas que aparecieron con mayor frecuencia en los sitios web de revistas depredadoras utilizadas en este estudio.

El contenido de texto de los 833 sitios web de revistas depredadoras y 1213 legítimas se convirtió en vectores. Específicamente, se construyó un vector 1 × n para cada sitio web, con el vector t establecido en 1 cuando la palabra t era una de las n palabras principales en la revista ji, y en 0 si la palabra t no aparecía como una de las palabras principales. Por ejemplo, si las cinco palabras principales se identificaran como “revista”, “tema”, “internacional”, “volumen” y “artículo”, y el contenido del texto de la revista incluye “revista”, “investigación”, “internacional”, ” “información” y “papel”, el vector de palabras ji resultante utilizado para el entrenamiento y la predicción del modelo fue [1, 0, 1, 0, 1]. El objetivo principal de la clasificación es determinar categorías o clases para nuevos datos. La clasificación se puede realizar con datos estructurados o no estructurados. Cada clasificador requiere optimización de parámetros para lograr los resultados más precisos. Después de la recopilación de datos y la extracción de características, el 80% de las revistas de nuestra muestra (666 depredadoras, 970 legítimas) fueron seleccionadas al azar para usarlas como conjunto de capacitación; el 20% restante (167 depredadores, 243 legítimos) se utilizó como conjunto de prueba. La capacitación modelo también utilizó las 50 a 9000 palabras destacadas principales.

En la versión web del sistema AJPC, las consultas de los usuarios (URL o nombre del sitio web de la revista) se envían a la herramienta de preprocesamiento (Fig. 5). Después de realizar todas las operaciones descritas anteriormente, el sitio web muestra un mensaje "normal" para las revistas legítimas y un mensaje "no existe en este sitio web" para las revistas que no aparecen en las listas Stop Predatory Journals, Beall's actualizada o BIH QUEST. . Todos los demás resultados activan un mensaje de "presunta revista depredadora". En las Figs. 6a, b. Los usuarios pueden aportar recomendaciones adicionales para optimizar el rendimiento del modelo y fortalecer las capacidades de clasificación del sistema. Como se muestra en la Fig. 7, el back-end del sitio web recopila todos los resultados de las consultas de los usuarios para una capacitación adicional del modelo del sistema. Los métodos de evaluación de clasificación del sistema AJPC se detallan en la siguiente sección.

Ejemplos de consultas de revistas legítimas y predatorias.

Resultados de consultas de revistas legítimas y predatorias devueltas por el sistema AJPC.

Resultados consultados de revistas legítimas y depredadoras devueltos por el sistema AJPC.

Se examinaron los ocho algoritmos de clasificación para identificar el más útil para las tareas de identificación de revistas depredadoras y para identificar palabras destacadas que puedan ser útiles para distinguir entre sitios web de revistas legítimas y depredadoras. La configuración de los parámetros para entrenar a los clasificadores se muestra en la Tabla 3. Nuestro examen se realizó utilizando Python 3.7.3 con un servidor que ejecuta el sistema operativo Ubuntu 18.04 (CPU Intel Core i5-8400 a 2,80 GHz, GPU NVIDIA GTX-1600, 16 GB de RAM). Los objetivos de nuestro experimento fueron (a) identificar los mejores resultados del modelo en términos de exactitud, precisión, tasa de recuperación y puntuación F1, y (b) determinar si los sitios web de revistas depredadoras podrían clasificarse correctamente (es decir, la eficiencia de clasificación del modelo es mejor cuando la tasa de recuperación es mayor) y si los modelos individuales no clasificaron las revistas legítimas como depredadoras (es decir, las puntuaciones F1 cercanas a 1 se consideraron indicadores del éxito del modelo). A continuación se muestra un resumen de nuestra tasa de recuperación y los resultados de la puntuación F1.

Se puede aplicar un algoritmo gaussiano ingenuo de Bayes (GNB) a múltiples tipos de variables cuando las características depredadoras se ajustan a distribuciones gaussianas45. Durante el paso de predicción del modelo, observamos una tasa de recuperación de 0,89 cuando el número de características de palabras (NWF) era 8450, y una puntuación F1 de 0,752 cuando NWF = 3700.

Un algoritmo multinomial ingenuo de Bayes (MNB) es adecuado para clasificaciones de características discretas58. Las distribuciones multinomiales generalmente requieren recuentos de características enteras, pero también pueden funcionar recuentos fraccionarios como los que se utilizan con TF-IDF. El método MNB se utiliza principalmente con problemas de clasificación de documentos, especialmente aquellos que involucran la frecuencia de palabras. Los resultados de nuestro experimento indican una tasa de recuperación máxima de 0,904 cuando NWF = 1000 y una puntuación F1 de 0,93 cuando NWF = 1150.

Las regresiones logísticas son algoritmos de aprendizaje supervisado que se utilizan principalmente para resolver problemas de clasificación binaria59. Al generar ecuaciones de regresión logística, se aplican índices de máxima verosimilitud para determinar la importancia estadística de las variables. Una característica de las regresiones logísticas es que todos los valores devueltos oscilan entre 0 y 1. Al determinar si un valor es mayor o menor que 0,5, los datos se pueden clasificar usando una etiqueta 0 o 1. Nuestros resultados de regresión indican un recuerdo máximo de 0,964 cuando NWF = 350 y una puntuación F1 de 0,97 cuando NWF = 1650.

Los algoritmos de aprendizaje conjunto de bosques aleatorios (RF) combinan varios modelos para producir un modelo único, estable y robusto, libre de sesgos y sobreajustes60. Los bosques aleatorios se consideran una combinación de múltiples árboles de decisión, en los que cada árbol produce una predicción independiente. Los "votos" de RF se generan mediante muestras de arranque de datos de entrenamiento y selección aleatoria de características. Las predicciones que reciben la mayor cantidad de votos se seleccionan como finales, con etiquetas de categoría determinadas por los mejores resultados para los árboles de decisión individuales. Estos algoritmos seleccionan aleatoriamente múltiples características para identificar los mejores parámetros en todos los nodos del árbol de decisión. Este proceso de selección funciona bien en situaciones que constan de múltiples características por vector, ya que mitiga la interdependencia entre los atributos de las características. Nuestros resultados de predicción indicaron una tasa de recuperación de RF de 0,982 cuando NWF = 850 y una puntuación F1 de 0,98 cuando NWF = 1200.

Los algoritmos SGD representan un método simplificado para encontrar mínimos de funciones locales61. Una ventaja de los algoritmos SGD es la posibilidad de obtener modelos con valores de pérdida dentro de rangos aceptables sin el requisito de extracción de muestras. Sin embargo, existe la posibilidad de que se produzca ruido provocado por muestras que no pueden moverse en direcciones óptimas durante todas las iteraciones. Los resultados de predicción para SGD indican una tasa de recuperación máxima de 0,97 cuando NWF = 7950 y una puntuación F1 de 0,972 cuando NWF = 1550.

Los algoritmos SVM son conocidos por su rendimiento de clasificación con datos multidimensionales y no lineales62. Estos algoritmos utilizan la minimización de riesgos estadísticos para estimar hiperplanos clasificados. El objetivo principal de un algoritmo SVM es localizar límites de decisión máximos entre etiquetas distinguibles. Por ejemplo, cuando se utilizan datos de peso y refractómetro para distinguir entre una naranja y una mandarina, sus valores se establecen respectivamente a lo largo de los ejes x e y, lo que da como resultado una línea de clasificación que los separa. Los resultados de nuestra predicción del modelo SVM indican una tasa de recuperación máxima de 0,952 cuando NWF = 350, y una puntuación F1 de 0,934 cuando NWF = 2400.

Los algoritmos de clasificación KNN son herramientas eficaces para dominios problemáticos con densidades desconocidas45,63. Después de calcular las distancias entre los datos de destino y los puntos de datos individuales, un algoritmo KNN utiliza la distancia mínima de datos K para calcular la cantidad de etiquetas a las que pertenece cada punto de datos antes de predecir la cantidad máxima de etiquetas para los datos de destino.

Sin embargo, este método a veces conduce a un sobreajuste cuando K = 1. Si K es igual al número de ejemplos de entrenamiento, entonces el número de resultados predichos es igual al número máximo de etiquetas. Por esta razón, el algoritmo de clasificación KNN calculó la tasa de error K (es decir, tasa de error = recuento de errores clasificados/tamaño total del conjunto de pruebas) y observó una tasa mínima de 0,065 cuando K = 4 (Fig. 8); por lo tanto, el parámetro de categoría para el vecino KNN se estableció en 4. Los resultados de la predicción de KNN indican una tasa de recuperación máxima de 0,96 cuando NWF = 3000 y una puntuación F1 máxima de 0,93 cuando NWF = 500.

El método de votación combina los siete algoritmos de clasificación anteriores64. A cada algoritmo se le da un “voto” depredador/legítimo y se selecciona el resultado que recibe la mayor cantidad de votos. Nuestros datos de predicciones de votación indican una tasa de recuperación de 0,97 cuando NWF = 2900 y una puntuación F1 de 0,973 cuando NWF = 1700. Después de eliminar de la lista de votación el ingenuo algoritmo gaussiano de Bayes de bajo rendimiento, la tasa de recuperación más alta fue de 0,976 cuando NWF = 2150 y la puntuación F1 más alta es 0,97 cuando NWF = 1.100. Luego utilizamos los tres resultados más altos del modelo de recuperación (bosque aleatorio, SGD y regresión logística) para determinar las etiquetas depredadoras. Se produjo un recuerdo máximo de 0,97 cuando NWF = 950 y se observó una puntuación F1 máxima de 0,975 cuando NWF = 1.800. En otras palabras, los resultados de estos tres modelos fueron casi idénticos. Los resultados de predicción experimental combinados se muestran en la Tabla 4 y las Figs. 9 y 10.

Relación entre la distancia K y la tasa de error en el algoritmo clasificador KNN.

Datos de rendimiento de la tasa de recuperación para los ocho clasificadores examinados en este estudio.

Datos de rendimiento de puntuación F1 para los ocho clasificadores examinados en este estudio.

Verificamos los resultados falsos negativos para cada modelo de clasificación en un esfuerzo por confirmar la precisión de la clasificación de sitios web depredadores/legítimos. Para los 167 sitios web en el conjunto de datos de prueba, el modelo de bosque aleatorio tuvo el mejor rendimiento tanto en términos de predicción (tasa de recuperación de 0,982, puntuación F1 de 0,98) como de precisión de clasificación (falso negativo = 2). Por lo tanto, seleccionamos este modelo para usarlo con el backend de AJPC. Los datos de clasificación errónea se muestran en la Tabla 5.

En el aprendizaje automático, generalmente se supone que cuanto más pronunciadas sean las características del entrenamiento del clasificador, mejores serán los resultados producidos por un modelo de clasificación. A diferencia de los métodos de clasificación basados ​​en texto descritos en Bedmutha et al.26 y Adnan et al.46, nuestro sistema propuesto utiliza puntuaciones de diferencias (una medida de las diferencias en las frecuencias de palabras específicas entre revistas) para identificar conjuntos de palabras características con fines de predicción de clasificación. AJPC también proporciona datos objetivos de tres listas de revistas depredadoras: Beall's actualizada, Stop Predatory Journals, entre otras. Como señaló Moussa65, retractarse de un artículo publicado en una revista depredadora es casi imposible. En muchos casos, la incapacidad de distinguir las revistas legítimas de la creciente cantidad de correos electrónicos no deseados puede privar a valiosos manuscritos de investigación de la oportunidad de publicarse en mejores revistas. Además, el sistema propuesto reduce la posibilidad de que los editores de revistas depredadoras dañen el valor académico y proporciona sugerencias para el envío de artículos.

Si las revistas depredadoras fueran juzgadas como revistas legítimas, esto tendría graves consecuencias. Si la tasa de recuperación es mayor, significa que la tasa de revistas legítimas que se predicen correctamente es mayor. Además, mantener una puntuación alta en F1 no sacrifica demasiada precisión. Bedmutha et al.26 utilizaron artículos de investigación para entrenar el modelo y obtuvieron más de 0,71 puntos F1 en el área de ingeniería y 0,9 puntos F1 en el área biomédica. Adnan et al.46 utilizaron características heurísticas para lograr una puntuación F1 de 0,98, pero esto requiere demasiado tiempo de procesamiento en comparación con el método NWF. Nuestros resultados tienen un rendimiento superior a sus hallazgos (Tabla 6).

Nuestros resultados respaldan la validez del uso de palabras destacadas y puntuaciones de diferencias para distinguir entre sitios web de revistas legítimos y posibles depredadores. Nuestras puntuaciones de diferencias identificaron una serie de palabras y términos que se pueden utilizar para determinar el tipo de sitio web de la revista, una lista que incluye "índice", "internacional", "impacto", "factor", "revisión por pares" y "envío", entre otros. otros. Las palabras que identificamos son similares a las mencionadas por Memon51, Rathore y Memon34, Cobey et al.21 y Berek66, que se encuentran con frecuencia en los sitios web de revistas depredadoras. Los hallazgos combinados sugieren que es probable que los sitios web depredadores enfaticen ideas como la “revisión por pares” y la “indexación”, mientras que las revistas legítimas no mencionan específicamente lo que se consideran aspectos estándar del proceso de publicación. Por sí solos, es poco probable que los métodos de clasificación BOW y TF-IDF y los conjuntos de palabras características resuelvan por completo el problema de identificación de revistas legítimas/depredadoras; Otras fuentes de información útil incluyen anuncios de organizaciones de indexación. Por ejemplo, en 2017 el DOAJ eliminó revistas publicadas por la empresa Business Perspectives por sospecha de mala conducta editorial (el editor fue reintegrado en enero de 2019). AJPC también se beneficia de las contribuciones de los usuarios que identifican revistas depredadoras en función de sus experiencias personales. Aunque se requiere una inversión de tiempo para verificar todas las afirmaciones de legitimidad o engaño, la acumulación de múltiples informes para revistas o editoriales específicas puede mejorar la precisión de la identificación. Para mejorar el problema de que las revistas emergentes sin indexación DOAJ y Web of Science podrían considerarse depredadoras, consideraremos los siguientes factores para reflejar la legitimidad de la revista. Por ejemplo, cooperar con la afiliación de una sociedad profesional relevante, como el grupo de Ottawa de Grudniewicz et al., centrándose en un área profesional específica y considerando el alcance realista de los intereses reflejados en las instrucciones de la revista. puede mejorar la robustez del sistema.

El propósito de nuestro sistema AJPC propuesto es ayudar a los autores académicos a tomar las mejores decisiones para enviar sus manuscritos. Actualmente lo utilizan académicos de varias comunidades académicas en Taiwán: la Universidad Nacional Yang Ming Chiao Tung (NYCU), el Centro para la Educación Ética en Investigación Académica de Taiwán y la Oficina de Investigación y Desarrollo de la Universidad Nacional de Taiwán, entre otros. La última versión de AJPC está actualmente abierta a todos los usuarios interesados ​​en http://140.113.207.51:8000/. Agradecemos las recomendaciones para incluir sitios en listas blancas y negras con el fin de optimizar la precisión. Nuestro plan es mover permanentemente la URL a un dominio dedicado en NYCU.

Las instituciones de investigación y las organizaciones de financiación también están interesadas en este tema. Las universidades y los centros de investigación académica podrían poner mayor énfasis en la calidad de las publicaciones que en la cantidad al evaluar a las personas para sus decisiones de contratación y permanencia, reduciendo así los incentivos para que los autores consideren publicar en revistas depredadoras. Esos mismos partidos también podrían ofrecer conferencias y servicios de consultoría para aumentar la conciencia sobre las tácticas depredadoras de las revistas. El Centro para la Educación en Ética de la Investigación Académica de Taiwán patrocina actividades de capacitación en todo el país, y tres organizaciones (DOAJ, el Comité de Ética en Publicaciones y la Asociación de Editores Académicos de Acceso Abierto) están compartiendo recursos para lanzar un sitio web "Think.Check.Submit". destinado a mostrar a los autores cómo identificar las mejores revistas para sus necesidades específicas.

En cuanto a los planes futuros, se requieren varios cambios para que el sistema AJPC sea más eficiente, muchos de ellos menores y algunos requieren revisiones importantes. Un problema potencial es el bloqueo de los rastreadores web por parte de sitios web de revistas depredadoras, lo que posiblemente genere mensajes de "Error interno del servidor" que provoquen que las consultas posteriores fallen. Cualquier solución a este problema debe poder manejar los requisitos de múltiples sitios web. Otro problema relacionado con el software tiene que ver con las abreviaturas de las revistas, que pueden resultar confusas para los usuarios del sistema. Durante nuestras pruebas, notamos que algunos títulos de revistas que aparecen en las listas actualizadas de Beall's y Stop Journals no aparecían en las pantallas de resultados de AJPC, y debemos entender por qué.

Otro objetivo importante de mejora es utilizar aportes de diversos recursos académicos para crear una lista de conferencias depredadoras, cuyas actas a menudo se promueven como una forma de inflar los CV de los investigadores. Lang, et al.67 observaron una falta significativa de conciencia y educación sobre las revistas y conferencias depredadoras entre los médicos residentes y el personal de las universidades. Además de que los profesores experimentados brinden sugerencias para que los estudiantes publiquen, también es importante un sistema de evaluación eficaz para las presentaciones a conferencias. Para esta tarea, podemos solicitar permiso para tomar prestadas ideas o crear enlaces a contenido del Instituto de Tecnología de California, cuyo sitio web de biblioteca contiene una lista de conferencias y organizadores de conferencias cuestionables. Existen diferencias entre las pistas para las revistas depredadoras y los sitios web de conferencias depredadoras que requieren atención, especialmente la presencia de organizaciones patrocinadoras con fines de lucro ubicadas en países en desarrollo. Algunas conferencias enfatizan sus ubicaciones (por ejemplo, centros turísticos) en lugar de intercambios académicos o científicos, al tiempo que prometen incluirse en índices de revistas como SCI, SSCI y EI.

Todos los datos generados o analizados durante este estudio se incluyen en este artículo publicado y sus archivos de información complementarios. El código fuente subyacente está disponible en https://github.com/nctu-dcs-lab/predatory_journals_detection.

Se ha publicado una corrección a este artículo: https://doi.org/10.1038/s41598-023-34493-1

Ferris, LE y Winker, MA Cuestiones éticas al publicar en revistas depredadoras. Biochemia medica: Biochemia medica 27, 279–284 (2017).

Artículo PubMed PubMed Central Google Scholar

Gasparyan, AY, Nurmashev, B., Udovik, EE, Koroleva, AM & Kitas, GD La publicación depredadora es una amenaza para la ciencia no convencional. J.Cor. Medicina. Ciencia. Rev. 32, 713–717 (2017).

Artículo de Google Scholar

Berger, M. Todo lo que siempre quiso saber sobre las publicaciones depredadoras pero tuvo miedo de preguntar. En ACRL, Baltimore, Maryland (2017).

Nicoll, LH y Chinn, PL Atrapados en la trampa: el atractivo de los editores engañosos. Enfermera autora editora 4, 1 (2015).

Google Académico

Bohannon, J. ¿Quién teme a la revisión por pares? Ciencia 342, 60–65 (2013).

Artículo ADS CAS PubMed Google Scholar

Demir, SB Revistas depredadoras: ¿Quién publica en ellas y por qué?. J. Informet. 12, 1296-1311 (2018).

Artículo de Google Scholar

Iyandemye, J. & Thomas, MP Los países de bajos ingresos tienen los porcentajes más altos de publicaciones de acceso abierto: un análisis computacional sistemático de la literatura biomédica. MÁS UNO 14, e0220229 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Jamali, HR y cols. Cómo los académicos implementan la confianza en sus actividades de lectura, citación y publicación: diferencias geográficas. librero. inf. Ciencia. Res. 36, 192-202 (2014).

Artículo de Google Scholar

Beall, J. Los editores depredadores están corrompiendo el acceso abierto. Naturaleza 489, 179-179 (2012).

Artículo ADS CAS PubMed Google Scholar

Dell'Anno, R., Caferra, R. & Morone, A. Un “caballo de Troya” en el proceso de revisión por pares de revistas económicas de pago. J. Informet. 14, 101052 (2020).

Artículo de Google Scholar

Linacre, S. Predatory Reports Títulos de 15K y escalada, https://blog.cabells.com/2021/09/01/mountain-to-climb/ (2021).

Vosoughi, S., Roy, D. y Aral, S. La difusión de noticias verdaderas y falsas en línea. Ciencia 359, 1146-1151 (2018).

Artículo ADS CAS PubMed Google Scholar

Alrawadieh, Z. Publicación en revistas depredadoras de turismo y hotelería: mapeo del mercado académico e identificación de estrategias de respuesta. Recorrido. Hosp. Res. 20, 72–81 (2020).

Artículo de Google Scholar

Horng, C.-T. et al. Vitreólisis farmacológica de moscas volantes vítreas mediante un suplemento de piña de 3 meses en Taiwán: un estudio piloto. Mermelada. Ciencia. 15, 1 (2019).

Anuncios Google Scholar

Leonid, S. Teletransportación de espermatozoides entre Massimo Fioranelli y Alireza Sepehri, https://forbetterscience.com/2020/10/12/sperm-teleportation-between-massimo-fioranelli-and-alireza-sepehri/ (2019).

Laakso, M. & Polonioli, A. Acceso abierto en la investigación ética: un análisis de la disponibilidad del acceso abierto y el comportamiento de autoarchivo de los autores a la luz de las restricciones de derechos de autor de las revistas. Cienciometría 116, 291–317 (2018).

Artículo de Google Scholar

Björk, B.-C. Un estudio de características innovadoras en revistas académicas de acceso abierto. J. Med. Resolución de Internet. 13, e115 (2011).

Artículo PubMed PubMed Central Google Scholar

Xu, J., Wang, Z. y Tang, W. ¿Quién publicó en revistas depredadoras chinas? Un estudio sobre la autoría de revistas de la lista negra. Actas de iConference 2020 (2020).

Beall, lista de J. Beall de posibles revistas y editores depredadores, https://beallslist.net/standalone-journals/ (2020).

Ojala, M., Reynolds, R. y Johnson, KG Desafíos y respuestas de las revistas depredadoras. Libro de publicaciones periódicas. 1, 1–6 (2020).

Google Académico

Cobey, KD y cols. ¿Qué es una revista depredadora? Una revisión del alcance. F1000Investigación 7, 1 (2018).

Artículo de Google Scholar

Beshyah, A., Basher, M. y Beshyah, S. Un análisis bibliométrico de la literatura médica internacional sobre publicaciones depredadoras. Ibnosina J. Med. Biomédica. Ciencia. 12, 23-32 (2020).

Artículo de Google Scholar

Frandsen, TF ¿Las revistas depredadoras están socavando la credibilidad de la ciencia? Un análisis bibliométrico de citas. Cienciometría 113, 1513-1528 (2017).

Artículo de Google Scholar

Al-Matham, RN y Al-Khalifa, HS Un sistema de crowdsourcing basado en web para denunciar a editores depredadores. En actas de la XIX Conferencia Internacional sobre Integración de Información y Aplicaciones y Servicios basados ​​en Web. 573–576 (2017).

Dadkhah, M., Maliszewski, T. y Lyashenko, VV Un enfoque para prevenir la indexación de artículos de revistas secuestrados en bases de datos científicas. Comportamiento. inf. Tecnología. 35, 298–303 (2016).

Artículo de Google Scholar

Bedmutha, MS, Modi, K., Patel, K., Jain, N. y Singh, M. PredCheck: detección de comportamiento depredador en el mundo académico. En Actas de la Conferencia Conjunta ACM/IEEE sobre Bibliotecas Digitales en 2020, 521–522 (2020).

Google Académico

Van Der Walt, E. y Eloff, J. Uso del aprendizaje automático para detectar identidades falsas: bots versus humanos. Acceso IEEE 6, 6540–6549 (2018).

Artículo de Google Scholar

Chen, C.-M., Guan, D. y Su, Q.-K. Identificación de conjunto de funciones para detectar URL sospechosas mediante clasificación bayesiana en redes sociales. inf. Ciencia. 289, 133-147 (2014).

Artículo de Google Scholar

Rupp, M. y col. Revistas depredadoras: una gran amenaza en la investigación ortopédica. En t. Ortopédico. 43, 509–517 (2019).

Artículo PubMed Google Scholar

Grudniewicz, A. y col. Revistas depredadoras: sin definición, sin defensa. Grupo Editorial Naturaleza (2019).

Chen, L.-X., Wong, K.-S., Liao, C.-H. y Yuan, S.-M. Clasificación de revistas depredadoras mediante técnica de aprendizaje automático. En 2020, tercera Conferencia Internacional IEEE sobre Innovación e Invención del Conocimiento (ICKII). 193-196 (2020).

Lawrence, PA La política de publicación. Naturaleza 422, 259–261 (2003).

Artículo ADS CAS PubMed Google Scholar

Correct, G., Berger, M., Lange-Asschenfeldt, B., Aberer, W. & Correct, E. Problemas y desafíos de las revistas depredadoras. J. Eur. Acad. Dermatol. Venereol. 32, 1441-1449 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Rathore, FA y Memon, AR Cómo detectar y evitar revistas depredadoras. Escritura científica: una guía para el arte de la redacción médica y la publicación científica. Karachi: Publicaciones médicas profesionales, 312–325 (2018).

Prasetijo, AB et al. Sistema de detección de engaños en sitios de noticias de Indonesia basado en clasificación de texto utilizando SVM y SGD. En 2017 IV Congreso Internacional de Tecnologías de la Información, Informática e Ingeniería Eléctrica (ICITACEE). 45–49 (IEEE) (2017).

Shen, C. y Björk, B.-C. Acceso abierto 'depredador': un estudio longitudinal de los volúmenes de artículos y las características del mercado. BMC Med. 13, 230 (2015).

Artículo PubMed PubMed Central Google Scholar

Bondielli, A. & Marcelloni, F. Una encuesta sobre noticias falsas y técnicas de detección de rumores. inf. Ciencia. 497, 38–55 (2019).

Artículo de Google Scholar

Lovejoy, J. y Holbrook, J. Aprendizaje automático centrado en el ser humano. 7 pasos para mantenerse enfocado en el usuario al diseñar con ML, https://medium.com/google-design/human-centered-machine-learning-a770d10562cd (2017).

Mirończuk, MM & Protasiewicz, J. Una descripción general reciente de los elementos más recientes de clasificación de textos. Sistema experto. Aplica. 106, 36–54 (2018).

Artículo de Google Scholar

Chakraborty, A., Paranjape, B., Kakarla, S. y Ganguly, N. Stop clickbait: detección y prevención de clickbaits en los medios de noticias en línea. En 2016 conferencia internacional ieee/acm sobre avances en análisis y minería de redes sociales (asonam). 9-16 (2016).

Nguyen, HH y Nguyen, DT Detección de sitios web de phishing basada en aprendizaje automático. En AETA 2015: Avances recientes en ingeniería eléctrica y ciencias relacionadas, 123–131 (Springer, 2016).

Xu, S. Clasificadores bayesianos Naïve Bayes para la clasificación de textos. J.Inf. Ciencia. 44, 48–59 (2016).

Artículo de Google Scholar

Kim, D., Seo, D., Cho, S. y Kang, P. Capacitación conjunta múltiple para la clasificación de documentos utilizando varias representaciones de documentos: TF – IDF, LDA y Doc2Vec. inf. Ciencia. 477, 15-29 (2019).

ADS del artículo Google Scholar

Hardalov, M., Koychev, I. y Nakov, P. En busca de noticias creíbles. En Congreso Internacional sobre Inteligencia Artificial: Metodología, Sistemas y Aplicaciones. 172–180 (2016).

Onan, A. & Korukoğlu, S. Un modelo de selección de características basado en la agregación de rangos genéticos para la clasificación de sentimientos de texto. J.Inf. Ciencia. 43, 25-38 (2017).

Artículo de Google Scholar

Adnan, A. et al. Más allá de la lista negra de Beall: detección automática de revistas de investigación depredadoras de acceso abierto. En 2018, la vigésima conferencia internacional del IEEE sobre comunicaciones y computación de alto rendimiento; IEEE 16ª Conferencia Internacional sobre Ciudades Inteligentes; IEEE 4ª Conferencia Internacional sobre Sistemas y Ciencia de Datos (HPCC/SmartCity/DSS). 1692-1697 (2018).

Costa-Jussa, MR et al. Uso de anotaciones en Mechanical Turk para realizar una clasificación de polaridad supervisada de los comentarios de los clientes españoles. inf. Ciencia. 275, 400–412 (2014).

Artículo de Google Scholar

Desmet, B. & Hoste, V. Prevención del suicidio en línea mediante clasificación de texto optimizada. inf. Ciencia. 439, 61–78 (2018).

Artículo de Google Scholar

Chen, K., Zhang, Z., Long, J. y Zhang, H. Pasando de TF-IDF a TF-IGM para la ponderación de términos en la clasificación de textos. Sistema experto. Aplica. 66, 245–260 (2016).

Artículo de Google Scholar

Onan, A., Korukoğlu, S. & Bulut, H. Conjunto de clasificadores y métodos de extracción de palabras clave en la clasificación de textos. Sistema experto. Aplica. 57, 232–247 (2016).

Artículo de Google Scholar

Memon, AR Revistas depredadoras que envían spam para publicaciones: ¿qué deberían hacer los investigadores? Ciencia. Ing. Ética 24, 1617-1639 (2018).

Artículo PubMed Google Scholar

Revistas, SP Stop Predatory Journals: Lista de revistas depredadoras, https://predatoryjournals.com/journals/ (2020).

QUEST, B. Lista positiva de revistas de acceso abierto, http://s-quest.bihealth.org:3838/OAWhitelist/

Uysal, AK & Gunal, S. El impacto del preprocesamiento en la clasificación de textos. inf. Proceso. Administrar. 50, 104-112 (2014).

Artículo de Google Scholar

Song, F., Liu, S. y Yang, J. Un estudio comparativo sobre esquemas de representación de texto en la categorización de texto. Patrón Anal. Aplica. 8, 199–209 (2005).

Artículo MathSciNet Google Scholar

Vijayarani, S., Ilamathi, MJ y Nithya, M. Técnicas de preprocesamiento para la minería de textos: descripción general. En t. J. Computación. Ciencia. Comunitario. Neto. 5, 7-16 (2015).

Google Académico

Gutiérrez, FR, Beall, J. & Forero, DA Factores de impacto alternativos espurios: la escala del problema desde una perspectiva académica. BioEssays 37, 474–476 (2015).

Artículo PubMed Google Scholar

Kibriya, AM, Frank, E., Pfahringer, B. & Holmes, G. Revisión de bayes ingenuos multinomiales para la categorización de textos. En la Conferencia Conjunta de Australasia sobre Inteligencia Artificial. 488–499 (2004).

Kang, JS y cols. Predicción del riesgo de neoplasia mucinosa papilar intraductal maligna del páncreas: regresión logística versus aprendizaje automático. Ciencia. Representante 10, 1–8 (2020).

ADS del artículo Google Scholar

Alam, MS & Vuong, ST Clasificación aleatoria de bosques para detectar malware de Android. En 2013, la conferencia internacional IEEE sobre informática y comunicaciones ecológicas, IEEE Internet de las cosas y IEEE informática cibernética, física y social. 663–669 (IEEE) (2013).

Bottou, L. Aprendizaje automático a gran escala con descenso de gradiente estocástico. En Actas de COMPSTAT'2010 177–186 (2010).

Kim, H., Howland, P. & Park, H. Reducción de dimensiones en la clasificación de texto con máquinas de vectores de soporte. J. Mach. Aprender. Res. 6, 37–53 (2005).

MathSciNet MATEMÁTICAS Google Scholar

Han, E.-HS, Karypis, G. y Kumar, V. Categorización de texto utilizando la clasificación del vecino más cercano k ajustada por peso. En la conferencia de Asia Pacífico sobre descubrimiento de conocimientos y minería de datos. 53–65 (2001).

Onan, A., Korukoğlu, S. & Bulut, H. Un clasificador de conjunto de votación ponderado multiobjetivo basado en un algoritmo de evolución diferencial para la clasificación de sentimiento de texto. Sistema experto. Aplica. 62, 1-16 (2016).

Artículo de Google Scholar

Moussa, S. Contagio de citas: un análisis de citas de revistas de marketing depredadoras seleccionadas. Cienciometría 126, 485–506 (2021).

Artículo de Google Scholar

Berek, L. ¿Cómo identificar revistas depredadoras? Una idea de un sistema experto. Transmisión IPSI. Adv. Res. 16, 3–6 (2020).

Google Académico

Lang, R., Mintz, M., Krentz, HB & Gill, MJ Un enfoque para la selección y evaluación de conferencias: consejos para evitar conferencias “depredadoras”. Cienciometría 118, 687–698 (2019).

Artículo de Google Scholar

Descargar referencias

Los autores desean agradecer a los revisores ciegos por sus comentarios esclarecedores y constructivos. Este trabajo fue apoyado por el Ministerio de Ciencia y Tecnología de Taiwán (subvención n.º 108-2511-H-009-009-MY3) y el Proyecto de investigación de talentos de alto nivel de la Universidad de Estudios y Comercio Internacionales de Fuzhou (subvención n.º FWKQJ201909) .

Escuela de Big Data, Universidad de Estudios y Comercio Internacionales de Fuzhou, Fuzhou, 350202, China

Li-Xian Chen

Departamento de Ciencias de la Computación, Universidad Nacional Yang Ming Chiao Tung, Sala 702, MIRC, No.1001, University Road, Hsinchu, 30010, Taiwán

Shih-Wen Su, Chia-Hung Liao, Kai-Sin Wong y Shyan-Ming Yuan

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

LX Chen: Conceptualización, Metodología, Investigación, Redacción-borrador original, Redacción-revisión y edición, Recursos y Visualización. SW Su: Conceptualización, Construcción y mantenimiento de servidores, Redacción, revisión y edición, Curación de datos. CH Liao: Conceptualización, Metodología, Software, Investigación. KS Wong: Metodología, Software, Investigación, Análisis formal, Entrenamiento y optimización de modelos. SM Yuan: Conceptualización, Recursos, Redacción-revisión y edición. Todos los autores revisaron el manuscrito.

Correspondencia a Shyan-Ming Yuan.

Los autores declaran que no tienen intereses financieros en conflicto ni relaciones personales conocidas que pudieran haber influido en el trabajo presentado en este artículo.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Se revisó la versión original en línea de este artículo: se actualizaron la declaración de disponibilidad de datos y los archivos de información complementaria.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Chen, LX., Su, SW., Liao, CH. et al. Un sistema de automatización abierto para la detección de revistas depredadoras. Informe científico 13, 2976 (2023). https://doi.org/10.1038/s41598-023-30176-z

Descargar cita

Recibido: 07 de febrero de 2022

Aceptado: 17 de febrero de 2023

Publicado: 20 de febrero de 2023

DOI: https://doi.org/10.1038/s41598-023-30176-z

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Publicación de investigaciones trimestrales (2023)

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR