T/JSIA 0003-2020
Estándar de sistema de decisión inteligente basado en aprendizaje por refuerzo (Versión en inglés)

Estándar No.
T/JSIA 0003-2020
Idiomas
Chino, Disponible en inglés
Fecha de publicación
2020
Organización
Group Standards of the People's Republic of China
Estado
 2021-08
Remplazado por
T/JSIA 0003-2021
Ultima versión
T/JSIA 0003-2021
Alcance
1Requisitos principales 1.1 Requisitos del entorno: clasifique diferentes escenarios de aplicación, proporcione un entorno de simulación con un diseño de interfaz común y permita la comparación de diferentes algoritmos de aprendizaje por refuerzo. Y pruebe el sistema real a través del entorno de simulación. Específicamente, incluye: cómo utilizar el entorno, especificaciones de interfaz personalizadas unificadas para el entorno, etc. 1.2 El aprendizaje por refuerzo por observación es una implementación típica de bucle "agente-entorno". Durante la interacción, el agente elige una acción y el entorno devuelve un valor de observación y recompensa. 1.3 El espacio se utiliza para describir acciones y observaciones efectivas. Es un atributo del entorno. Cuando un agente interactúa con el entorno, puede interactuar directamente de acuerdo con la interfaz proporcionada por el entorno al sistema. 1.4 Estrategia La entrada de la estrategia es estado y acción, y devuelve la probabilidad de realizar la acción de entrada dado el estado de entrada. 2 Diseño operativo 2.1 Configuración del entorno La configuración del entorno consiste principalmente en configurar la información básica del entorno del estado inicial, distinguir diferentes estados para el aprendizaje y la minería y mejorar los resultados de los experimentos del algoritmo de aprendizaje por refuerzo. 2.2 Visualización visual La visualización en tiempo real de información ambiental relevante de la escena actual facilita a los desarrolladores observar el efecto y realizar la optimización correspondiente del algoritmo. 2.3 Especificaciones de interacción La interacción entre agentes inteligentes y el entorno se puede dividir en dos categorías: interacción persona-computadora e interacción automática. a) Interacción persona-computadora: las personas interactúan con el sistema de acuerdo con los métodos de interacción correspondientes diseñados por el sistema, mientras que la máquina genera directamente las estrategias de salida correspondientes basadas en algoritmos inteligentes y las muestra dinámicamente en la interfaz. b) Interacción automática, ambos lados de la interacción se generan de acuerdo con las estrategias correspondientes generadas por la máquina y se muestran dinámicamente en la interfaz sin participación humana. 2.4 Generación de estrategias El módulo de generación de estrategias tiene estrategias de referencia correspondientes integradas para diferentes escenarios de aplicación para compararlas con los efectos del algoritmo diseñado. 2.5 Almacenamiento de bases de datos La función principal del módulo de operación de la base de datos es almacenar información de configuración de parámetros y archivos de datos en el sistema, y proporcionar datos confiables para el entrenamiento del modelo de generación de políticas. 3 Requisitos de rendimiento de uso 3.1 Seguridad 3.1.1 El análisis de seguridad, el diseño de seguridad, el uso seguro, la gestión de seguridad, etc. del sistema deben seguir los siguientes principios y requisitos: a) Principio de autorización limitada El sistema debe poder controlar el derechos de uso del usuario, Especificar el alcance de autorización mínimo necesario, que debe poder controlar la autoridad de uso y el nivel de uso del operador, y evitar el uso, modificación y acceso no autorizados a la información del sistema; b) Principio de confirmación integral El sistema debe poder verificar la legalidad de los datos recopilados y los datos ingresados Confirmar la validez, corrección del procesamiento de la información, seguridad de los datos transmitidos, etc.; c) Principio de seguimiento de seguridad: Se deben establecer objetivos de seguimiento completos para el proceso de procesamiento de información del sistema, con capacidades de seguimiento seguras, y puede responder automáticamente a operaciones irregulares Registrar y avisar; d) Es necesario reducir total y efectivamente el daño que el sistema puede causar al nivel mínimo que pueda tolerarse, y evitar pagar costos de inversión excesivos o costos de recursos del sistema que son no proporcional a sus efectos, a fin de lograr una seguridad integral y óptima. 3.1.2 El sistema debe poder otorgar los permisos operativos correspondientes a la información importante para evitar que se dañen datos, archivos, etc. importantes. 3.1.3 El sistema deberá tener la capacidad de impedir la generación, intrusión y propagación de virus informáticos. Las partes importantes del sistema deben tener medidas antivirus y los programas y archivos importantes deben estar protegidos contra escritura. 3.1.4 La seguridad eléctrica, la seguridad ambiental y otros requisitos del sistema deben cumplir con las regulaciones pertinentes en G881 y G1295. 3.2 Confidencialidad 3.2.1 El sistema no puede dañarse debido a operaciones incorrectas, intencionales o no, por parte de los usuarios. 3.2.2 Cuando el sistema se encuentra en un entorno no confidencial, se deben tomar medidas de protección estrictas para garantizar que la información de comando, los documentos, los datos de inteligencia, etc. del sistema se transmitan, procesen y utilicen bajo estrictas condiciones de seguridad y confidencialidad. 3.2.3 El sistema debe utilizar tecnología de cifrado para proteger la información importante. 3.2.4 El propio software de cifrado del sistema debe tener medidas de autoprotección, como análisis anticopia, antimodificación y antiestático. 3.3 Confiabilidad 3.3.1 Los sistemas y subsistemas deben especificar requisitos cualitativos y criterios de aceptación. Se pueden utilizar métodos como el modo de falla y el análisis de impacto para descubrir eslabones débiles, y se pueden usar medidas como la garantía de ingeniería y la garantía de calidad de la producción para reducir la probabilidad de fallas fatales y garantizar la confiabilidad del sistema. 3.3.2 El sistema debe adoptar un diseño redundante y, cuando sea necesario, los módulos clave deben estar respaldados por dos máquinas para garantizar que el sistema tenga un cierto grado de tolerancia a fallas.

T/JSIA 0003-2020 Historia

  • 2021 T/JSIA 0003-2021 Especificaciones de evaluación de la base de capacitación de talentos de la industria blockchain provincial de Jiangsu (prueba)
  • 2020 T/JSIA 0003-2020 Estándar de sistema de decisión inteligente basado en aprendizaje por refuerzo



© 2023 Reservados todos los derechos.