forum.Job scheduling.org

Home|Help|Search|Calendar|Login|Register
September 06, 2010, 10:33:41 am *
Welcome, Guest. Please login or register.

Login with username, password and session length
IBM_tws_v3.swf
 
Pages: [1]
  Print  
Author Topic: Peut on mettre en place un mécanisme de reprise automatique du serveur ?  (Read 5059 times)
0 Members and 1 Guest are viewing this topic.
Eric
Consultant en ordonnancement
Administrator
Hero Member
*****

Crédible: +11/-1
Posts: 582

My LinkedIn profile
View Profile WWW Email
« on: February 27, 2007, 10:27:26 am »

Si l’architecture centralisée est pratique dans son utilisation, son principal défaut est quel devient le point de défaillance potentiel de la production. Il est asses facile de mettre en place un système de reprise pour le stockage mais qu’en est il du serveur ?

Pour disposer d’un mécanisme de reprise de base de données, il suffit de mettre en place une copie des données. Cela peut se faire de différents manières :
  • interne au produit avec une double écriture ou une synchronisation par le serveur
  • externe, par une réplication de la base de données (MSSQL, réplication Sybase).
  • éventuellement par copie de fichier, mais dans ce cas on perd les informations entre la reprise et la dernière copie.

Toutes ces solutions utilisent en fait un même principe : une synchronisation des données qui seront accessibles à tout moment.

Pour la partie serveur, la problématique est très différentes car il ne faut justement pas que les deux serveurs soit en ligne en même temps. Mettre en ligne deux serveurs sur un réseau n’est donc pas suffisant car il ne faut absolument pas que ces serveurs traitent les événèments en même temps.

Ces serveurs doivent donc communiquer pour que chacun d’eux connaissent l’état de l’autre. Si un serveur tombe, la communication est coupée et l’autre devrait assurer la reprise.

Mais comment distinguer un probleme logiciel, matériel ou réseau ?

Si le serveur de secours reprend la main alors qu’il ne s’agit que d’un problème réseau, par exemple un simple cable débranché, les deux serveurs traiteront les mêmes données dont la conséquence sera des lancements doubles.

Lorsque ce type de solution est mise en place, le risque de lancement double n’est pas nul et aucun éditeur ne garantit que cela ne peut arriver.

Le problème du lancement double est pourtant à éviter absolument à moins de mettre en place des procédures de retours arrières sur chacun de ses traitements.

Autosys propose une solution basée sur une troisième machine (d’ailleurs justement appelée third machine) qui joue le role d’arbitre en cas de coupure de communication. En effet, si le serveur de secours ne contacte plus le serveur principal, il tente de joindre la troisième machine pour identifier si le problème est un problème réseau. Ce mécanisme évolué ne fait que décaler les problème :

Si le cable réseau de la machine principale est coupée, il est toujours impossible de distinguer les différents problèmes  : même problème sur deux sous-réseaux en cs de défaillances du routeur. Ou mettre la troisième machine ? avant ou après le routeur (dans ce cas, la bascule oblige à passer la troisième machine sur l’autres sous-réseau).  : si la troisième machine n’est plus accessible, les serveurs s’arretent car le mécanisme n’est plus fiable

Donc, on peut mettre en place le mécanisme de reprise mais sans aucune garantie et avec de sérieux risque de double lancements.
Logged

L'ordonnancement est au coeur de la production.
http://ordonnancement.org
couak
Hero Member
*****

Crédible: +19/-0
Posts: 267


DBA Oracle


View Profile
« Reply #1 on: March 09, 2007, 08:12:04 pm »

intéressant, mais un cluster ne serait-il pas suffisant, tout ordonnanceur confondus ?
Logged
Eric
Consultant en ordonnancement
Administrator
Hero Member
*****

Crédible: +11/-1
Posts: 582

My LinkedIn profile
View Profile WWW Email
« Reply #2 on: March 11, 2007, 12:01:05 pm »

Si si, le tout sur des baies SAN répliqués sur un cluster distant.

Mis à part le prix, le principal problème que l'on va rencontrer est simplement le périmètre fonctionnel. Une solution système  demande les compétences d'un administrateur système alors qu'une solution propre au produit ne nécessite que les compétences de l'administrateur du produit.

On retrouve un peu le même dilemne pour un ordonnanceur utilisant une base de données, la question qui se pose est bundle ou pas ? Dans un cas, j'ai une installation propre au produit et un support éditeur (quoique...), et dans l'autre je me connecte à des bases de données gérés par les DBAs de la société. La deuxième solution me paraît la mailleure si on ne prenait pas en compte le facteur humain.

Dans une société ou les différentes équipes travaillent ensemble, donc un site pas trop gros (mais tout de même assez pour s'offrir un ordonnanceur), on a tout intérêt a se reposer sur les compétences internes. Dans le cas contraire, il vaut mieux se débrouiller avec les outils mis à disposition de la société et son support.

Eric.
Logged

L'ordonnancement est au coeur de la production.
http://ordonnancement.org
couak
Hero Member
*****

Crédible: +19/-0
Posts: 267


DBA Oracle


View Profile
« Reply #3 on: March 11, 2007, 03:54:43 pm »

Justement, au lieu de se poser des questions fonctionnelles trop complexes, autant faire simple côté système : un simple problème réseau se résoud avec deux cartes réseaux (la plupart des serveurs sont fournis avec 2 ou 4 cartes) branchés sur 2 switch différents, redondés életriquement
Pareil pour le système, un mode cluster est envisageable et ce sera plus simple. Si la baie SAN est trop cher, on pourrai même jouer avec VMWare et faire un cluster système avec le même disque physique : ca ne réduit pas le risque hardware, mais le risque de panne O.S.
Logged
Melwynn
Newbie
*

Crédible: +0/-2
Posts: 4


View Profile Email
« Reply #4 on: April 18, 2008, 02:39:35 pm »

je crois que oui, la solution memoguard te permeyt de redemarrer un service a distance, une tache ou une machine, par le biais d'un simple SMS, contact erodriguez@clever.Fr lui texpliquera, car meme problematique chez des clients a eux. ... un trés gros client d'ailleurs.

en plus tracabilité des evenement etc etc avec escalade des alarmes , si ...

cdt
Melwynn
Logged
Pages: [1]
  Print  
 
Jump to:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.11 | SMF © 2006-2009, Simple Machines LLC Valid XHTML 1.0! Valid CSS!