From silico.biotoul.fr

(Difference between revisions)

Revision as of 12:05, 29 November 2016

Librairie python pour le traitement de graphes

Vous allez réaliser une pseudo-bibliothèque pour les graphes (orientés ou non) que vous allez construire au fur et à mesure de ce TP, du suivant, et du projet pour cette UE.

Cette librairie va permettre :

le chargement d'un graphe sous différents formats (SIF et TAB vus précédemment, OBO pour la Gene Ontology et produits de gènes pour les annotations des gènes en GOTerm),
le parcours en profondeur (DFS),
la détection de cycle/circuit,
le tri topologique,
le parcours en largeur (BFS),
l'identification des plus courts chemin à partir d'un sommet (Bellman-Ford), ou entre toutes les paires de sommets (Floyd-Warshall),
...

TP1 2h

Structures de données et représentation d'un graphe

Pour commencer, il vous faut définir les structures de données que vous allez utiliser pour représenter et traiter des graphes. Un graphe

peut avoir différents attributs (nom, ordre, diamètre, ...),
peut être orienté ou non,
peut être pondéré ou non,
possède un ensemble de sommets,
possède un ensemble d'arcs ou d'arêtes.

De plus, un sommet peut avoir différentes étiquettes ou attributs : identifiant, nom, index, date de passage, couleur, coordonnées (x,y), etc.. De même, un arc ou une arête peut avoir différents attributs : poids, longueur, couleur, type, etc..

Un des choix cruciaux va être de choisir le stockage pour les arcs ou arêtes (notés arcs par la suite) : il est possible, par exemple, d'opter pour une matrice d'adjacence ou des listes d'adjacence. Si l'on manipule des graphes peu denses, la représentation par listes d'adjacence est préférable.

Toutes ces informations peuvent être stockées dans un dictionnaire à l'allure suivante (avec la syntaxe python) :

graph = {
     'directed':    True/False,
     'weighted':    True/False,
     'attributes':  {},
     'nodes':       {},
     'edges':       {}
}

Les clés attributes, nodes et edges pointent elles-mêmes vers des dictionnaires imbriqués.

Considérons le graphe G très simple suivant constitué de 2 sommets et d'un arc (A,B) ayant un poids de 5 :

     5
A ------> B

Le plus compliqué est le stockage des arcs qui peuvent avoir différents attributs. Le choix proposé est d'utiliser un dictionnaire de dictionnaires de dictionnaires de dictionnaires ... : pour l'arc de A à B de poids 5 :

graph['edges']['A']['B']['weight'] = 5

En d'autres termes :

graph['edges'] est un dictionnaire dont les clés sont les sommets source des arcs et dont les valeurs sont des dictionnaires,
graph['edges']['A'] est un dictionnaire pour les arcs dont l'extrémité initiale est le sommet A. Ce sommet peut avoir un degré sortant supérieur à 1, donc il faut stocker les extrémités terminales sous forme de dictionnaire. Les clés de ce dictionnaire seront donc les sommets correspondants aux extrémités terminales des sommets dont l'extrémité initiale est A,
graph['edges']['A']['B'] est un dictionnaire permettant de stocker les attributs de l'arc (A,B),
graph['edges']['A']['B']['weight'] est ainsi le poids de l'arc A --> B.

Ainsi, si un graphe pondéré est chargé, on pourra choisir de stocker le poids des arcs dans les attributs des arcs (accessibles à partir de la clé edges) avec la clé weight. Pour G, le dictionnaire pour son stockage aura l'allure suivante :

 G = {
   'directed': True,
   'weighted': True,
   'attributes':  { 
       'weight_attribute': 'weight'   
       },
   'nodes': {
      'A': { },
      'B': { },
   'edges': {
      'A': { 
        'B': {
           'weight': 5
           }
        }
   }
}

Pour créer un graphe, la librairie python que vous allez développer devrait donc commencer par le code python suivant :

#!/usr/bin/python3
# -*- coding: utf-8 -*-
 
from pprint import pprint
import numpy as np # for Floyd-Warshall matrices
 
# TP1 functions
###############
 
 
def createGraph(directed = True, weighted = False): # TP1
	g = { 'directed': directed, 'weighted': weighted, 'nb_nodes': 0, 'nb_edges': 0, 'weight_attribute': None , 'nodes': {}, 'edges': {}  }
	return g
 
 
#############
# TP1 Tests
 
def TP1():
	#~ from Graph import createGraph
	pprint('#### createGraph ####')
	G = createGraph()
	pprint(G)
 
#############
# TP2 Tests
def TP2():
	return
 
#############
 
# Perform tests if not imported by another script
if __name__ == "__main__":
	TP1()
	TP2()

Créez le fichier correspondant à votre librairie (par exemple Graph.py) et testez-le.

Il s'agit maintenant de pouvoir ajouter des sommets et des arcs.

Avant d'ajouter un sommet, il faut s'assurer qu'il n'existe pas déjà :

def addNode(g, n, attributes = None): # TP1
	if n not in g['nodes']: # ensure node does not already exist
		if attributes is None: # create empty attributes if not provided
			attributes = {}
		g['nodes'][n] = attributes # init attributes
		g['edges'][n] = {} # init edges
	return n

De même, pour ajouter un arc, il faut

s'assurer que l'extrémité initiale existe
s'assurer que l'extrémité terminale existe
s'assurer que l'arc n'existe pas
si le graphe n'est PAS orienté, il faut ajouter A --> B et B --> A

def addEdge(g, n1, n2, attributes = None): # TP1
	# create nodes if they do not exist
	if n1 not in g['nodes']: addNode(g, n1) # ensure n1 exists
	if n2 not in g['nodes']: addNode(g, n2) # ensure n2 exists
	# add edges ONLY if they do not exist
	if n2 not in g['edges'][n1]:
		if attributes is None: # create empy attributes if not provided
			attributes = {}
		g['edges'][n1][n2] = attributes # set attributes
		if not g['directed']: # add reverse edge if undirected graph
			g['edges'][n2][n1] = g['edges'][n1][n2]
		g['nb_edges'] += 1
	return g['edges'][n1][n2]

Chargement d'un fichier au format SIF : il s'agit de

créer un graphe (orienté ou non, mais pas pondéré)
lire le fichier ligne par ligne, et pour chacune ligne : ajout des sommets et des arcs

def loadSIF(filename, directed=True): # TP1
	# line syntax: nodeD <relationship type> nodeE nodeF nodeB
	g = createGraph(directed)
	with open(filename) as f: # OPEN FILE
		# PROCESS ALL LINES
		row = f.readline().rstrip()
		while row:
			vals = row.split('\t')
			att = { 'type': vals[1] } # set edge type
			for i in range(2, len(vals)):
				addEdge(g, vals[0], vals[i], att)
			row = f.readline().rstrip()
	return g

Vous pourrez tester ces fonction sue le fichier File:M1BBS Graphe dressing.sif avec la fonction TP1() suivante :

def TP1():
	print('#### createGraph ####')
	G = createGraph()
	pprint(G)
 
	print('## Adding node A')
	addNode(G,'A')
	pprint(G)
 
	print('## Adding edge A -> B')
	addEdge(G, 'A', 'B')
	pprint(G)
 
	print('## #Loading SIF file dressing.sif')
	G = loadSIF('dressing.sif')
	pprint(G)

Parcours en profondeur et applications

Implémentez et testez ensuite le parcours en profondeur dont on vous rappelle l'algorithme :

 DFS(G)
   for each vertex u  V(G)
     do color[u]  WHITE
        pred[u]   NIL
   time  0
   for each vertex u  V(G)
     do if color[u] = WHITE
       then DFS-VISIT(u)
 DFS-VISIT(u)
   color[u]  GRAY
   time  time + 1
   d[u]  time
   for each vertex v  Adj[u]
     do if color[v] = WHITE
       then pred[v]  u
            DFS-VISIT(v)
            class[ (u,v) ]  TREE EDGE
       else if color[v] = GRAY
            then class[ (u,v) ]  BACK EDGE
            else if d[u] > d[v]
                 then class[ (u,v) ]  CROSS EDGE
                 else class[ (u,v) ]  FORWARD EDGE
   color[u]  BLACK
   time  time + 1
   f[u]  time

Implémentez et testez la méthode isAcyclic() qui renvoie vrai ou faux selon que le graphe est sans circuit ou non.

Implémentez et testez la méthode topologicalSort() qui renvoie les sommets du graphes en ayant effectué un tri topologique.

Quels sont les sommets que l'on peut atteindre à partir de WBBJ sur EcolA_String_coexpression.sif (en vous servant de DFS) ?

Autres fichiers :

directed.graph.with.cycle.slide29
File:Directed.graph.with.cycle.slide29.sif

TP2 4h

Parcours en largeur

Algorithme :

BFS(G, s)
  for each vertex u  V(G)
    do color[u]  WHITE
       d[u]  
        $π$ [u]  NIL
  color[s]  GRAY
  d[s]  0
  Q  
  enqueue(Q, s)
  while Q  
    do u  dequeue(Q)
      for each vertex v  Adj[u]
        do if color[v] = WHITE
          then color[v]  GRAY
               d[v]  d[u] + 1
                $π$ [v]  u
               enqueue(Q, v)
      color[u]  BLACK

Charger le graphe utilisé précédemment (dressing.sif), et effectuer un parcours en largeur depuis sous-vetements.

Plus court chemin - Bellman-Ford

Rappel de l'algorithme:

 INITIALIZE-SINGLE-SOURCE(G, s)
   for each vertex v  V(G)
     do d[v]  
         $π$ [v]  NIL
   d[s]  0
 RELAX(u, v, w)
   if d[v] > d[u] + w(u, v)
     then d[v] = d[u] + w(u,v)
           $π$ [v]  u
 BELLMAN-FORD(G, s, w)
   INITIALIZE-SINGLE-SOURCE(G, s)
   for i  1 to |V(G)| - 1
     do for each edge (u,v)  E(G)
       do RELAX(u, v, w)

Ajoutez la méthode à votre librairie et testez la sur le graphe Media:M1BBS Graphe Bellman-Ford.tab à partir du sommet A.

Afin de gagner du temps, la méthode loadTAB vous est fournie :

	def loadTAB(self, filename):
		"""
		Loads a graph in Cytoscape tab format
		Assumed input:
		   id1	id2	weight	color	...
		   A	B	6	blue	...
		"""
		with open(filename) as f: 
			# GET COLUMNS NAMES
			tmp = f.readline().rstrip()
			attNames= tmp.split('\t')
			# REMOVES FIRST TWO COLUMNS WHICH CORRESPONDS TO THE LABELS OF THE CONNECTED VERTICES
			attNames.pop(0)
			attNames.pop(0)
			# PROCESS THE REMAINING LINES
			row = f.readline().rstrip()
			while row:
				vals = row.split('\t')
				v1 = vals.pop(0)
				v2 = vals.pop(0)
				att = {}
				for i in xrange(len(attNames)):
					att[ attNames[i] ] = vals[i]
				self.addEdge(v1, v2, att)
				row = f.readline().rstrip() # NEXT LINE

Plus courts chemins - Floyd-Warshall

Pour l'agorithme suivant,

D[x,y] est la distance du plus court chemin entre les sommets x et y
N[x,y] est le successeur de x dans le plus court chemin allant de x à y
W[x,y] est la valuation de l'arc (x,y)

Algorithme :

initialiser D = W, et N à partir des arcs/arêtes du graphe
pour k de 1 à n
   pour i de 1 à n
      pour j de 1 à n
         si D[i,k] + D[k,j] < D[i,j] alors
            D[i,j] = D[i,k] + D[k,j]
            N[i,j] = N[i,k]

Récupération du plus court chemin à partir de la matrice N :

plusCourtChemin(D,N, i,j)
   si D[i,j] est infinie alors
      il n'y a pas de chemin entre i et j
   chemin = initialiserChemin(i)
   k = N[i,j]
   tant que k est défini faire
      ajouter(chemin, k)
      k = N[k,j]
   ajouter(chemin, j)

Implémentez les méthodes FloydWarshall(W) et FloydWarshallPath(source, destination) dans votre librairie. Pour cela, vous êtes forcement incité(e) à ajouter une méthode adjacencyMatrix qui renvoie le graphe source forme de matrice d'adjacence.

Testez ces méthodes sur le graphe Media:M1BBS Graphe Floyd-Warshall.tab et affichez les plus courts chemins de A à C et de A à B (avec leur longueur).

Quel est le diamètre du graphe ? Affichez le chemin correspondant.

M1 BBS Graphes TP Librairie - Parcours de graphes