↩ Accueil

Vue lecture

LangExtract - La nouvelle pépite de Google pour extraire des données structurées avec l'IA

Il y a des combats comme cela auxquels pas grand monde ne pense et qui pourtant sont très importants. Je parle évidemment de la lutte contre le chaos du texte non structuré. Si vous avez déjà essayé d'extraire des données propres d'un tas de PDF (après OCR), de rapports ou de notes griffonnées, vous voyez de quoi je parle : c'est l'enfer ! (oui j'aime me faire du mal en tentant des regex impossibles).

Heureusement, Google a lâché début janvier 2026 une petite pépite en open source (même si c'est pas un produit "officiel") qui s'appelle LangExtract . C'est une bibliothèque Python qui utilise la puissance des LLM pour transformer vos documents textuels en données JSON bien rangées.

Exemple d'extraction sur le texte de Roméo et Juliette ( Source )

Ce qui fait que LangExtract sort du lot par rapport à d'autres outils comme Sparrow , c'est surtout son système de Source Grounding. En gros, chaque info extraite est directement liée à sa position exacte dans le texte source. Ça facilite énormément la vérification et la traçabilité puisque vous pouvez voir visuellement d'où vient la donnée grâce à un système de surlignage automatique.

Sous le capot, l'outil est optimisé pour les documents à rallonge (le fameux problème de l'aiguille dans une botte de foin). Il utilise des stratégies de découpage de texte et de passes multiples pour améliorer le rappel et s'assurer que le maximum d'infos soit capturé.

La visualisation interactive permet de valider les données en un clin d'œil ( Source )

Et cerise sur le gâteau, il permet de générer un fichier HTML interactif pour visualiser les milliers d'entités extraites dans leur contexte original. À la cool !

Côté installation, c'est hyper fastoche :

pip install langextract

Pour faire le job, vous avez le choix des armes : les modèles cloud de Google (Gemini 2.5 Flash/Pro), ceux d'OpenAI (via pip install langextract[openai]), ou carrément du local avec Ollama . Pas besoin de passer des heures à fine-tuner un modèle, il suffit de fournir quelques exemples structurés via le paramètre examples et hop, c'est parti mon kiki.

Voici à quoi ça ressemble sous le capot pour lancer une machine à extraire :

import langextract as lx

# 1. On définit les règles du jeu
prompt = "Extraire les noms de personnages et leurs émotions."

# 2. On donne un exemple (few-shot) pour guider le modèle
examples = [
 lx.data.ExampleData(
 text="ROMEO. But soft! What light...",
 extractions=[lx.data.Extraction(extraction_class="character", extraction_text="ROMEO", attributes={"emotion": "wonder"})]
 )
]

# 3. On lance l'extraction (nécessite une clé API ou Ollama)
results = lx.extract(
 text_or_documents="votre_texte_brut_ici",
 prompt_description=prompt,
 examples=examples,
 model_id="gemini-2.5-flash"
)

# 4. On sauvegarde et on génère la visualisation HTML
lx.io.save_annotated_documents(results, output_name="results.jsonl")
html_content = lx.visualize("results.jsonl")
with open("view.html", "w") as f:
 f.write(html_content)

Honnêtement, je ne sais pas si ça va remplacer les solutions industrielles de RPA , mais pour un dev qui veut structurer du texte sans se prendre la tête, c'est vraiment impressionnant. Que vous fassiez du Grist ou de l'analyse de données pure, cet outil mérite clairement que vous y jetiez un œil !

Source

  •  

Ces rats jouent à DOOM avec un casque VR

Vous pensiez avoir tout vu en matière de projets geeks complètement déjantés ?

Hé bien accrochez-vous à vos slips, parce que des chercheurs, menés par le neuro-ingénieur Viktor Tóth, ont réussi à faire "jouer" des rats à DOOM. Pas en appuyant sur des boutons au hasard, non non, mais avec un casque de réalité virtuelle sur mesure, une boule de déplacement sous leurs pattes, et même une gâchette pour tirer sur les démons !

Je vous jure que c'est vrai. Le projet s'appelle " Rats Play DOOM " et c'est à la croisée de la neuroscience, de la robotique et du game design. L'idée de base, c'est de prouver qu'on peut entraîner des rongeurs à interagir avec des environnements virtuels contrôlés basés sur un moteur de jeu. Et quitte à faire ça, autant le faire avec le jeu le plus iconique des années 90.

Gros plan sur le casque VR panoramique pour rongeurs ( Source )

Le setup est assez dingue. Le rat est équipé d'un casque panoramique intégrant un écran AMOLED pliable qui offre 180 degrés de champ horizontal et 80 degrés de vertical. Il est installé sur une boule sphérique qui détecte ses mouvements via des capteurs, un peu comme une trackball géante. Quand il marche, court ou tourne, ça se traduit directement en déplacements dans le jeu.

Et pour ceux qui se demandent comment un rat peut vraiment dégommer des monstres... Hé bien oui, car Viktor a même fabriqué un levier custom avec un encodeur rotatif que le rat actionne avec ses pattes pour faire feu. Donc oui, les rats tirent sur des démons avec leurs petites papattes !

Le nouveau setup modulaire V2 ( Source )

Pour motiver nos petits rongeurs gamers, y'a évidemment un système de récompense. À chaque action réussie, le système distribue 10 microlitres d'eau sucrée via un solénoïde. C'est pas grand-chose mais pour un rat, c'est le graal. Au bout de deux semaines d'entraînement environ, les rats Todd, Kojima et Gabe (oui, ils ont des noms de légendes du jeu vidéo, on adore l'humour des chercheurs) ont réussi à naviguer dans l'environnement virtuel. Et là, ils ont même appris à déclencher le mécanisme de tir.

Bon, faut être honnête, ils n'ont pas encore terminé le jeu. L'équipe explique que les rats ont vieilli avant de pouvoir passer à l'entraînement avancé. Du coup, c'est plus une preuve de concept qu'un speedrun, mais quand même, c'est impressionnant. On est loin du simple contrôle neuronal de base, là car c'est une vraie interaction avec un moteur de jeu.

Setup V1 du projet Rats Play DOOM ( Source )

Côté technique, tout tourne sur un combo Raspberry Pi pour l'acquisition des capteurs en temps réel, et un PC qui fait tourner une version modifiée de ViZDoom. Le tout communique en TCP et hop, c'est géré par un script Python central. Et comme si ça suffisait pas, le projet est entièrement open source. Vous pouvez récupérer le code, les schémas électroniques et même les fichiers 3D pour imprimer les pièces sur le repo GitHub. Donc si vous avez un rat de compagnie et beaucoup trop de temps libre...

Le projet en est à sa deuxième version. Cette V2 est plus modulaire, avec des composants imprimables en 3D et une électronique plus fiable. C'est typiquement le genre de bidouille qui me rappelle pourquoi j'aime tant farfouiller dans les projets Raspberry Pi les plus improbables ^^.

D'ailleurs, si vous êtes fan de portages improbables, vous vous souvenez peut-être de cet article sur DOOM Retro , mais là avec les rats, on est clairement passé au niveau supérieur.

Bref, on vit vraiment une époque formidable où des gens financent des projets pour apprendre à des rats à buter des démons en VR. Et j'adore l'idée !

  •  

I see time as a grid in my mind. I remember the birthdays of friends I haven’t seen for 65 years

Judy Stokes, a retired GP, shares her experience as a spatial-sequence synaesthete

Did someone with spatial-sequence synaesthesia design the calendar app on mobile phones? Because that’s how time and dates look in my brain. If you say a date to me, that day appears in a grid diagram in my head, and it shows if that box is already imprinted with a holiday, event or someone’s birthday. Public holidays and special events like Christmas and Easter are already imprinted for the year, and the diagram goes backwards to about 100,000BC and then forwards all the way to about the year 2500 before tapering off.

It was only in my 60s that I discovered there was a name for this phenomenon – not just the way time appears in this 3D sort of calendar pattern, but the colours seen when I think of certain words. Two decades previously, I’d mentioned to a friend that Tuesdays were yellow and she’d looked at me in the same strange, befuddled way that family members always had when told about the calendar in my head. Out of embarrassment, it was never discussed further. I was clearly very odd.

Continue reading...

© Photograph: Liz Ham/The Guardian

© Photograph: Liz Ham/The Guardian

© Photograph: Liz Ham/The Guardian

  •  

If the Volcanic Eruption Doesn’t Scare You, the Mudflow Should

Studying tree rings helped scientists pinpoint when Mount Rainier last sent a lahar down its steep slopes, which could help planners anticipate future mudflows.

© Max Whittaker for The New York Times

Knowing the year that the largest mudflow occurred could make it possible to better predict future muddy outbursts.
  •  

BP accused of ‘insidious’ influence on UK education through Science Museum links

Campaigners claim firm has bought sway over the teaching of science, technology, engineering and maths

Campaigners have accused BP of having an insidious influence over the teaching of science, technology, engineering and maths (Stem) in the UK through its relationship with the Science Museum.

Documents obtained under freedom of information legislation show how the company funded a research project that led to the creation of the Science Museum Group academy – its teacher and educator training programme – which BP sponsors and which has run more than 500 courses, for more than 5,000 teachers.

Continue reading...

© Photograph: Martin Pope/SOPA Images/REX/Shutterstock

© Photograph: Martin Pope/SOPA Images/REX/Shutterstock

© Photograph: Martin Pope/SOPA Images/REX/Shutterstock

  •  

Cloth wraps treated with ‘dirt cheap’ insecticide cut malaria cases in babies

Soaking fabrics in a commonly used insect repellent is a simple and effective tool as mosquito bites become more common during daytime, study shows

From Africa to Latin America to Asia, babies have been carried in cloth wraps on their mothers’ backs for centuries. Now, the practice of generations of women could become a lifesaving tool in the fight against malaria.

Researchers in Uganda have found that treating wraps with the insect repellent permethrin cut rates of malaria in the infants carried in them by two-thirds.

Continue reading...

© Photograph: Jake Lyell/Alamy

© Photograph: Jake Lyell/Alamy

© Photograph: Jake Lyell/Alamy

  •  

Kids with brain cancer were already in a life and death struggle. Then came Trump

The US president vowed to ‘end childhood cancer’. But his administration is dismantling the search for a cure and sending families scrambling for treatment

For seven years, Jenn Janosko cared for children with cancer on the ninth floor of New York’s Memorial Sloan Kettering hospital.

It’s the happiest sad place she knows.

Continue reading...

© Photograph: Danielle Villasana/The Guardian

© Photograph: Danielle Villasana/The Guardian

© Photograph: Danielle Villasana/The Guardian

  •  

Pesticides may drastically shorten fish lifespans, study finds

Even low levels of widely used agricultural chemicals were linked to accelerated ageing, research suggests

The lifespan of fish appears to be drastically reduced by pesticides, a study has found.

Even low levels of common agricultural pesticides can stunt the long-term lifespan of fish, according to research led by Jason Rohr, a biologist at the University of Notre Dame in Indiana.

Continue reading...

© Photograph: Liam Marsh/Alamy

© Photograph: Liam Marsh/Alamy

© Photograph: Liam Marsh/Alamy

  •  
❌