rr Chaos Mode Improvements

Archive

2025

June

April

Rakiura Northwest Circuit

February

Tongariro Northern Circuit 2025

January

Pararaha Valley 2025

2024

December

Mt Arthur/Tablelands/Cobb Valley

November

Queen Charlotte Track 2024

October

June

April

2023

December

November

April

2022

December

September

July

Tūrangi Road Trip

May

Round The Mountain Track: Ups and Downs and a Twist Ending

April

New Zealand's COVID Strategy Worked (But It Could Have Been Better)

March

Motutapu Island Camping Trip

January

2021

December

November

Some Observations On The NZ CovidPass System

October

How WHO Failed

September

June

May

April

March

February

Mercer Bay

January

2020

December

November

October

September

New Zealand's Long Term COVID19 Strategy

August

June

May

April

Have Some Humility, Mike Hosking

March

January

2019

December

November

October

September

Dissatisfied With Docker

July

June

May

April

March

Marama Davidson And The Truth About Auckland's History

February

January

Experimental Data On Reproducing Intermittent MongoDB Test Failures With rr Chaos Mode

2018

December

November

October

September

August

July

June

May

April

March

January

2017

December

November

October

September

August

July

June

May

April

March

February

January

2016

December

November

October

September

August

July

June

May

April

March

February

January

2015

December

November

October

September

August

July

June

May

April

March

February

January

Routeburn-Greenstone

2014

December

November

October

September

August

July

May

April

March

February

January

2013

December

November

October

September

August

July

June

May

April

March

February

January

2012

December

Great Barrier Island

November

October

September

August

July

June

May

April

March

February

January

2011

December

November

October

September

August

June

May

April

March

February

January

2010

December

November

October

September

August

July

June

May

April

March

February

January

2009

December

November

October

September

August

July

June

May

April

March

Seductive Infrastructure

February

January

2008

December

November

October

September

August

July

June

May

April

March

February

January

2007

December

November

October

September

August

July

June

May

April

March

February

January

2006

December

November

October

September

August

July

June

May

April

March

And So It Begins ...

February

January

2005

December

November

October

Travels

September

August

July

June

May

April

March

February

January

2004

December

Saturday 12 May 2018

rr Chaos Mode Improvements

rr's chaos mode introduces nondeterminism while recording application execution, to try to make intermittent bugs more reproducible. I'm always interested in hearing about bugs that cannot be reproduced under chaos mode, especially if those bugs have been diagnosed. If we can figure out why a bug was not reproducible under chaos mode, we can often extend chaos mode to make it reproducible, and this improves chaos mode for everyone. If you encounter such a bug, please file an rr issue about it.

I just landed one such improvement. To trigger a specific Spidermonkey JS engine bug, some thread X had to do a FUTEX_WAKE to wake up thread Y, then immediately yield to let thread Y run for a while without X running any further. rr chaos mode assigns random priorities to threads and strictly adheres to them, so in some runs it would assign X a low priority and Y a high priority and schedule Y whenever both were runnable. However, rr's syscall buffering optimization means the rr supervisor process is not notified after the FUTEX_WAKE and has no opportunity to interrupt X and schedule Y instead, so we keep running the lower-priority X thread, violating our scheduling policy. (Chaos mode randomizes scheduling intervals so it was possible for X to yield at the right point, but very unlikely because the "window of vulnerability" is very small.) The fix is quite easy: in chaos mode, FUTEX_WAKE should not use the syscall buffering optimization. This adds some overhead, but hopefully not all that much, because every FUTEX_WAKE is normally paired with a FUTEX_WAIT (futex-using code should not issue a FUTEX_WAKE if there are no waiters), and a FUTEX_WAIT yields, which is already an expensive operation.

The same sorts of issues exist for other system calls that can make another higher-priority thread runnable, and I've added some slightly more elaborate fixes for those.

One day I should do a proper evaluation of these techniques and publish them...

Eyes Above The Waves

Archive

rr Chaos Mode Improvements