Guan’s blog

home

Europe’s borders

30 Jun 2014

I frequently advocate changing European borders. Here’s a list, which I’ll try to keep up to date:

  1. Merge Germany and Austria, then divide into Northern Germany and Southern Germany.
  2. Dissolve Belgium. Brussels becomes a free city under EU protection.
  3. Scotland should be independent.
  4. Denmark to the Elbe.
  5. Dissolve Italy.
  6. Resolve this mess (possibly by merging Flanders into the Netherlands).

Softwarepatenter og patentdomstolen

04 May 2014

Hvad er et softwarepatent?

Et softwarepatent er et patent, der omhandler software.

FFII anbefaler følgende definition (oversat af mig): “Et softwarepatent er et patent på enhver udførelse af en computer, som realiseres ved hjælp af et computerprogram.”

Findes der softwarepatenter i Europa?

Ja.

Mit indlæg på Informations blog Protokol beskriver et softwarepatent (EP1209551) på en metode til adgangskontrol. Her er nogle andre eksempler:

  • EP0917038: En metode til at genkende mønster som fx. telefonnumre i tekstbeskeder og lade brugeren pege eller klikke på dem for at udføre en handling.
  • EP2318929: En metode til at lave gendannelsespunkter i forbindelse med softwareopdatering.
  • EP1271319: En metode til at løse konflikter i datasynkronisering.

Der er også klassikerne, som fx. Amazons patent på 1-click køb, Realkredit Danmarks patenter på Flexlån og Adobes patent på palettabber.

Hvorfor påstår folk noget andet?

Den Europæiske Patentkonventions artikel 52, som foreskriver hvad der kan udtages patent på (navnlig “opfindelser”), siger klart at “programmer til computere” ikke kan udgøre en “opfindelse”.

Nogle debattører forsøger med dette udgangspunkt at påstå, at softwarepatenter er forbudt i Europa. Nogle går så langt at påstå, at de derfor ikke findes og at antallet af europæiske softwarepatenter er nul. Det er en endnu mere problematisk konklusion, fordi det udelukker at det Europæiske Patentkontor og domstolene ved en fejl tillader softwarepatenter.

Hvor mange softwarepatenter findes der i Europa?

Patenteksperten Florian Mueller mener at der findes flere hundrede tusinde softwarepatenter i Europa.

Hvordan tæller man antallet af softwarepatenter?

Alle tal er forbundet med stor usikkerhed. Ingen går og læser flere millioner patenter igennem for at finde softwarepatenter. Derfor bruges der altid automatiseret søgning. Det kan for eksempel være baseret på de klassifikationer der er tilknyttet alle patentskrifter, sammenholdt med en søgning efter bestemte nøgleord eller en bestemt kravstruktur, der kendetegner softwarepatenter.

Nogle nyere europæiske softwarepatenter indeholder faktisk begrænsningen “computer-implementeret” i metodekravene. Det er for eksempel tilfældet for Microsofts datasynkroniseringsmetode. I så fald er der højst sandsynligt tale om et softwarepatent.

Udover kravene, kan man også søge efter nøgleord i beskrivelsen. Softwarepatenter indeholder aldrig egentlig kode i kravene (man kan jo ikke få patent på et konkret program), men der er af og til kode eller pseudokode i beskrivelsen for at forklare hvordan patentet fungerer.

Der er altså 2 niveauer af usikkerhed: (1) Er du enig i forskerens definition af “softwarepatent”? (2) Er de filtre eller det program han eller hun bruger i overensstemmelse med den definition der er givet?

Det Europæiske Patentkontor tager mange penge for et fuldstændigt arkiv over alle europæiske patenter. Det samme materiale er gratis for amerikanske patenter, så der er langt mere forskning på det amerikanske område.

(Tilføjet 7. maj 2014.)

Siger artikel 52 noget som helst om softwarepatenter?

Det skulle man umiddelbart tro. På den anden side er konkrete computerprogrammer allerede beskyttet af ophavsret fordi der er tale om et kreativt værk. Mange ting, der beskyttes af ophavsret, kan ikke samtidig beskyttes af patent, og omvendt.

Det ville være overraskende, og lidt mærkeligt, hvis et computerprogram kan beskyttes af ophavsret i mindst 70 år og samtidig af et patent i 20 år. Et patent giver ofte en meget bredere beskyttelse end ophavsret. Af samme grund gælder beskyttelsen typisk i meget kortere tid.

Et patent er blandt andet kendetegnet ved at man kan krænke det selv uden at være klar over at patentet overhovedet eksisterer.

Man kan naturligvis ikke lave små, kosmetiske ændringer i et program og dermed omgå ophavsret (eller patent, hvis der fandtes patenter på computerprogrammer). Men man kan sagtens skrive et nyt program fra grunden med samme formål og funktion. Det er helt i tråd med de traditionelle rammer for ophavsret, men det ville være overraskende hvis man nemt kunne omgå et patent på samme måde. I så fald ville patenter på softwareprogrammer adskille sig væsentligt fra andre typer patenter.

Hvordan ville du have udformet artikel 52?

Jeg ville have udelukket at et program til en computer (eller en computer, der udfører programmet, eller et lagringsmedie der indeholder programmet, eller en person, som anvender en computer, der udfører programmet, eller selve anvendelsen) kan krænke et europæisk patent.

Hvis et softwarepatent ikke er et patent på et computerprogram, hvad er det så?

FFIIs definition handlede om en computers udførelse, instrueret af et computerprogram. Det er måske ikke det samme som selve programmet, men hvad er det så?

Her er det nyttigt med en historielektie og en lektie i komparativ patentjura. Vi snakker selvfølgelig om softwarepatenter i forbindelse med den forestående folkeafstemning om patentdomstolen den 25. maj 2014, men patenter er i høj grad et globalt område: de fleste lande er (formodentlig) forpligtede til at tillade softwarepatenter i en eller anden form på af handelsaftalen TRIPS, og mange patenter findes i forskellige lande i næsten enslydende form.

USA indeholder mange forskningstunge virksomheder og er et stort marked, så den amerikanske patentlovgivning har stor indflydelse på andre landes lovgivning og på udformningen af de patenter, der rent faktisk udstedes. I USA fik sin første patentlov i 1790, og loven er i dag tydeligvis nedarvet fra denne første lov, både når det kommer til substans og ordbrug.

Den europæiske patentkonvention siger at man kan få patent på “opfindelser”. I USA har den tilsvarende paragraf siden 1793 tilladt patenter på en af følgende fire typer opfindelser: en maskine (eller “indretning”), en metode (eller “fremgangsmåde”), en fremstillet genstand, og sammensætningen af et stof (for eksempel et molekyle).

Da man i 1960’erne og 1970’erne for første gang forsøgte at opnå softwarepatenter, var det derfor nødvendigt at skrive det som en af de 4 kategorier. Det er svært at påstå at computere har meget at gøre med sammensætningen af et stof, men det lykkedes at få det til at passe med de tre første kategorier. Man ser derfor følgende 3 typer patentkrav i amerikanske softwarepatenter (og mange europæiske softwarepatenter med ens ordlyd eller som er skrevet på samme måde):

  1. En computer (en maskine), som udfører en bestemt funktion implementeret ved hjælp af et computerprogram.
  2. En metode, som implementeres i form af et computerprogram.
  3. Et lagringsmedie (en fremstillet genstand), som indeholder et computerprogram med en bestemt funktion.

Hvis man ser på EP1209551, IBMs patent på en bestemt metode til adgangskontrol, ser man alle tre typer. Krav 1 til 9 er metodekrav, der beskriver nogle ting en computer kan gøre. Krav 10 beskriver en computer, der udfører funktionerne beskrevet i krav 1 til 9. Krav 11 beskriver et lagringsmedie, der indeholder instruktioner (altså et program) til at udføre de samme funktioner.

Der er altså 221 års tradition for at ting, der hører under disse fire kategorier, udgør opfindelser. Andre landes patentlove omhandler alle “opfindelser”, og det er måske bredere end hvad den amerikanske patentlov tillader, men det er forholdsvis nemt at argumentere for at hvis noget hører under en af de fire kategorier, så udgør det sandsynligvis en opfindelse.

Nu kan vi tydeligt se hvorfor den Europæiske Patentkonventions artikel 52 ikke begrænser softwarepatenter i nævneværdigt omfang: Artikel 52 undtager “programmer til computere” fra definitionen på en opfindelse. Men det er ikke sådan man normalt ville skrive et patent. Hvis man gjorde det, ville man kun opnå beskyttelse på et konkret computerprogram. Ved hjælp af et metodekrav kan man forbyde alle computerprogrammer med en bestemt funktion. Det er langt bedre. Og det konkrete program er stadig beskyttet af ophavsret.

Dem, der benægter eksistensen af europæiske softwarepatenter, påpeger ofte at “software som sådan” ikke kan patenteres. Det er, som vi kan se, ikke helt korrekt: det er mere præcist at sige at et konkret stykke software som sådan ikke kan patenteres. Til gengæld er det beskyttet af ophavsret i mindst 70 år, og man kan få patent på en hel kategori af software.

Jeg mener stadig at softwarepatenter er forbudt i Europa!

Så er de ikke tilladt noget sted i verden. Du må i princippet definere ord som du vil, men din definition er ikke ret nyttig.

Din definition på softwarepatenter er tilsyneladende “de patenter, der forbydes af de sidste 3 ord i den Europæiske Patentkonventions artikel 52(2)(c)”. Det kan du som sådan godt gøre, med henvisning til ytringsfrihed osv., men så er dit svar på spørgsmålet “er softwarepatenter tilladt i Europa?” tautologisk.

Meget af frygten for softwarepatenter i Europa er baseret på erfaringer fra USA. Mange amerikanske softwarepatenter findes i USA Europa med næsten ens ordlyd. Den type softwarepatenter, vi er bange for i USA, findes altså allerede som europæiske patenter.

Hvad er en “computer-implementeret opfindelse”?

En computer-implementeret opfindelse, eller CII, lyder tilsyneladende som det samme som et softwarepatent. Software er altid computer-implementeret. Hvis et stykke software ikke kan køre på en computer, er ikke software. Det er desuden en forudsætning for at få et patent, at man har udviklet noget, som patentkontoret anser som en “opfindelse”.

CII lyder altså umiddelbart som præcis det samme som et softwarepatent. Der er måske ikke perfekt overlap: man kan forestille sig opfindelser, som er computer-implementerede, men som ikke gør brug af software. En metode til at bruge en computer som dørstopper er for eksempel ikke et softwarepatent.

Det engelske udtryk “computer implemented invention” kan findes i faglitteraturen helt tilbage til 1970’erne, men den udbredte brug af ordet ser ud til at stamme fra et dokument fra det Europæiske Patentkontor fra 2000, der beskriver EPOs syn på patenter på computer-implementerede forretningsmetoder.

En fornuftig og brugbar definition på CII er derfor “de softwarepatenter, der er tilladt som europæiske patenter”.

Hvad er relevansen for folkeafstemningen om patentdomstolen?

Der findes mange modstandere af softwarepatenter i Europa og i Danmark. Mit Protokol-indlæg handler lidt mere om hvorfor softwarepatenter måske er en dårlig idé, men udgangspunktet er her en vis skepsis overfor deres eksistens. Hvis du er tilhænger af softwarepatenter, kan det måske være en god idé at stemme ja.

I dag skal europæiske patenter valideres nationalt for at blive gyldige. I Danmark skal patentkravene oversættes til dansk hvis der er tale om et engelsksproget patent, og hele patentskriftet skal oversættes hvis der er tale om et tysk- eller fransksproget patent. Der skal desuden betales et dansk gebyr.

Florian Mueller påstår at der findes flere hundrede tusinde europæiske softwarepatenter, men meget få af dem er valideret i Danmark, selv når der er tale om patenter udtaget af store virksomheder som Microsoft og IBM. Det skyldes sandsynligvis at Danmark er et lille marked og de ikke finder det rentabelt at validere i Danmark.

Når fremtidige softwarepatenter udstedes som europæiske patenter med fælles retsvirkning, vil det uden videre være gyldigt i Danmark. Det vil mangedoble antallet af nye softwarepatenter med dansk gyldighed fra cirka nul i dag til mindst et par tusinde om året.

Eksisterende softwarepatenter, herunder de eksempler jeg har givet her, vil ikke automatisk gælde. Men det er eksempler på hvad danske virksomheder skal leve med i fremtiden.

Men jeg har selv patenter!

Så er du en af de 0,3% af danske virksomheder, som har patent. Enhedspatentet kommer sandsynligvis til at træde i kraft uanset udfaldet af folkeafstemningen, og det giver dig beskyttelse i alle EU-lande undtagen Spanien, Italien og Polen.

Et nej til folkeafstemningen giver dig også en vis beskyttelse mod at blive sagsøgt for krænkelse af et softwarepatent, for eksempel i form af et modkrav. Hvis en mindre amerikansk virksomhed har tænkt dig at sagsøge IBM for at krænke et patent på din opfindelse, vil IBM søge i deres portefølje af patenter, og finde et par stykker sagsøgeren selv krænker.

Måske vælger de et patent du kan få omstødt eller som du slet ikke krænker. Du skal stadig bruge tid og penge på at bevise det i retten.

Det samme kan altså blive tilfældet i Europa om nogle år, når IBM og andre store virksomheder har samlet en portefølje på titusinder af enhedspatenter med virkning i Danmark.

Giver softwarepatenter effektiv beskyttelse?

Det er overraskende svært at vinde en patentsag som sagsøger. Patenter bliver ofte omstødt, og det viser sig ofte at de ikke er krænket. Softwarepatenter er særligt sårbare, blandt andet fordi det ofte viser sig at opfindelsen ikke er ny.

Store virksomheder kan imødekomme svage softwarepatenter ved at samle en stor portefølje af patenter, og ved hovedsageligt at bruge dem defensivt. En af grundene til at de såkaldte “patenttrolde” er så farlige er at de ikke selv sælger nogen produkter. Derfor kan du ikke forsvare dig mod dem ved at henvise til at de krænker en af dine egne patenter.

Softwarepatenter er ofte svage—påvirker de stadig mig?

Ja. Hvis du bliver truet med et trivielt softwarepatent, ved du måske at du højst sandsynligt kan få det omstødt. I Europa er det, i modsætning til USA, hovedreglen at vinderen får erstatning for sagsomkostninger (for eksempel advokatsalær), så hvis du vinder, har du kun mistet den tid du selv har brugt på sagen. Men der er altid procesrisiko: du kan komme til at tabe sagen selv om du har ret. Så skal du også betale modpartens advokatregning.

For trivielle softwarepatenter ejet af trolde, vil det typiske forløb være at du bliver tilbudt en licens for fx. 25.000 kr., og det kan bedre betale sig bare at betale den regning. Spørgsmålet er hvor mange gange 25.000 kr. du har råd til at betale.

Hvad mener du om den danske afdeling af patentdomstolen?

Hver patentsag skal behandles af et panel med 3 dommere. 1 til 2 af dem (afhængig af det årlige antal sager afdelingen behandler) skal være ikke-danske. Det vil være svært at finde nok dansktalende dommere til at gennemføre en sag på dansk.

Desuden giver patentdomstolens statut ikke en ubetinget ret til at gennemføre en sag på dansk. Artikel 49(1) siger at retten altid kan beslutte at behandle sagen på det sprog, patentet oprindeligt blev udstedt på.

Skal jeg til at lære tysk og fransk?

Måske. Der er en overgangsordning, så tysk- og fransksprogede patenter oversættes til engelsk. Efter overgangsordningen udløber, skal kun patentkravene oversættes til engelsk, som det er tilfældet i dag. Kravene definerer hvad patentet beskytter, men det kan være svært at forstå patentet uden at have adgang til beskrivelsen.

I forbindelse med en retssag har du krav på en dansk oversættelse, men det kan være en god idé at undgå at man rent faktisk havner i retten.

Er alle softwarepatenter dårlige?

Jeg vurderer dette spørgsmål baseret på hvorvidt et patent skaber innovation, og hvorvidt det hæmmer innovation. Med dette kriterie er det for eksempel nemmere at forsvare farmaceutiske patenter end andre typer patenter: Det er meget dyrt at udvikle lægemidler, og meget nemt at kopiere dem når de først er blevet udviklet og godkendt.

Indenfor softwarepatenter, er det lettest at forsvare patenter på komplicerede komprimeringsalgoritmer der for eksempel bruges i MP3- og H.264-standarderne. Det er tidskrævende at udvikle dem—omend ikke nær så dyrt som et lægemiddel—og det endelige produkt er forholdsvis let at kopiere, så ophavsret er ofte ikke tilstrækkelig beskyttelse. Det tyske forskningsinstitut Fraunhofer, som opfandt det meste af MP3, markedsfører software til kodning og afkodning af MP3-filer, men deres software er ikke nødvendigvis den bedste på markedet, og mange bruger fx. LAME eller implementeringer i hardware.

Patenter på komprimeringsalgoritmer bliver dog problematiske når de bruges i en standard. Fraunhofers ønske er ikke blot at nogle køber deres produkt: med standardisering og fordi der er tale om et filformat er det meningen at alle skal gemme deres musik som MP3. Det skaber problemer for open source software, hvor det er besværligt eller dyrt at købe en licens, men hvor der samtidig er et behov for at understøtte formatet.

Samtidig er der en interessekonflikt i de internationale udvalg, der udvikler standarderne: Mange af dem arbejder for firmaer, der ejer patenter på området. De har derfor et begrænset incitament til at vælge metoder og algoritmer, der ikke er beskyttet af patent. Og det er ofte muligt: Ogg Vorbis blev udviklet som et patentfrit alternativ til MP3. (Men pas på: Google frigav VP8/WebM som et frit alternativ til H.264-standarden, men der er muligvis patentproblemer, og kvaliteten er efter sigende dårligere.)

(Tilføjet 7. maj 2014.)

What is Netflix paying for?

30 Apr 2014

Rob Sterling objects to this graph from Know more:

It shows the change in Netflix streaming speeds for various ISPs since January 2013:

Know more/Netflix graph

After a little back and forth on Twitter, I think I mostly understand what he means. Mr. Sterling thinks the chart shows that the growth of bandwidth hungry video streaming has outstripped capacity on the last mile. If that were the case, or if were the case for the ISPs’ regional backbones that connect different local areas to each other, then that would obviously be a problem that requires expensive upgrades, and someone would have to pay for that.

However, that doesn’t explain the sudden jump in the streaming speed of Comcast subscribers starting in February. Comcast did not perform any last mile upgrades. We are told that Netflix does not receive any prioritization on the last mile at all, so streaming growing faster than last mile capacity cannot explain why Netflix speeds improved.

What Netflix received was access to Comcast’s network at various peering points throughout the country. Switch and router ports aren’t free, so it probably cost Comcast something, but the cost was negligible compared to the fee they receive from Netflix or what actual last mile or backbone upgrades would have cost.

You may think that Comcast should charge Netflix in some way (I would disagree)—that even if Comcast doesn’t need the money for any immediate upgrades, the rents will be an incentive for some new entrant to displace Comcast. The only leverage Comcast has is to restrict peering access to Netflix or Netflix’s transit provider. But economically, the rents that Comcast would gather should not be seen as direct compensation for the capacity that Netflix is using. You could see it as simply adding to the rents that Comcast’s subscribers are paying, and if you love rents, you’ll love this one.

The only relevant capacity that could be outstripped is in the last mile, and that has not occurred.

When I pay Time Warner Cable for my 50 Mbps, I expect to get that at least speed to some TWC switch in the New York area. I know that it’s not guaranteed all the time all the way to any arbitrary host on the Internet. In my particular case, it’s a cable connection, so it’s shared with a bunch of my neighbors; nonetheless, we have collectively paid for whatever shared bandwidth the DOCSIS 3.0 equipment provides for, all the way to the TWC’s backbone, where Netflix or its transit provider would connect to under a peering arrangement.

Going back to the original chart, does it show that streaming grew faster than last-mile capacity? No. It shows that streaming grew faster than capacity at the ISPs’ peering points with Netflix’s transit provider. That’s why Cablevision and Cox are so much faster than the other ISPs—they don’t have a faster last mile, but they have settlement free peering and Netflix caches in their network. (Google Fiber peers with Netflix too, but they also have have a newer and faster last mile infrastructure.) That’s also why Comcast was able to quickly improve Netflix speeds without prioritization or changing anything at all in the last mile: they expanded peering with Netflix after being paid to do so, which is a very fast process.

Oil, Putin and windfalls

11 Mar 2014

John Aziz argues that unleashing the US Strategic Petroleum Reserve won’t hurt Russia. The premise is a proposal to release oil from the reserve to lower oil prices:

As of now, Putin is profiting from his invasion. That is because oil prices are up on the risk of a supply disruption. This enriches the Russian state budget, half of which is supported from oil and gas exports. But economist Philip Verleger notes that prices can go down as well as up, and he recommends inflicting pain by engineering the former.

John makes some good points. I found this one particularly interesting:

Second, even if the strategy lowers oil prices, it will injure large American and European companies, as well as their employees and customers. The revenues of oil giants like Shell, Exxon Mobil, and BP — each of which employs thousands of people — are dependent on the price of oil. The costs of a global price drop will either be felt in falling profits, or passed onto consumers.

Presumably the plan is to release just enough crude oil to lower prices to the level they would be at were it not for the Ukrainian crisis, and perhaps even stopping short of that. The oil industry would lose a windfall that they only gained because of a political crisis. Maybe you believe that windfalls should be protected at all costs, but I think there’s a case to be made that confiscating this windfall is an acceptable cost if the rest of the case for releasing reserves is solid.

He goes on to propose freer natural gas exports instead:

As I have argued before, natural gas is a far more appropriate tool to gradually undermine Putin's leverage over Europe. The U.S. has world-leading natural gas reserves, and boasts very cheap natural gas prices compared to Europe. Many countries in Europe are totally dependent on (expensive) Russian natural gas that Putin can cut off whenever it is politically convenient.

If unrestricted natural gas exports are allowed, natural gas prices in the US will probably rise, with the consumers paying much of the cost. Why is it okay to take away US natural gas consumers’ windfall (caused by a government policy of restricting exports), but not oil company shareholders’ and employees’ windfall (caused by a government policy of restricting the petrolum reserve)?

Is there a gender gap in tech salaries?

03 Mar 2014

Cynthia Than at Quartz brings us the delightful headline “There is no gender gap in tech salaries” based on a study from AAUW. The study is based on non-public data and is, unfortunately, not very rigorously documented.

The key conclusion from the article is that there is no gender gap in salaries for engineers and those working in math, computer and physical science occupations. As far as I can tell, that result comes from this figure in the study:

Figure 8

From this figure, you would think that male and female engineers have exactly the same average earnings, $55,046. There are a number of problems with the way this is presented and with the underlying study and its interpretation.

If you go to the underlying tables, you’ll find that male and female engineers do not have the same earnings. This data is based on earnings for full time employees in 2009, a year after the sample graduated college in 2008, and is restricted to those who were 35 years or younger at graduation. I wasn’t able to recreate the figure precisely using the Department of Education’s online tool, but I got pretty close to overall average earnings for this group of engineers of $55,076. Here’s what happens when you chart it out by sex:

Gap for Engineers

That’s right: in levels, female engineers make about 11% less than men one year out of college.

Both Cynthia Than and the researchers behind the study claim that the difference is not statistically significant. That may be true, but it’s still misleading to simply show the same bars for the two groups. If you want to make a point about significance, use error boxes or something like that.

Is there, in fact, an insignificant difference? I’m not sure. NCES has a helpful tool for calculating the t-statistic:

The tool tells us that the value is 2.25, which means that the gender gap is statistically significant. I am not sure because it’s possible that more thought was put into Figure 8 than is apparent from the notes. Let’s get back to that.

You might think that it’s weird to only look at gender gap for earnings one year after graduation. It could be because the data set only contains that variable. But why did they pick that particular data set when other datasets, such as the American Community Survey, have more data? Perhaps to control for additional variables such as the rank of the college and GPA that are not present in ACS. There’s also an argument that restricting to earnings one year out of college helps control for the motherhood penalty and other factors.

That could be true, but it still only tells you something about earnings for a very limited set of workers. You wouldn’t be able to conclude that there is no gender gap in tech salaries; for example, they could show up later in the career.

Figure 13 of the study has what appears to be a carefully done regression that shows a statistically significant gender gap of 6.6% across all occupations, controlling for things such as hours worked, economic sector, undergraduate GPA and whether the undergraduate degree was from a very selective institution. That’s the only specification shown, so we are not shown any evidence that these extra controls actually affect the size of the gender gap (the regression coefficient on female).

The conclusion of the Quartz article was that there is no gender gap in tech. It’s not clear that Figure 8 is based on a regression that controls for anything at all. The notes say:

This chart shows average earnings 2007–08 bachelor’s degree recipients employed full time in 2009 and excludes graduates older than age 35 at bachelor’s degree complation. In occupations with red and green columns shown, men earned significantly more than women. In occupations with one blue column shown, there were no significant gender differences in earnings one year after graduation.

There’s no mention of control variables, or a regression, or how the regression was made (for example, restricting to tech workers, or introducing gender×occupation interaction dummies). It’s still a mystery how they arrived at the conclusion that there’s no difference, or why they created a misleading chart, or whether they performed a full analysis of the gender gap by occupation, and if so, why the results are not reported. And if we don’t control for these things, what’s the point of using a small study that only has data for earnings one year after graduation?

I do think it’s safe to say that this study, as reported, does not have enough evidence to conclude anything about occupational gender gaps, whether it’s for earnings one year after graduation or at any other time in workers’ careers.

Another question is whether all of those controls are appropriate (if they were included). One of my teachers once told me that social scientists overcontrol. What he meant was that a social scientist tends to be interested in the partial effect of one variable controlling for every other conceivable variable, but the public or policy makers may not be interested in the partial effect: if women make less than men, they may think that’s a problem, whatever the reason. You may still want to include plenty of controls for efficiency, but your reader may be more interested in a result that has those controls integrated away. In this case neither undercontrolled nor overcontrolled results are accurately reported.

Update: Cynthia Than tells me that the significance results from Figure 8 control for education, work status, occupation and career timing. As far as I can tell she got that in private email communication with one of the study’s authors. (The authors’ email addresses are not in the report or readily accessible on the AAUW website, by the way, so there’s no way for anyone else to ask questions about it.)

I don’t want to belabor this point too much because even if everything is done correctly, Quartz is still trying to draw general conclusions about the gender wage gap based only on salaries one year out of graduation. This is a point about external validity: all the arguments in favor of using salaries one year after graduation only establish that those salaries can be measured with less error and fewer confounding factors than, say, salaries 20 years after graduation. They do not establish that salaries one year after graduation are of particular interest.

However, I still think we should be careful with a report that lacks full documentation on its methodology and how the results are constructed. We are not given regression specifications, results from alternative specifications, sample sizes, t-statistics, or even a full list of control variables for Figure 8 (except what was privately communicated to Than). I don’t necessarily fault the study authors for omitting this in a report for general consumption when Figure 8 is only a minor aspect of the whole report. But without more information about that aspect of the study, I would be very cautious in relying on it, and in making the general conclusion that there is no gender gap in tech salaries.

I’ve been trying hard to find good data on this and again it’s been hard. The NCES tool initially looked useful. Presumably because of sample size related privacy issues, it refused to give me average wages by gender for tech professions other than Engineers. That raises concerns about statistical power. It’s possible that the online tool is based on a smaller sample than what the AAUW researchers had access to. If only either the online tool or the AAUW study would report sample sizes!